应用统计期末考试试题
青岛导游词-湖北高考一本线
应用统计
期末论文
数学科学学院
韩俊
2011年12月26日
一、数据见参考书1第160页习题3.1
1、计算该数据的均值、方差、标
准差、极差、标准误、变异系数、偏度、峰度、
25%和75%分位数,并给出这些量的含义。
解:R语言求解结果如下:
a=c(74.3 ,78.8, 68.8, 78.0,
70.4, 80.5, 80.5, 69.7, 71.2, 73.5,
+ 79.5,
75.6, 75.0, 78.8 ,72.0, 72.0, 72.0 ,74.3, 71.2,
72.0,
+ 75.0 ,73.5, 78.8 ,74.3 ,75.8 ,65.0
,74.3, 71.2 ,69.7 ,68.0,
+ 73.5 ,75.0, 72.0,
64.3, 75.8, 80.3 ,69.7 ,74.3 ,73.5 ,73.5,
+
75.8, 75.8 ,68.8 ,76.5 ,70.4 ,71.2 ,81.2, 75.0,
70.4, 68.0,
+ 70.4, 72.0 ,76.5, 74.3 ,76.5,
77.6, 67.3 ,72.0, 75.0 ,74.3,
+ 73.5, 79.5,
73.5, 74.7 ,65.0 ,76.5, 81.6 ,75.4, 72.7, 72.7,
+ 67.2, 76.5, 72.7, 70.4, 77.2, 68.8, 67.3
,67.3, 67.3 ,72.7,
+ 75.8 ,73.5 ,75.0, 73.5
,73.5 ,73.5, 72.7, 81.6, 70.3, 74.3,
+ 73.5
,79.5, 70.4, 76.5 ,72.7, 77.2 ,84.3, 75.0 ,76.5
,70.4);
> mean(a)
[1] 73.668
> var(a)
[1] 15.51513
> sd(a)
[1] 3.938925
> range(a)
[1] 64.3 84.3
>
sd(a)sqrt(length(a))
[1] 0.3938925
>
sd(a)mean(a)
[1] 0.0534686
> n=length(a);
> s=sd(a);
> =mean(a);
>
g1=n((n-1)*(n-3))*sum(()^3)(s^3)
> g1
[1]
0.05461661
> g2=n*(n+1)((n-1)*(n-2)*(n-3))*sum
(()^4)(s^4)-3*((n-1)^2)((n-2)*(n-3));
> g2
[1] 0.03702249
> quantile(a)
0% 25%
50% 75% 100%
64.3 71.2 73.5 75.8 84.3
>
fivenum(a)
[1] 64.3 71.2 73.5 75.8 84.3
将结果总结成下表:
均值
73.668
峰度
方差
15.51513
标准差
3.938925
极差
20
标准误
0.393825
中位数
变异系数
5.34686%
偏度
0.05461661
25%分位数 75%分位数
众数
0.03702249 71.2 75.8 73.5 73.5
样本均值描述的是样本数据取值的平均位置,是反映数据指标的一个重要特征,但其容易受
到异常数据
的影响,如果样本量较小,出现了异常值,则样本均值就会因异常值的存在受到
很大的影响,此时的样本
均值往往不能够代表整体的信息。
方差反映的样本数据的波动情况,描述的是数据的分散性,方差越大,说明数据的波动就也
大。
标准差是方差的开方,与方差一样,也是反映数据波动情况的统计量。
极差可以反映数据的离散程度,一般说来,极差越小,说明数据的离散程度就越小。
标准误是
s
m
s
n
,由于它是方差平均的开方,平均后的值与样本
数量的大小无关,可以
用于比较两个不同样本的离散程度特征。
变异系数是数据相对
分散性的一种度量,不受数值变量单位的影响,常用于比较不同来源的
观测样本数据的离散程度。 偏度描述的是随机变量取值分布对称性的统计量,偏度为0,说明随机变量密度函数具有对
称性,与
正态分布的偏度相同;偏度值大于0,值越大时,说明密度函数是右偏越大,密度
函数的长尾巴拖在右边
;偏度值小于0,绝对值越大,说明密度函数是左偏越大,密度函数
的长尾巴拖在左边。
峰度
描述的是随机变量密度函数取值布陡峭程度的统计量,峰度为0,说明随机变量密度函
数与正态分布密度
函数的陡峭程度相同;峰度值大于0,比正态分布陡峭程度更大,为尖顶
峰;峰度值小于0,说明比正态
分布的陡峭程度小,为平顶峰。
25%分位数,75%分位数也是重要的统计量,分别记为
Q
1
,Q
3
,记四分位间距为
Q
d
Q
3<
br>Q
1
,
常用闭区间
[Q
1
1.5Q
d<
br>,Q
3
1.5Q
d
]
来反映数据的离群数据,若数据位于<
br>[Q
1
1.5Q
d
,Q
3
1.5Q
d<
br>]
外,则认为该数据为离群数据。四分位间距
Q
d
Q
3Q
1
也是度量
数据离散程度的一种指标,越小表明数据越集中于中位数。 样本中位数是样本数据取值的为中间位置的数据,相对均值来说,是比较稳定的统计量,一
般不会受
到异常值的影响。
众数是样本中某一值出现的次数最多的数,有些数据反映的是属性,这时无法用均值
以及众
数来描述,此时用众数便可分类变量的“中心”。
2、绘出该数据的直
方图、密度估计曲线、经验分布图、茎叶图、箱线图,并解
释通过这些图得到的统计信息或统计特征。
解:用R软件求解:
> a=c(74.3 ,78.8, 68.8, 78.0,
70.4, 80.5, 80.5, 69.7, 71.2, 73.5,
+ 79.5,
75.6, 75.0, 78.8 ,72.0, 72.0, 72.0 ,74.3, 71.2,
72.0,
+ 75.0 ,73.5, 78.8 ,74.3 ,75.8 ,65.0
,74.3, 71.2 ,69.7 ,68.0,
+ 73.5 ,75.0, 72.0,
64.3, 75.8, 80.3 ,69.7 ,74.3 ,73.5 ,73.5,
+
75.8, 75.8 ,68.8 ,76.5 ,70.4 ,71.2 ,81.2, 75.0,
70.4, 68.0,
+ 70.4, 72.0 ,76.5, 74.3 ,76.5,
77.6, 67.3 ,72.0, 75.0 ,74.3,
+ 73.5, 79.5,
73.5, 74.7 ,65.0 ,76.5, 81.6 ,75.4, 72.7, 72.7,
+ 67.2, 76.5, 72.7, 70.4, 77.2, 68.8, 67.3
,67.3, 67.3 ,72.7,
+ 75.8 ,73.5 ,75.0,
73.5 ,73.5 ,73.5, 72.7, 81.6, 70.3, 74.3,
+
73.5 ,79.5, 70.4, 76.5 ,72.7, 77.2 ,84.3, 75.0
,76.5 ,70.4);
> hist(a,freq=FALSE)
>
lines(density(a),col=
> x=64.3:84.3
>
lines(x,dnorm(x,mean(a),sd(a)),col=
> stem(a)
> boxplot(a)
plot(ecdf(a),verticals=TRUE,do.p=FALSE)
>
x=64.3:84.3
> lines(x,pnorm(x,mean(a),sd(a)))
> lines(x,pnorm(x,mean(a),sd(a)),col=
下面是样本数据的直方图:
直方图可以较直观的看出样本数据在各个不同区间的分
布情况,从图中可以看出,样本数据
落在
[70,76.25]
的较多,而在其他区间
中的值就较少。
上图蓝线是核密度估计图,根据强大数定律,可以用频率近
似概率,样本充分大时,可以用
样本密度分布去近似总体的密度分布。
上图我们以
样本数据的均值和方差作为正态分布的均值和方差,画出对应的正态分布的密度
函数,对比核密度估计图
和相应的正态分布的密度函数我们可以看出密度估计曲线与正态分
布的概率密度曲线有一定的差别,但是
差别不是很大,在不太严格的条件下,可以认为样本
数据服从正态分布。
下面给出
样本数据的经验分布函数,红线表示的以样本均值和方差分别作为正态分布的均值
和方差的分布函数图。
经验分布函数可以大致反映出总体的分布函数,是总体分布函数的一
个近似,根据强大数定律,样本充分
大时,样本的分布函数趋于总体的分布函数。
下面是样本数据的茎叶图:
The
decimal point is at the |
64 | 300
66 | 23333
68 | 00888777
70 | 344444442222
72 | 7555555555555
74 | 33333333788
76 | 5555555226
78 |
0888555
80 | 355266
82 |
84 | 3
茎叶图可以直观反映样本数据落在不同区间上的疏密程度,制作方便,不损失样本数据的任
何信
息。但当样本容量较大时,就不宜使用茎叶图了。
上图是样本数据的箱线图,包含样本五数
概括的信息。可以直接观测出样本是否存在离群值。
从图中可以看出,64.3,84.3为异常值,说
明数据很可能是统计数据时出现了错误。离群值
对样本的均值和方差的影响都很大,离群值通常不能代表
总体的信息,在考虑样本时应该将
其去掉。
3、检验该数据是否服从正态分布。
首
先我们可以画出QQ图,看样本数据是否服从正态分布。然后再用shapiro方法与之进行
比较。
> a=c(74.3 ,78.8, 68.8, 78.0, 70.4, 80.5,
80.5, 69.7, 71.2, 73.5,
+ 79.5, 75.6, 75.0,
78.8 ,72.0, 72.0, 72.0 ,74.3, 71.2, 72.0,
+
75.0 ,73.5, 78.8 ,74.3 ,75.8 ,65.0 ,74.3, 71.2
,69.7 ,68.0,
+ 73.5 ,75.0, 72.0, 64.3, 75.8,
80.3 ,69.7 ,74.3 ,73.5 ,73.5,
+ 75.8, 75.8
,68.8 ,76.5 ,70.4 ,71.2 ,81.2, 75.0, 70.4, 68.0,
+ 70.4, 72.0 ,76.5, 74.3 ,76.5, 77.6, 67.3
,72.0, 75.0 ,74.3,
+ 73.5, 79.5, 73.5, 74.7
,65.0 ,76.5, 81.6 ,75.4, 72.7, 72.7,
+ 67.2,
76.5, 72.7, 70.4, 77.2, 68.8, 67.3 ,67.3, 67.3
,72.7,
+ 75.8 ,73.5 ,75.0, 73.5 ,73.5 ,73.5,
72.7, 81.6, 70.3, 74.3,
+ 73.5 ,79.5, 70.4,
76.5 ,72.7, 77.2 ,84.3, 75.0 ,76.5 ,70.4);
>
qqnorm(a)
> qqline(a)
得到的QQ图为:
从图中可以看出,样本的数据近似地可以看成是服从正态分布。。
采用shapiro-
Wilk检验来检验是否服从正态分布。
> (a)
Shapiro-
Wilk normality test
data: a
W = 0.9901,
p-value = 0.6708
求得p值为0.6708,在显著性水平为5%时应该接受原假设。
说明了样本数据可以接近
地认为其服从正态分布,这与上面通过比较核密度曲线和正态分布
曲线有一定的结论是一致的。
4、给出该数据这100女生血清总蛋白含量平均值的一个点估计和置信度95%的
区间估计,解释置
信度95%的含义。
解:可以用样本均值73.688作为总蛋白含量的平均值的一个点估计,根据强
大数定律,用
样本均值73.688作为总蛋白含量的平均值的点估计为无偏估计。
由于总体的方差
2
是未知的,我们便可以构造T检验统计量:
T
X
X
n
~t(n1)
2
Sn
(n1)S
(n1)
2
因此可以得到
置信度为
1
的区间估计,置信区间为:
[X
利用R求得:
SS
t
(n1),Xt
(n1)]
n
2
n
2
mean df a
b
1 73.668 99 72.88643 74.44957
由上面的程序就可以知
道,在置信度为95%下得到的区间估计为[72.88643,74.44957]。置信
区间为随机
区间,两个端点为随机变量,置信度95%的表示的是做100次的区间估计中约有
95次使得总体均值
u
落在置信区间中。
5、如果又得到另一个单位120名女生的血清总蛋白含量,把
第一组数据记为A
单位,这组数据记为B单位,如何判断这两个单位女生的血清总蛋白含量的均
值是否相同,请解释你使用的方法和可能得到的结论。
2
设A服从
N(u<
br>1
,
1
2
)
,B服从
N(u
2<
br>,
2
)
,
1
,
2<
br>未知,一般情况下,我们只能认为
1
2
的条件下作假设检验,便可以用t检验来比较两个样本的均值是否相等。
构造检验统计量:
双侧检验:
H
0
:
1
2
;H
1
:
1
2
构造检验统
计量:
T
XY
SS
n
1
n
22
1
2
2
~t(v)
222
S
1<
br>2
S
2
(S
1
2
)
2
(S
2
)
2
v()(
2
2
)
n
1
n
2
n
1
(n
1
1)n
2
(
n
2
1)
当检验统计量
Tt
(v),
为显著性水平
2
则
认为
H
0
:
1
2
;
不成立,接受备择假设。
当检验统计量
Tt
(v),
为显著性水平
2
则
无法拒绝原假设
H
0
:
1
2
;
,我们接受原假设。
二、数据见参考书1第473页习题9.2
1、建立销售量Y与这4个协变量的回归方程。
解:由于事先我们不知道销售量与居民收入分
配,平均价格指数等的关系,为简便起见,我
们首先做出线性回归模型,看
Y
是否X
1
,X
2
,X
3
,X
4
有线性的关
系。
> consumer<-(
+ X1=c(82.9,88.0,99.9,105
.3,117.7,131.0,148.2,161.8,174.2,184.7),
+
X2=c(92,93,96,94,100,101,105,112,112,112),
+ X
3=c(17.1,21.3,25.1,29.0,34.0,40.0,44.0,49.0,51.0,5
3.0),
+
X4=c(94,96,97,97,100,101,104,109,111,111),
+ Y
=c(8.4,9.6,10.4,11.4,12.2,14.2,15.8,17.9,19.6,20.8
)
+ )
> <-lm(Y~X1+X2+X3+X4,data=consumer)
> summary()
Call:
lm(formula =
Y ~ X1 + X2 + X3 + X4, data = consumer)
Residuals:
1 2 3
4 5 6 7
0.024803
0.079476 0.012381 -0.007025 -0.288345 0.216090
-0.142085
8 9 10
0.158360 -0.135964 0.082310
Coefficients:
Estimate Std.
Error t value Pr(>|t|)
(Intercept)
-17.66768 5.94360 -2.973 0.03107 *
X1
0.09006 0.02095 4.298 0.00773 **
X2
-0.23132 0.07132 -3.243 0.02287 *
X3
0.01806 0.03907 0.462 0.66328
X4
0.42075 0.11847 3.552 0.01636 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’
0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard
error: 0.2037 on 5 degrees of freedom
Multiple
R-squared: 0.9988, Adjusted R-squared: 0.9978
F-statistic: 1021 on 4 and 5 DF, p-value:
1.827e-07
求得回归模型为
Y17.667680.09X
1
0.23132X
2
0.018X
3
0.421X
4
由P值可以知道,在显著性水平为5%的条件下,回归方程不能通过显著性检验,因此我们
Y与
X
1
,X
2
,X
3
,X
4
的
线性回归不合适。
因此,我们首先分别画出变量Y与每个变量散点图,粗略地看变量Y是否每个变量有线性关
系:
绘制
Y
与
X
2
的散点图
绘制
Y
与
X
3
的散点图
绘制
Y
与
X
4
的散点图
从图中可以大概地判断出变量Y并不是与每个变量都是线性关系。同时我们仔细分析前面得
到的线性回
归方程
Y17.667680.09X
1
0.23132X
2
0.018X
3
0.421X
4
,从实际
情况中看,发现可能
并不合理,因为当社会其它消费品的平均价格指数增加时,说明消费者
在消费总量一定的前提下,因为会
花较多的钱去购买其它的商品,导致其该买该类消费品的
量也会下降,当然实际中也有可能是其它商品价
格上涨,则出现该商品的消费量增加。
总之,得出上述回归方程不合理的原因,可能是变量之间有多重
共线性,或者Y与自变量之
间并不是线性的关系,有可能是非线性的关系。为此,我们考虑利用主成分分
析来减少变量
的个数。
2、利用主成分回归方法建立销售量Y与这4个协变量的回归方程。
由上面我们用
线性回归模型求得的结果并不合理,因此我们需要变量做主成分回归,先做主
成分分析。
>
consumer<-(
X1=c(82.9,88.0,99.9,105.3,117.7,13
1.0,148.2,161.8,174.2,184.7),
X2=c(92,93,96,94,100,101,105,112,112,112),
X3=c(17.1,21.3,25.1,29.0,34.0,40.0,44.0,49.0,51.0
,53.0),
X4=c(94,96,97,97,100,101,104,109,111,111),
Y=c(8.4,9.6,10.4,11.4,12.2,14.2,15.8,17.9,19.6,20
.8)
)
>
=princomp(~X1+X2+X3+X4,data=consumer,cor=T)
>
summary(,loadings=TRUE)
Importance of
components:
Comp.1
Comp.2 Comp.3 Comp.4
Standard
deviation 1.9859037 0.199906992
0.11218966 0.
Proportion of Variance
0.9859534 0.009990701 0.00314663 0.
Cumulative Proportion 0.9859534
0.995944090 0.99909072 1.
Loadings:
Comp.1 Comp.2 Comp.3 Comp.4
X1
-0.502 -0.237 0.579 0.598
X2 -0.500 0.493
-0.610 0.367
X3 -0.498 -0.707 -0.368 -0.342
X4 -0.501 0.449 0.396 -0.626
Z
1
0.502X
1
0.5X
20.498X
3
0.501X
4
Z2
0.237X
1
0.493X
2
0.70
7X
3
0.449X
4
注意
2
0.1999
2
0.04
,
所以可以认为变量之间存在多重共线性。
下面作主成分回归:
Call:
lm(formula = y ~ z1,
data = consumer)
Residuals:
Min
1Q Median 3Q Max
-0.72237
-0.20946 0.05154 0.21032 0.81856
Coefficients:
Estimate Std.
Error t value Pr(>|t|)
(Intercept)
14.03000 0.16615 84.44 4.32e-13 ***
z1
-2.06119 0.08367 -24.64 7.87e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’
0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard
error: 0.5254 on 8 degrees of freedom
Multiple
R-squared: 0.987, Adjusted R-squared: 0.9854
得到回归方程为:
Y14.032.06119Z
1
由求得的结果可以看出,回归方程和回归系数在显著性水平为
0.05
时,均通
过了检验。
上述方程为相应变量与主成分的关系,不容易看出与原来变量之间的关系。
beta<-coef();A<-loadings()
>
<-$$center;<-$$scale
> coef<-beta[2]*A[,1]
>
beta0<-beta[1]-sum(*coef)
> c(beta0,coef)
(Intercept) X1 X2 X3 X4
-23.77771861
0.02992643 0.13365158 0.08361156 0.16965187
<
br>进一步我们可以求得:
Y23.7780.03X
1
0.134X2
0.084X
3
0.17X
4
3、请解释你所得到的结论。
对比通过多元线性回归得到
Y17.66768
0.09X
1
0.23132X
2
0.018X
3
0
.421X
4
和主成分回归得到
Y23.7780.03X
1
0.134X
2
0.084X
3
0.17X
4
。
我们发现主成分分析虽然可以消除因素的多重共线性,但是我们分析分
析主成分回归的得到
的表达式,虽然回归方程通过了显著性检验,但表达式存在明显的不合理。按照经济
学对商
品的划分,除了吉芬商品随着价格的上升,消费量增加外,其它商品的消费量随价格的增加
均减少,而吉芬商品是很少见的,这里我们可以认为该类消费品不是吉芬商品,那么该回归
方程就存在
明显的不合理。出现这种情况的原因可能是样本的数据量太少,也有可能是自变
量之间有较强的相关性,
相互之间有较大的影响等,这些会导致得到的表达式中X
2
前面的
系数是负的。
三、数据见参考书1第421页习题8.4
1、分别用最短距离法、最长
距离法、均值法、重心法和Ward法作聚类分析,
并画出相应的谱系图。
利用R的程序为:(由于数据太多,将其省略掉了)
names=c(
UIT
r=matrix(x,nrow=15,dimnames=list(names,names))
d=(1-r);
hc1=hclust(d,
hc2=hclust(d,
hc3=hclust(d,
hc4=hclust(d,
hc5=hclust(d,plclust(hc1,hang=-1);re1<-(hc1,k=5,border=
pl
clust(hc2,hang=-1);re1<-(hc2,k=5,border=
plclus
t(hc3,hang=-1);re1<-(hc3,k=5,border=
plclust(hc
4,hang=-1);re1<-(hc4,k=5,border=
将求得的结果归纳为如下:
分类结
果
第一类
第二类 第三类 第四类 第五类
最短
距离
法
最长
距离
法
均值
法
重心
法
Ward
法
AA APP FL HON,LA,KJ
DRV,POT,LC,GSP,SC,
SMS,AMB,EXP,SUIT
FL,EXP,SUIT HON,LA,KJ APP DRV,POT,LC,GSP, AA
SC,SMB,AMB
HON,LA,KJ
APP
HON,LA,KJ
APP AA
AA
AA
FL,EXP,SUIT
HON
FL,EXP,SUIT
POT,LC,GSP,DRV,
SC,SMB,AMB
DRV,POT,LC,GSP, FL,EXP,SUIT
SC,SMS,AMB,LA,KJ
APP POT,LC,GSP,DRV,
SC,SMB,AMB
动态聚类的结果为:
Clustering
vector:
FL APP AA LA SC LC HON
SMS EXP DRV AMB GSP POT KJ SUIT
4
5 3 1 2 2 1 2 4 2 2
2 2 1 4
动态聚类
第一类
LA,HON,KJ
第二类 第三类 第四类
FL,EXP,SUIT
第五类
APP SC,LC,DRV, AA
AMB,GSP,POT
由分类的结果可以知道
AA(专业能力)在所有分类中均未单独一类,APP(外貌)也是,
有相关系数表可以知道,
这两个变量与其它变量的相关系数均较小。
四、数据见参考书1第474页习题9.4,题图与习题9.4相同
x1=c(99,99,100,93,100,90,75,93,87,95,76,85);
x2=c(94,88,98,88,91,78,73,84,73,82,72,75);
x3=c(93,96,81,88,72,82,88,83,60,90,43,50);
x4=c(100,99,96,99,96,75,97,68,76,62,67,34);
x5=c(100,97,100,96,78,97,89,88,84,39,78,37);
x=c(x1,x2,x3,x4,x5);
X=matrix(x,nrow=12);
y=cor(X)
names=c(
R=matrix(0,nrow=5,nco
l=5,dimnames=list(names,names))
for(i in 1:5){
for(j in 1:5){
R[i,j]=y[i,j]
}
}
factor=factanal(factors=2,covmat=R);
factor
程序运行结果为:
Call:
factanal(factors = 2, covmat = R)
Uniquenesses:
x1 x2 x3 x4
x5
0.005 0.141 0.494 0.005 0.346
Loadings:
Factor1 Factor2
x1 0.992
0.104
x2 0.854 0.360
x3 0.497
0.509
x4 0.284 0.956
x5 0.132
0.798
Factor1 Factor2
SS loadings 2.059 1.950
Proportion
Var 0.412 0.390
Cumulative Var 0.412
0.802
The degrees of freedom for the
model is 1 and the fit was 0.0387
第一公共因子中,系数绝对
值大的变量主要是:语文(x1),政治(x2),主要体现的是一个学
生学习文科性的科目的能力,如
记忆等能和感性思维。
第二公共因子中,系数绝对值大的变量主要是:数学(x4),物理(x5),
主要体现一个学生学
习理科的能力,如数理逻辑推理等能力。
beta<-coef();A<-loadings()
>
<-$$center;<-$$scale
> coef<-beta[2]*A[,1]
>
beta0<-beta[1]-sum(*coef)
> c(beta0,coef)
(Intercept) X1 X2 X3
X4
-23.77771861 0.02992643 0.13365158
0.08361156 0.16965187
用回归方法求得的第1公共因子,第2 公共因子的得分散点图为
c=(X)
>
fa=factanal(~.,factors=2,data=c,scores=
Factor1 Factor2
1 0.84656371 0.7229406
2 0.83515550 0.6689879
3 0.99429724
0.4816552
4 0.14232467 0.8761425
5
0.97470709 0.4640493
6 -0.09897287
-0.2501506
7 -1.96504255 1.3944047
8
0.30581398 -0.7165921
9 -0.46755338
-0.1088155
10 0.57227279 -1.1222450
11
-1.68969752 -0.1927343
12 -0.44986866
-2.2176426
> plot(fa$$scores[,1:2],type=
>
text(fa$$scores[,1],fa$$scores[,2])
运用Bartlett计算出的因子得分为
c=(X)
>
fa1=factanal(~.,factors=2,data=c,scores=
>
fa1$$scores
Factor1 Factor2
1
0.84949916 0.7255642
2 0.83814958
0.6713007
3 0.99856099 0.4824476
4
0.14114233 0.8812845
5 0.97890486
0.4647756
6 -0.09894822 -0.2514891
7 -1.97867983 1.4074554
8 0.30904581
-0.7217354
9 -0.46981968 -0.1084550
10
0.57783480 -1.1305072
11 -1.69833306
-0.1901825
12 -0.44735673 -2.2304588
>
plot(fa1$$scores[,1:2],type=
>
text(fa1$$scores[,1],fa1$$scores[,2])
得到的散点图为:
对比回归方法和Bartlett方法,得到结果总结成下表:
1,2因子得分都1,2得分都是中1得分高,2得分1等分低,2得分
高(文理都好)
等(文理均中等) 较低(文好于理) 高(理好于文)
1,2,3,4,5 6,8,9,10
12 7,11
回归法
Bartlett方法
1,2,3,4,5
6,8,9,10 12 7,11
从结果可以看出,对比两种方法得到的结果是几乎相同的。1,2
,3,4,5号学生的文理两种性质
的科目学得都比较好,6,8,9,10号学生的文理科学得比较均
等,都属中等水平,没有明显的
分科,而7,11则有偏科现象,文科性的学习比理科性的学习要差,1
2则是理科性的学习比
文科性的学习差。
五、论述题
使用本课程的统计方法对我国
房地产价格的现状做统计分析研究。(采集什么数
据,使用什么分析数据的方法等等)。
问题
分析:影响房地产价格的因素很多,通过查找文献,我们知道了影响房价的因素主要有
GDP,房地产相
关环节税收,存贷款利率,房地产相关环节税收,存贷款利率,物价指数,
房地产土地供应量,房地产开
发成本,人口密度,购房需求者数量,人口结构,购房需求者
收入,新增住房套数[1][2][3].
同时,我国不同地区的房价又有很大的区域性,为了研究我国
房地产的现状,不仅是为了
简便,也是为了使研究的问题更加精确化,我们首先需要将全国
的各大城市按照区域和房价的相似性做聚
类分析。
下面列出我们在接下来的分析中需要用到的数据,有些数据并没有去查找存在,只是根据经<
br>验认为其有,如果有的数据没有,则我们可以想办法通过其他相类似的量来计算出该变量的
数据,
否则下面的研究就会出现困难。
1.1998年至今的各个城市房价数据
2.1998年至今的全国GDP及各个城市GDP的数据
3.
1998年至今有购房能力的市民的收入情况
4. 1998年至今每年有购房需求的人均消费总额
5.1998年至今各个城市每年的人口密度
6.1998年至今每年有购房需求的人数
7.1998年至今各城市每年新增住房套数
8.1998年至今各城市每年新增住房的主要价格
9.1998年至今各城市新建住房平均的房价
10.1998年至今各年平均贷款,存款利率,各年人民币汇率
分析一:聚类分析
研究全国各城市的房价现状,由于全国不同地区的房价有较大的差异,我们
可以先对全国各
大城市进行分类,比如说北京、上海、深圳等价格特高的城市归为一类研究,这样可以使
我
们的研究更加精确,结果更有说服力,同时也可以是我们不会因为去研究每一个城市的房价
现
状使得工作量太大。在进行聚类分析时,可以选择每年新建不同档次住房数的加权平均作
为该城市概念的
房价样本值,为了防止出现特别偏离该城市一般商品房的价格的住房价格数
据的现象,也可以选择每年该
城市新建住房价的中位数作为概念数据的代表。在做聚类分析
时,最好用不同的聚类方法对13年的不同
城市房价数据进行聚类,然后结合实际,得出最
合理的聚类,总结出每一类中房地产价格的共同点。
分析二:影响因子的相关性判断
通过上述分析,影响房价的因素很多,我们在此可以计算房价
与各个因素的相关系数,看相
关系数的大小,看一些变量与房价是否有明显的线性相关性,可以与下面线
性回归得到的结
果进行对比分析。
分析三:多元线性回归
在不同类中,分别选取一
个代表性的城市,建立房地产价格Y与变量
X
i
,i1,2,3...p
的
多
元线性回归方程
Y
1
X
1
2
X
2
......
p
X
p
<
br>
,进行回归检验,看变量间是否有多重共
线性,由于涉及有多个变量,用图形不好判断
E(Y)
是否随
X
i
,i1,2,3...p
线性变化,
此时
我们需要对回归方程的系数做显著性检验,判断某个变量
X
j
的系数是否
为0;另外需要对
回归方程做显著性检验,检验该数据是否适合做线性回归。
分析四:回归诊断
为了对上述建立的回归模型做一些特性的研究,我们需要对回归方程进行回
归诊断,判断误
差项是否满足独立性、等方差性、正态性,线性模型是否合适,是否存在异常样本,回归
方
程是否具有稳定性,变量之间是否有多重共线性。
分析五:残差分析
在用最小二乘法求得线性回归模型时,对残差做了独立性,等方差性和正态性假设,但实际
得到的n
组样本数据的回归模型的残差,是否满足独立性,等方差性和正态性还需要验证。
可以以残差
j
为纵坐标,拟合值
y
j
为横坐标画出标准化残插图,观察是否有
异常点或者异
方差。可以画出残差的QQ图进行正态性的检验。
分析六:主成分回归
为了避免回归模型中多因素的多重共线性,我们可以首先对变量做主成分分析,选取主要成
分进行线性
回归,对比选择几个主成分得到的线性回归模型,进行回归检验,从而选取最合
适的主成分个数,回归还
原到原来的因素,得到回归表达式。同时将得到的回归方程与上面
的回归方程进行对比,选择出更合适的
回归方程表达式。
分析七:对比不同类中的回归模型结果
由于我们是分别在不同类中建立回
归模型,这时可能得到的回归方程不一样,这时我们要根
据每一类的特点进行具体的分析,全面分析在不
同类中得到的回归方程是否合理,对在不同
类中建立的回归方程不同要找出可能的原因,是否是因为类与
类之间特性的不同造成的。
分析八:方差分析
可可进一步考虑我们感兴趣的城市北京或上海
,考虑北京市不同地区的房价是否有显著性差
异。由于不同地区存在差异,这是我们感兴趣的是由区域不
同所引起的差异有多大,这是我
们可以选择方差分析来判断不同地区不同年份的房价的差异性。
参考文献
[1]翟洪涛 我国房地产价格影响因素分析
[2]孟彩云 李权
房贷利率变动对房地产价格影响的实证检验
[3]秦迎霞 席金萍 吴润衡
中国房地产价格的多元线性回归模型
应用统计
期末论文
数学科学学院
韩俊
2011年12月26日
一、数据见参考书1第160页习题3.1
1、计算该数据的均值、方差、标准差、极差、标准误、变异系数、偏度、峰度、
25%和75%分位
数,并给出这些量的含义。
解:R语言求解结果如下:
a=c(74.3 ,78.8,
68.8, 78.0, 70.4, 80.5, 80.5, 69.7, 71.2, 73.5,
+ 79.5, 75.6, 75.0, 78.8 ,72.0, 72.0, 72.0
,74.3, 71.2, 72.0,
+ 75.0 ,73.5, 78.8 ,74.3
,75.8 ,65.0 ,74.3, 71.2 ,69.7 ,68.0,
+ 73.5
,75.0, 72.0, 64.3, 75.8, 80.3 ,69.7 ,74.3 ,73.5
,73.5,
+ 75.8, 75.8 ,68.8 ,76.5 ,70.4 ,71.2
,81.2, 75.0, 70.4, 68.0,
+ 70.4, 72.0 ,76.5,
74.3 ,76.5, 77.6, 67.3 ,72.0, 75.0 ,74.3,
+
73.5, 79.5, 73.5, 74.7 ,65.0 ,76.5, 81.6 ,75.4,
72.7, 72.7,
+ 67.2, 76.5, 72.7, 70.4, 77.2,
68.8, 67.3 ,67.3, 67.3 ,72.7,
+ 75.8 ,73.5
,75.0, 73.5 ,73.5 ,73.5, 72.7, 81.6, 70.3, 74.3,
+ 73.5 ,79.5, 70.4, 76.5 ,72.7, 77.2 ,84.3,
75.0 ,76.5 ,70.4);
> mean(a)
[1] 73.668
> var(a)
[1] 15.51513
> sd(a)
[1]
3.938925
> range(a)
[1] 64.3 84.3
>
sd(a)sqrt(length(a))
[1] 0.3938925
>
sd(a)mean(a)
[1] 0.0534686
> n=length(a);
> s=sd(a);
> =mean(a);
>
g1=n((n-1)*(n-3))*sum(()^3)(s^3)
> g1
[1]
0.05461661
> g2=n*(n+1)((n-1)*(n-2)*(n-3))*sum
(()^4)(s^4)-3*((n-1)^2)((n-2)*(n-3));
> g2
[1] 0.03702249
> quantile(a)
0% 25%
50% 75% 100%
64.3 71.2 73.5 75.8 84.3
>
fivenum(a)
[1] 64.3 71.2 73.5 75.8 84.3
将结果总结成下表:
均值
73.668
峰度
方差
15.51513
标准差
3.938925
极差
20
标准误
0.393825
中位数
变异系数
5.34686%
偏度
0.05461661
25%分位数 75%分位数
众数
0.03702249 71.2 75.8 73.5 73.5
样本均值描述的是样本数据取值的平均位置,是反映数据指标的一个重要特征,但其容易受
到异常数据
的影响,如果样本量较小,出现了异常值,则样本均值就会因异常值的存在受到
很大的影响,此时的样本
均值往往不能够代表整体的信息。
方差反映的样本数据的波动情况,描述的是数据的分散性,方差越大,说明数据的波动就也
大。
标准差是方差的开方,与方差一样,也是反映数据波动情况的统计量。
极差可以反映数据的离散程度,一般说来,极差越小,说明数据的离散程度就越小。
标准误是
s
m
s
n
,由于它是方差平均的开方,平均后的值与样本
数量的大小无关,可以
用于比较两个不同样本的离散程度特征。
变异系数是数据相对
分散性的一种度量,不受数值变量单位的影响,常用于比较不同来源的
观测样本数据的离散程度。 偏度描述的是随机变量取值分布对称性的统计量,偏度为0,说明随机变量密度函数具有对
称性,与
正态分布的偏度相同;偏度值大于0,值越大时,说明密度函数是右偏越大,密度
函数的长尾巴拖在右边
;偏度值小于0,绝对值越大,说明密度函数是左偏越大,密度函数
的长尾巴拖在左边。
峰度
描述的是随机变量密度函数取值布陡峭程度的统计量,峰度为0,说明随机变量密度函
数与正态分布密度
函数的陡峭程度相同;峰度值大于0,比正态分布陡峭程度更大,为尖顶
峰;峰度值小于0,说明比正态
分布的陡峭程度小,为平顶峰。
25%分位数,75%分位数也是重要的统计量,分别记为
Q
1
,Q
3
,记四分位间距为
Q
d
Q
3<
br>Q
1
,
常用闭区间
[Q
1
1.5Q
d<
br>,Q
3
1.5Q
d
]
来反映数据的离群数据,若数据位于<
br>[Q
1
1.5Q
d
,Q
3
1.5Q
d<
br>]
外,则认为该数据为离群数据。四分位间距
Q
d
Q
3Q
1
也是度量
数据离散程度的一种指标,越小表明数据越集中于中位数。 样本中位数是样本数据取值的为中间位置的数据,相对均值来说,是比较稳定的统计量,一
般不会受
到异常值的影响。
众数是样本中某一值出现的次数最多的数,有些数据反映的是属性,这时无法用均值
以及众
数来描述,此时用众数便可分类变量的“中心”。
2、绘出该数据的直
方图、密度估计曲线、经验分布图、茎叶图、箱线图,并解
释通过这些图得到的统计信息或统计特征。
解:用R软件求解:
> a=c(74.3 ,78.8, 68.8, 78.0,
70.4, 80.5, 80.5, 69.7, 71.2, 73.5,
+ 79.5,
75.6, 75.0, 78.8 ,72.0, 72.0, 72.0 ,74.3, 71.2,
72.0,
+ 75.0 ,73.5, 78.8 ,74.3 ,75.8 ,65.0
,74.3, 71.2 ,69.7 ,68.0,
+ 73.5 ,75.0, 72.0,
64.3, 75.8, 80.3 ,69.7 ,74.3 ,73.5 ,73.5,
+
75.8, 75.8 ,68.8 ,76.5 ,70.4 ,71.2 ,81.2, 75.0,
70.4, 68.0,
+ 70.4, 72.0 ,76.5, 74.3 ,76.5,
77.6, 67.3 ,72.0, 75.0 ,74.3,
+ 73.5, 79.5,
73.5, 74.7 ,65.0 ,76.5, 81.6 ,75.4, 72.7, 72.7,
+ 67.2, 76.5, 72.7, 70.4, 77.2, 68.8, 67.3
,67.3, 67.3 ,72.7,
+ 75.8 ,73.5 ,75.0,
73.5 ,73.5 ,73.5, 72.7, 81.6, 70.3, 74.3,
+
73.5 ,79.5, 70.4, 76.5 ,72.7, 77.2 ,84.3, 75.0
,76.5 ,70.4);
> hist(a,freq=FALSE)
>
lines(density(a),col=
> x=64.3:84.3
>
lines(x,dnorm(x,mean(a),sd(a)),col=
> stem(a)
> boxplot(a)
plot(ecdf(a),verticals=TRUE,do.p=FALSE)
>
x=64.3:84.3
> lines(x,pnorm(x,mean(a),sd(a)))
> lines(x,pnorm(x,mean(a),sd(a)),col=
下面是样本数据的直方图:
直方图可以较直观的看出样本数据在各个不同区间的分
布情况,从图中可以看出,样本数据
落在
[70,76.25]
的较多,而在其他区间
中的值就较少。
上图蓝线是核密度估计图,根据强大数定律,可以用频率近
似概率,样本充分大时,可以用
样本密度分布去近似总体的密度分布。
上图我们以
样本数据的均值和方差作为正态分布的均值和方差,画出对应的正态分布的密度
函数,对比核密度估计图
和相应的正态分布的密度函数我们可以看出密度估计曲线与正态分
布的概率密度曲线有一定的差别,但是
差别不是很大,在不太严格的条件下,可以认为样本
数据服从正态分布。
下面给出
样本数据的经验分布函数,红线表示的以样本均值和方差分别作为正态分布的均值
和方差的分布函数图。
经验分布函数可以大致反映出总体的分布函数,是总体分布函数的一
个近似,根据强大数定律,样本充分
大时,样本的分布函数趋于总体的分布函数。
下面是样本数据的茎叶图:
The
decimal point is at the |
64 | 300
66 | 23333
68 | 00888777
70 | 344444442222
72 | 7555555555555
74 | 33333333788
76 | 5555555226
78 |
0888555
80 | 355266
82 |
84 | 3
茎叶图可以直观反映样本数据落在不同区间上的疏密程度,制作方便,不损失样本数据的任
何信
息。但当样本容量较大时,就不宜使用茎叶图了。
上图是样本数据的箱线图,包含样本五数
概括的信息。可以直接观测出样本是否存在离群值。
从图中可以看出,64.3,84.3为异常值,说
明数据很可能是统计数据时出现了错误。离群值
对样本的均值和方差的影响都很大,离群值通常不能代表
总体的信息,在考虑样本时应该将
其去掉。
3、检验该数据是否服从正态分布。
首
先我们可以画出QQ图,看样本数据是否服从正态分布。然后再用shapiro方法与之进行
比较。
> a=c(74.3 ,78.8, 68.8, 78.0, 70.4, 80.5,
80.5, 69.7, 71.2, 73.5,
+ 79.5, 75.6, 75.0,
78.8 ,72.0, 72.0, 72.0 ,74.3, 71.2, 72.0,
+
75.0 ,73.5, 78.8 ,74.3 ,75.8 ,65.0 ,74.3, 71.2
,69.7 ,68.0,
+ 73.5 ,75.0, 72.0, 64.3, 75.8,
80.3 ,69.7 ,74.3 ,73.5 ,73.5,
+ 75.8, 75.8
,68.8 ,76.5 ,70.4 ,71.2 ,81.2, 75.0, 70.4, 68.0,
+ 70.4, 72.0 ,76.5, 74.3 ,76.5, 77.6, 67.3
,72.0, 75.0 ,74.3,
+ 73.5, 79.5, 73.5, 74.7
,65.0 ,76.5, 81.6 ,75.4, 72.7, 72.7,
+ 67.2,
76.5, 72.7, 70.4, 77.2, 68.8, 67.3 ,67.3, 67.3
,72.7,
+ 75.8 ,73.5 ,75.0, 73.5 ,73.5 ,73.5,
72.7, 81.6, 70.3, 74.3,
+ 73.5 ,79.5, 70.4,
76.5 ,72.7, 77.2 ,84.3, 75.0 ,76.5 ,70.4);
>
qqnorm(a)
> qqline(a)
得到的QQ图为:
从图中可以看出,样本的数据近似地可以看成是服从正态分布。。
采用shapiro-
Wilk检验来检验是否服从正态分布。
> (a)
Shapiro-
Wilk normality test
data: a
W = 0.9901,
p-value = 0.6708
求得p值为0.6708,在显著性水平为5%时应该接受原假设。
说明了样本数据可以接近
地认为其服从正态分布,这与上面通过比较核密度曲线和正态分布
曲线有一定的结论是一致的。
4、给出该数据这100女生血清总蛋白含量平均值的一个点估计和置信度95%的
区间估计,解释置
信度95%的含义。
解:可以用样本均值73.688作为总蛋白含量的平均值的一个点估计,根据强
大数定律,用
样本均值73.688作为总蛋白含量的平均值的点估计为无偏估计。
由于总体的方差
2
是未知的,我们便可以构造T检验统计量:
T
X
X
n
~t(n1)
2
Sn
(n1)S
(n1)
2
因此可以得到
置信度为
1
的区间估计,置信区间为:
[X
利用R求得:
SS
t
(n1),Xt
(n1)]
n
2
n
2
mean df a
b
1 73.668 99 72.88643 74.44957
由上面的程序就可以知
道,在置信度为95%下得到的区间估计为[72.88643,74.44957]。置信
区间为随机
区间,两个端点为随机变量,置信度95%的表示的是做100次的区间估计中约有
95次使得总体均值
u
落在置信区间中。
5、如果又得到另一个单位120名女生的血清总蛋白含量,把
第一组数据记为A
单位,这组数据记为B单位,如何判断这两个单位女生的血清总蛋白含量的均
值是否相同,请解释你使用的方法和可能得到的结论。
2
设A服从
N(u<
br>1
,
1
2
)
,B服从
N(u
2<
br>,
2
)
,
1
,
2<
br>未知,一般情况下,我们只能认为
1
2
的条件下作假设检验,便可以用t检验来比较两个样本的均值是否相等。
构造检验统计量:
双侧检验:
H
0
:
1
2
;H
1
:
1
2
构造检验统
计量:
T
XY
SS
n
1
n
22
1
2
2
~t(v)
222
S
1<
br>2
S
2
(S
1
2
)
2
(S
2
)
2
v()(
2
2
)
n
1
n
2
n
1
(n
1
1)n
2
(
n
2
1)
当检验统计量
Tt
(v),
为显著性水平
2
则
认为
H
0
:
1
2
;
不成立,接受备择假设。
当检验统计量
Tt
(v),
为显著性水平
2
则
无法拒绝原假设
H
0
:
1
2
;
,我们接受原假设。
二、数据见参考书1第473页习题9.2
1、建立销售量Y与这4个协变量的回归方程。
解:由于事先我们不知道销售量与居民收入分
配,平均价格指数等的关系,为简便起见,我
们首先做出线性回归模型,看
Y
是否X
1
,X
2
,X
3
,X
4
有线性的关
系。
> consumer<-(
+ X1=c(82.9,88.0,99.9,105
.3,117.7,131.0,148.2,161.8,174.2,184.7),
+
X2=c(92,93,96,94,100,101,105,112,112,112),
+ X
3=c(17.1,21.3,25.1,29.0,34.0,40.0,44.0,49.0,51.0,5
3.0),
+
X4=c(94,96,97,97,100,101,104,109,111,111),
+ Y
=c(8.4,9.6,10.4,11.4,12.2,14.2,15.8,17.9,19.6,20.8
)
+ )
> <-lm(Y~X1+X2+X3+X4,data=consumer)
> summary()
Call:
lm(formula =
Y ~ X1 + X2 + X3 + X4, data = consumer)
Residuals:
1 2 3
4 5 6 7
0.024803
0.079476 0.012381 -0.007025 -0.288345 0.216090
-0.142085
8 9 10
0.158360 -0.135964 0.082310
Coefficients:
Estimate Std.
Error t value Pr(>|t|)
(Intercept)
-17.66768 5.94360 -2.973 0.03107 *
X1
0.09006 0.02095 4.298 0.00773 **
X2
-0.23132 0.07132 -3.243 0.02287 *
X3
0.01806 0.03907 0.462 0.66328
X4
0.42075 0.11847 3.552 0.01636 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’
0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard
error: 0.2037 on 5 degrees of freedom
Multiple
R-squared: 0.9988, Adjusted R-squared: 0.9978
F-statistic: 1021 on 4 and 5 DF, p-value:
1.827e-07
求得回归模型为
Y17.667680.09X
1
0.23132X
2
0.018X
3
0.421X
4
由P值可以知道,在显著性水平为5%的条件下,回归方程不能通过显著性检验,因此我们
Y与
X
1
,X
2
,X
3
,X
4
的
线性回归不合适。
因此,我们首先分别画出变量Y与每个变量散点图,粗略地看变量Y是否每个变量有线性关
系:
绘制
Y
与
X
2
的散点图
绘制
Y
与
X
3
的散点图
绘制
Y
与
X
4
的散点图
从图中可以大概地判断出变量Y并不是与每个变量都是线性关系。同时我们仔细分析前面得
到的线性回
归方程
Y17.667680.09X
1
0.23132X
2
0.018X
3
0.421X
4
,从实际
情况中看,发现可能
并不合理,因为当社会其它消费品的平均价格指数增加时,说明消费者
在消费总量一定的前提下,因为会
花较多的钱去购买其它的商品,导致其该买该类消费品的
量也会下降,当然实际中也有可能是其它商品价
格上涨,则出现该商品的消费量增加。
总之,得出上述回归方程不合理的原因,可能是变量之间有多重
共线性,或者Y与自变量之
间并不是线性的关系,有可能是非线性的关系。为此,我们考虑利用主成分分
析来减少变量
的个数。
2、利用主成分回归方法建立销售量Y与这4个协变量的回归方程。
由上面我们用
线性回归模型求得的结果并不合理,因此我们需要变量做主成分回归,先做主
成分分析。
>
consumer<-(
X1=c(82.9,88.0,99.9,105.3,117.7,13
1.0,148.2,161.8,174.2,184.7),
X2=c(92,93,96,94,100,101,105,112,112,112),
X3=c(17.1,21.3,25.1,29.0,34.0,40.0,44.0,49.0,51.0
,53.0),
X4=c(94,96,97,97,100,101,104,109,111,111),
Y=c(8.4,9.6,10.4,11.4,12.2,14.2,15.8,17.9,19.6,20
.8)
)
>
=princomp(~X1+X2+X3+X4,data=consumer,cor=T)
>
summary(,loadings=TRUE)
Importance of
components:
Comp.1
Comp.2 Comp.3 Comp.4
Standard
deviation 1.9859037 0.199906992
0.11218966 0.
Proportion of Variance
0.9859534 0.009990701 0.00314663 0.
Cumulative Proportion 0.9859534
0.995944090 0.99909072 1.
Loadings:
Comp.1 Comp.2 Comp.3 Comp.4
X1
-0.502 -0.237 0.579 0.598
X2 -0.500 0.493
-0.610 0.367
X3 -0.498 -0.707 -0.368 -0.342
X4 -0.501 0.449 0.396 -0.626
Z
1
0.502X
1
0.5X
20.498X
3
0.501X
4
Z2
0.237X
1
0.493X
2
0.70
7X
3
0.449X
4
注意
2
0.1999
2
0.04
,
所以可以认为变量之间存在多重共线性。
下面作主成分回归:
Call:
lm(formula = y ~ z1,
data = consumer)
Residuals:
Min
1Q Median 3Q Max
-0.72237
-0.20946 0.05154 0.21032 0.81856
Coefficients:
Estimate Std.
Error t value Pr(>|t|)
(Intercept)
14.03000 0.16615 84.44 4.32e-13 ***
z1
-2.06119 0.08367 -24.64 7.87e-09 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’
0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard
error: 0.5254 on 8 degrees of freedom
Multiple
R-squared: 0.987, Adjusted R-squared: 0.9854
得到回归方程为:
Y14.032.06119Z
1
由求得的结果可以看出,回归方程和回归系数在显著性水平为
0.05
时,均通
过了检验。
上述方程为相应变量与主成分的关系,不容易看出与原来变量之间的关系。
beta<-coef();A<-loadings()
>
<-$$center;<-$$scale
> coef<-beta[2]*A[,1]
>
beta0<-beta[1]-sum(*coef)
> c(beta0,coef)
(Intercept) X1 X2 X3 X4
-23.77771861
0.02992643 0.13365158 0.08361156 0.16965187
<
br>进一步我们可以求得:
Y23.7780.03X
1
0.134X2
0.084X
3
0.17X
4
3、请解释你所得到的结论。
对比通过多元线性回归得到
Y17.66768
0.09X
1
0.23132X
2
0.018X
3
0
.421X
4
和主成分回归得到
Y23.7780.03X
1
0.134X
2
0.084X
3
0.17X
4
。
我们发现主成分分析虽然可以消除因素的多重共线性,但是我们分析分
析主成分回归的得到
的表达式,虽然回归方程通过了显著性检验,但表达式存在明显的不合理。按照经济
学对商
品的划分,除了吉芬商品随着价格的上升,消费量增加外,其它商品的消费量随价格的增加
均减少,而吉芬商品是很少见的,这里我们可以认为该类消费品不是吉芬商品,那么该回归
方程就存在
明显的不合理。出现这种情况的原因可能是样本的数据量太少,也有可能是自变
量之间有较强的相关性,
相互之间有较大的影响等,这些会导致得到的表达式中X
2
前面的
系数是负的。
三、数据见参考书1第421页习题8.4
1、分别用最短距离法、最长
距离法、均值法、重心法和Ward法作聚类分析,
并画出相应的谱系图。
利用R的程序为:(由于数据太多,将其省略掉了)
names=c(
UIT
r=matrix(x,nrow=15,dimnames=list(names,names))
d=(1-r);
hc1=hclust(d,
hc2=hclust(d,
hc3=hclust(d,
hc4=hclust(d,
hc5=hclust(d,plclust(hc1,hang=-1);re1<-(hc1,k=5,border=
pl
clust(hc2,hang=-1);re1<-(hc2,k=5,border=
plclus
t(hc3,hang=-1);re1<-(hc3,k=5,border=
plclust(hc
4,hang=-1);re1<-(hc4,k=5,border=
将求得的结果归纳为如下:
分类结
果
第一类
第二类 第三类 第四类 第五类
最短
距离
法
最长
距离
法
均值
法
重心
法
Ward
法
AA APP FL HON,LA,KJ
DRV,POT,LC,GSP,SC,
SMS,AMB,EXP,SUIT
FL,EXP,SUIT HON,LA,KJ APP DRV,POT,LC,GSP, AA
SC,SMB,AMB
HON,LA,KJ
APP
HON,LA,KJ
APP AA
AA
AA
FL,EXP,SUIT
HON
FL,EXP,SUIT
POT,LC,GSP,DRV,
SC,SMB,AMB
DRV,POT,LC,GSP, FL,EXP,SUIT
SC,SMS,AMB,LA,KJ
APP POT,LC,GSP,DRV,
SC,SMB,AMB
动态聚类的结果为:
Clustering
vector:
FL APP AA LA SC LC HON
SMS EXP DRV AMB GSP POT KJ SUIT
4
5 3 1 2 2 1 2 4 2 2
2 2 1 4
动态聚类
第一类
LA,HON,KJ
第二类 第三类 第四类
FL,EXP,SUIT
第五类
APP SC,LC,DRV, AA
AMB,GSP,POT
由分类的结果可以知道
AA(专业能力)在所有分类中均未单独一类,APP(外貌)也是,
有相关系数表可以知道,
这两个变量与其它变量的相关系数均较小。
四、数据见参考书1第474页习题9.4,题图与习题9.4相同
x1=c(99,99,100,93,100,90,75,93,87,95,76,85);
x2=c(94,88,98,88,91,78,73,84,73,82,72,75);
x3=c(93,96,81,88,72,82,88,83,60,90,43,50);
x4=c(100,99,96,99,96,75,97,68,76,62,67,34);
x5=c(100,97,100,96,78,97,89,88,84,39,78,37);
x=c(x1,x2,x3,x4,x5);
X=matrix(x,nrow=12);
y=cor(X)
names=c(
R=matrix(0,nrow=5,nco
l=5,dimnames=list(names,names))
for(i in 1:5){
for(j in 1:5){
R[i,j]=y[i,j]
}
}
factor=factanal(factors=2,covmat=R);
factor
程序运行结果为:
Call:
factanal(factors = 2, covmat = R)
Uniquenesses:
x1 x2 x3 x4
x5
0.005 0.141 0.494 0.005 0.346
Loadings:
Factor1 Factor2
x1 0.992
0.104
x2 0.854 0.360
x3 0.497
0.509
x4 0.284 0.956
x5 0.132
0.798
Factor1 Factor2
SS loadings 2.059 1.950
Proportion
Var 0.412 0.390
Cumulative Var 0.412
0.802
The degrees of freedom for the
model is 1 and the fit was 0.0387
第一公共因子中,系数绝对
值大的变量主要是:语文(x1),政治(x2),主要体现的是一个学
生学习文科性的科目的能力,如
记忆等能和感性思维。
第二公共因子中,系数绝对值大的变量主要是:数学(x4),物理(x5),
主要体现一个学生学
习理科的能力,如数理逻辑推理等能力。
beta<-coef();A<-loadings()
>
<-$$center;<-$$scale
> coef<-beta[2]*A[,1]
>
beta0<-beta[1]-sum(*coef)
> c(beta0,coef)
(Intercept) X1 X2 X3
X4
-23.77771861 0.02992643 0.13365158
0.08361156 0.16965187
用回归方法求得的第1公共因子,第2 公共因子的得分散点图为
c=(X)
>
fa=factanal(~.,factors=2,data=c,scores=
Factor1 Factor2
1 0.84656371 0.7229406
2 0.83515550 0.6689879
3 0.99429724
0.4816552
4 0.14232467 0.8761425
5
0.97470709 0.4640493
6 -0.09897287
-0.2501506
7 -1.96504255 1.3944047
8
0.30581398 -0.7165921
9 -0.46755338
-0.1088155
10 0.57227279 -1.1222450
11
-1.68969752 -0.1927343
12 -0.44986866
-2.2176426
> plot(fa$$scores[,1:2],type=
>
text(fa$$scores[,1],fa$$scores[,2])
运用Bartlett计算出的因子得分为
c=(X)
>
fa1=factanal(~.,factors=2,data=c,scores=
>
fa1$$scores
Factor1 Factor2
1
0.84949916 0.7255642
2 0.83814958
0.6713007
3 0.99856099 0.4824476
4
0.14114233 0.8812845
5 0.97890486
0.4647756
6 -0.09894822 -0.2514891
7 -1.97867983 1.4074554
8 0.30904581
-0.7217354
9 -0.46981968 -0.1084550
10
0.57783480 -1.1305072
11 -1.69833306
-0.1901825
12 -0.44735673 -2.2304588
>
plot(fa1$$scores[,1:2],type=
>
text(fa1$$scores[,1],fa1$$scores[,2])
得到的散点图为:
对比回归方法和Bartlett方法,得到结果总结成下表:
1,2因子得分都1,2得分都是中1得分高,2得分1等分低,2得分
高(文理都好)
等(文理均中等) 较低(文好于理) 高(理好于文)
1,2,3,4,5 6,8,9,10
12 7,11
回归法
Bartlett方法
1,2,3,4,5
6,8,9,10 12 7,11
从结果可以看出,对比两种方法得到的结果是几乎相同的。1,2
,3,4,5号学生的文理两种性质
的科目学得都比较好,6,8,9,10号学生的文理科学得比较均
等,都属中等水平,没有明显的
分科,而7,11则有偏科现象,文科性的学习比理科性的学习要差,1
2则是理科性的学习比
文科性的学习差。
五、论述题
使用本课程的统计方法对我国
房地产价格的现状做统计分析研究。(采集什么数
据,使用什么分析数据的方法等等)。
问题
分析:影响房地产价格的因素很多,通过查找文献,我们知道了影响房价的因素主要有
GDP,房地产相
关环节税收,存贷款利率,房地产相关环节税收,存贷款利率,物价指数,
房地产土地供应量,房地产开
发成本,人口密度,购房需求者数量,人口结构,购房需求者
收入,新增住房套数[1][2][3].
同时,我国不同地区的房价又有很大的区域性,为了研究我国
房地产的现状,不仅是为了
简便,也是为了使研究的问题更加精确化,我们首先需要将全国
的各大城市按照区域和房价的相似性做聚
类分析。
下面列出我们在接下来的分析中需要用到的数据,有些数据并没有去查找存在,只是根据经<
br>验认为其有,如果有的数据没有,则我们可以想办法通过其他相类似的量来计算出该变量的
数据,
否则下面的研究就会出现困难。
1.1998年至今的各个城市房价数据
2.1998年至今的全国GDP及各个城市GDP的数据
3.
1998年至今有购房能力的市民的收入情况
4. 1998年至今每年有购房需求的人均消费总额
5.1998年至今各个城市每年的人口密度
6.1998年至今每年有购房需求的人数
7.1998年至今各城市每年新增住房套数
8.1998年至今各城市每年新增住房的主要价格
9.1998年至今各城市新建住房平均的房价
10.1998年至今各年平均贷款,存款利率,各年人民币汇率
分析一:聚类分析
研究全国各城市的房价现状,由于全国不同地区的房价有较大的差异,我们
可以先对全国各
大城市进行分类,比如说北京、上海、深圳等价格特高的城市归为一类研究,这样可以使
我
们的研究更加精确,结果更有说服力,同时也可以是我们不会因为去研究每一个城市的房价
现
状使得工作量太大。在进行聚类分析时,可以选择每年新建不同档次住房数的加权平均作
为该城市概念的
房价样本值,为了防止出现特别偏离该城市一般商品房的价格的住房价格数
据的现象,也可以选择每年该
城市新建住房价的中位数作为概念数据的代表。在做聚类分析
时,最好用不同的聚类方法对13年的不同
城市房价数据进行聚类,然后结合实际,得出最
合理的聚类,总结出每一类中房地产价格的共同点。
分析二:影响因子的相关性判断
通过上述分析,影响房价的因素很多,我们在此可以计算房价
与各个因素的相关系数,看相
关系数的大小,看一些变量与房价是否有明显的线性相关性,可以与下面线
性回归得到的结
果进行对比分析。
分析三:多元线性回归
在不同类中,分别选取一
个代表性的城市,建立房地产价格Y与变量
X
i
,i1,2,3...p
的
多
元线性回归方程
Y
1
X
1
2
X
2
......
p
X
p
<
br>
,进行回归检验,看变量间是否有多重共
线性,由于涉及有多个变量,用图形不好判断
E(Y)
是否随
X
i
,i1,2,3...p
线性变化,
此时
我们需要对回归方程的系数做显著性检验,判断某个变量
X
j
的系数是否
为0;另外需要对
回归方程做显著性检验,检验该数据是否适合做线性回归。
分析四:回归诊断
为了对上述建立的回归模型做一些特性的研究,我们需要对回归方程进行回
归诊断,判断误
差项是否满足独立性、等方差性、正态性,线性模型是否合适,是否存在异常样本,回归
方
程是否具有稳定性,变量之间是否有多重共线性。
分析五:残差分析
在用最小二乘法求得线性回归模型时,对残差做了独立性,等方差性和正态性假设,但实际
得到的n
组样本数据的回归模型的残差,是否满足独立性,等方差性和正态性还需要验证。
可以以残差
j
为纵坐标,拟合值
y
j
为横坐标画出标准化残插图,观察是否有
异常点或者异
方差。可以画出残差的QQ图进行正态性的检验。
分析六:主成分回归
为了避免回归模型中多因素的多重共线性,我们可以首先对变量做主成分分析,选取主要成
分进行线性
回归,对比选择几个主成分得到的线性回归模型,进行回归检验,从而选取最合
适的主成分个数,回归还
原到原来的因素,得到回归表达式。同时将得到的回归方程与上面
的回归方程进行对比,选择出更合适的
回归方程表达式。
分析七:对比不同类中的回归模型结果
由于我们是分别在不同类中建立回
归模型,这时可能得到的回归方程不一样,这时我们要根
据每一类的特点进行具体的分析,全面分析在不
同类中得到的回归方程是否合理,对在不同
类中建立的回归方程不同要找出可能的原因,是否是因为类与
类之间特性的不同造成的。
分析八:方差分析
可可进一步考虑我们感兴趣的城市北京或上海
,考虑北京市不同地区的房价是否有显著性差
异。由于不同地区存在差异,这是我们感兴趣的是由区域不
同所引起的差异有多大,这是我
们可以选择方差分析来判断不同地区不同年份的房价的差异性。
参考文献
[1]翟洪涛 我国房地产价格影响因素分析
[2]孟彩云 李权
房贷利率变动对房地产价格影响的实证检验
[3]秦迎霞 席金萍 吴润衡
中国房地产价格的多元线性回归模型