用样本可决系数检验回归方程的拟合优度
微波炉可以做蛋糕吗-浙工大教务处
用样本可决系数检验回归方程的拟合优度
1、总离差平方和的分解
拟合优度:是指回归直线对观测值的拟合程度。显然若观测值离回归
直线越近,则拟合
程度越好,相对X对Y的解释程度越强;反之则拟合程度差。
TSS(总离差平方和)=RSS(回归平方和)+ ESS(残差平方和)
2
ˆ
-
Y
)
2
+
(Y
i
-
Y
ˆ
)
2
=
(
Y
ˆ
-
Y
)
2
+
(
u
ˆ
(Y
i
-
Y
) =
(
Y
)
i
iii
2
自由度
n1
1
n2
(为什么?)
TSS为总离差平方和,反映因变量波动的大小;
ˆ
的波动;
RSS为回归平方和,反映由模型中解释变量计算出来的拟合值
Y
i
ESS为残差平
方和,反映样本观测值与估计值偏离的大小,也是模型中因变量总的
波动中不能通过回归模型解释的那部
分。
被解释变量Y总的变动(差异)
=解释变量X引起的变动(差异)+除X以外的其它因素引起的变动(差异)
2、样本可决系数
度量拟合优度的统计量是样本可决系数r
2
(确定系数、判定系数):
RSSESS
r
2
= =
1
=
TSSTSS<
br>
(Y
ˆ
i
Y)
2
(YY)
i
2
ˆ
y
=
y
2
i
2
i
ˆ
=
1
2
x
y
2
2
i
i
=
x
i
2
y
i
2
(
x
i
y
i
)
2
所以r
2
的取值范围是
[0,1]。对于一组数据,TSS是不变的,所以RSS↑(↓),ESS↓(↑)。
拟合优度r<
br>2
越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百
分比高。观察
点在回归直线附近越密集。
RSS:旧指回归平方和(regression sum of squares),现指残差平方和(sum
of squared
residuals)
ESS:旧指残差平方和(error sum of squares 或sum of squared
errors),现指回归平方和
(explained sum of squares)
3、样本相关系数
定义
:是变量X与Y之间线性相关程度的度量指标。
r
xy
x
y
ii
2i
2
i
(1) 取值范围
(2)
样本相关系数与样本可决系数的关系
ˆ
的符号相同 (3)
r
的符号和<
br>
1
xy
ˆ
=
x
i
i
1
2
=
i
xy
y
x
y
x
2
iii
22
ii
2
=
r
i
y
x
2
2
i
i
样本相关系数的检验
(1)原假设:
H
0
:
0
(
是X与Y之间的总体相关系数)
(2)构造统计量:
t
rn
2
1r
2
~t(n2)
(这样构造的意义?)
(3)给出显著性水平,判断是否拒绝
H
0
。
回归系数估计值的显著性检验与置信区间
ˆ
是Y
i
的线性组合,
ˆ
、
由于u
i
服从正态分布,那
么Y
i
也服从正态分布(为什么?)
1
0
ˆ
~
N(
0
,
因此也服从正态分布,
0
2
X
i
2
n
x
i
2
ˆ
~
N(
,
)
,
1
1
2
x
i
2
)
。
根据假定条件u
i
N (0,
),E(Y
i
) = E(
0
+
1
X
i
+ u
i
) =
0
+
1
X
i
+ E(u
i
) =
0
+
1
X
i
。
Var(Y
i
) = Var
(
0
+
1
X
i
+
u
i
) = Var (
0
+
1
X
i
)
+ Var (u
i
) =
,Y
i
是u
i
的线性函数,所以Y
i
N
(
0
+
1
X
i
,
)。
ˆ
不等于零,主要是检验
1
是否为零。通常用样本计算的
但应检验这是否有统计显著
1
性,即为了说明解释变量X对被解释变量Y的影响
是显著的,必须对解释变量进行显著性
检验。
随机变量u
i
的方差是
,由于u是一个无法测量的量,因而也不可能计算出u
i
的方差,
只能用
它的估计值
e
的方差作为它的方差估计值。因此用残差平方和除以自由度来估计
,
2
ˆ
=
(
即:
s
2
=
2
e
2
i
)(n2)
其中2表示待估参数的个数,残差序列自由度为n
-
2的原因是:在利用OLS
进行参
ˆ
2
) =
。数估计时,为了使残
差平方和最小,对残差序列施加了两个限制条件。可证明E(
ˆ
2
是
的无偏且一致的估计量。因为
e
i
是残差,所以
ˆ
2
又称作误差
(作为习题第7题)
均方。可
用来考察观测值对回归直线的离散程度。
ˆ
和
ˆ
的估计的方差是:
1
0
ˆ
) = S
2
(
ˆ
)
=
Var
(
1
1<
br>
1
ˆ
2
,
2
x
i
2
2
i
i
ˆ
) = S
2
(
ˆ
)
Var
(
0
0
X
=
n
x
ˆ
2
ˆ
,
ˆ
)
=?
思考:Cov(
01
如果变量X是显著的,则参数
1
应该
是显著的。于是在变量的显著性检验中即检验零
假设:
H
0
:
1
= 0;
H
1
:
1
0
在H
0
成立条件下,
ˆ
11
ˆ
)Var(
1
ˆ
11
s
(
ˆ
)
1
=
ˆ
1
ˆ
)Var(
1
ˆ
1<
br>s
(
ˆ
1
)
=
ˆ
1
ˆ
1
x
2
~N(0,1)
i
ˆ
替代
(一般
用
ˆ替代,原来的正态分布会服从t分布) 在统计量中用
t = = =
ˆ
(
X
i
X
)
2
=<
br>ˆ
1
e
2
~t(n2)
i
(n2)
x
2
i
-t
2
(n-2)
0
t
2
(n-2)
若 t >
t
2 (n-2)
,拒绝原假设,则
1
0;若
t < t
2 (n-2)
,不拒绝原假设,则
1
=
0。
ˆ
是由取自参数
不为零的总体中的一组样 如果通过了显著性
检验,只能说明估计值
j
j
ˆ
接近总体
的程度
,我们可以构造一个以
ˆ
为中心的置本观测值所确定的。为了确定
j
jj
信区间,总体参数
j
在一定的置信度下落在这个区间之内
。由于
P {
ˆ
11
s
(
<
br>ˆ
)
1
t
2 (n-2)
} = 1-
由花括号内不等式得
1
的置信区间
ˆ
-
s
ˆ
ˆ
)
t
2
(n-2)
1
1
+
s(
ˆ
)
t
2 (n-2)
1
(
11
其中
s
(
ˆ
)
是
s
1
2
ˆ
)
=
(
1
ˆ
2
(X
i
X)
2
ˆ
是
ˆ
2
的算术根。
的算术根,而其中的
0
的检验同理可做。