用样本可决系数检验回归方程的拟合优度

余年寄山水
617次浏览
2020年08月17日 19:51
最佳经验
本文由作者推荐

微波炉可以做蛋糕吗-浙工大教务处



用样本可决系数检验回归方程的拟合优度

1、总离差平方和的分解
拟合优度:是指回归直线对观测值的拟合程度。显然若观测值离回归 直线越近,则拟合
程度越好,相对X对Y的解释程度越强;反之则拟合程度差。

TSS(总离差平方和)=RSS(回归平方和)+ ESS(残差平方和)
2
ˆ
-
Y
)
2
+


(Y
i
-
Y
ˆ
)
2
=


(
Y
ˆ
-
Y
)
2
+


(
u
ˆ



(Y
i
-
Y
) =


(
Y
)
i

iii
2

自由度
n1

1

n2
(为什么?)

TSS为总离差平方和,反映因变量波动的大小;
ˆ
的波动; RSS为回归平方和,反映由模型中解释变量计算出来的拟合值
Y
i
ESS为残差平 方和,反映样本观测值与估计值偏离的大小,也是模型中因变量总的
波动中不能通过回归模型解释的那部 分。
被解释变量Y总的变动(差异)
=解释变量X引起的变动(差异)+除X以外的其它因素引起的变动(差异)



2、样本可决系数
度量拟合优度的统计量是样本可决系数r
2
(确定系数、判定系数):
RSSESS
r
2
= =
1
=
TSSTSS< br>
(Y
ˆ
i
Y)
2

(YY)
i

2

ˆ
y

=

y
2
i
2
i
ˆ
=

1
2

x

y
2
2
i
i
=

x
i
2

y
i
2
(

x
i
y
i
)
2

所以r
2
的取值范围是 [0,1]。对于一组数据,TSS是不变的,所以RSS↑(↓),ESS↓(↑)。
拟合优度r< br>2
越大,自变量对因变量的解释程度越高,自变量引起的变动占总变动的百
分比高。观察 点在回归直线附近越密集。



RSS:旧指回归平方和(regression sum of squares),现指残差平方和(sum of squared
residuals)
ESS:旧指残差平方和(error sum of squares 或sum of squared errors),现指回归平方和
(explained sum of squares)


3、样本相关系数
定义
:是变量X与Y之间线性相关程度的度量指标。
r

xy

x

y
ii
2i
2

i


(1) 取值范围
(2) 样本相关系数与样本可决系数的关系
ˆ
的符号相同 (3)
r
的符号和< br>
1
xy

ˆ

=

x
i i
1
2
=
i

xy

y

x

y

x
2
iii
22
ii
2
=
r
i

y

x
2
2
i

i




样本相关系数的检验
(1)原假设:
H
0
:

0
(

是X与Y之间的总体相关系数)
(2)构造统计量:
t
rn 2
1r
2
~t(n2)
(这样构造的意义?)
(3)给出显著性水平,判断是否拒绝
H
0




回归系数估计值的显著性检验与置信区间
ˆ
是Y
i
的线性组合,
ˆ


由于u
i
服从正态分布,那 么Y
i
也服从正态分布(为什么?)

1
0
ˆ
~
N(

0
,
因此也服从正态分布,


0

2

X
i
2
n

x
i
2
ˆ
~
N(

,
)


1
1

2

x
i
2
)

根据假定条件u
i
 N (0,



),E(Y
i
) = E(

0
+

1
X
i
+ u
i
) =

0
+

1
X
i
+ E(u
i
) =

0
+

1
X
i

Var(Y
i
) = Var (

0
+

1
X
i
+ u
i
) = Var (

0
+

1
X
i
)

+ Var (u
i
) =



,Y
i
是u
i
的线性函数,所以Y
i
 N
(

0
+

1
X
i
,



)。

ˆ
不等于零,主要是检验

1
是否为零。通常用样本计算的
但应检验这是否有统计显著
1
性,即为了说明解释变量X对被解释变量Y的影响 是显著的,必须对解释变量进行显著性
检验。
随机变量u
i
的方差是

,由于u是一个无法测量的量,因而也不可能计算出u
i
的方差,
只能用 它的估计值
e
的方差作为它的方差估计值。因此用残差平方和除以自由度来估计



2
ˆ
=
(
即:
s
2
=

2

e
2
i
)(n2)

其中2表示待估参数的个数,残差序列自由度为n

2的原因是:在利用OLS 进行参
ˆ
2
) =



。数估计时,为了使残 差平方和最小,对残差序列施加了两个限制条件。可证明E(

ˆ
2




的无偏且一致的估计量。因为
e
i
是残差,所以

ˆ
2
又称作误差
(作为习题第7题)

均方。可 用来考察观测值对回归直线的离散程度。
ˆ


ˆ
的估计的方差是:

1
0
ˆ
) = S
2
(

ˆ
)
=
Var
(

1
1< br>
1
ˆ
2


2

x
i
2
2
i
i
ˆ
) = S
2
(

ˆ
)
Var
(

0
0

X
=
n

x
ˆ
2


ˆ
,

ˆ
)
=?

思考:Cov(

01
如果变量X是显著的,则参数

1
应该 是显著的。于是在变量的显著性检验中即检验零
假设:
H
0


1
= 0; H
1


1
 0


在H
0
成立条件下,

ˆ


11
ˆ
)Var(

1
ˆ


11
s
(

ˆ
)
1
=
ˆ

1
ˆ
)Var(

1
ˆ

1< br>s
(

ˆ
1
)
=
ˆ

1

ˆ

1

x
2
~N(0,1)

i
ˆ
替代

(一般



ˆ替代,原来的正态分布会服从t分布) 在统计量中用

t = = =
ˆ

(
X
i
X
)
2

=< br>ˆ

1

e
2

~t(n2)

i
(n2)

x
2
i


-t
2
(n-2)
0 t
2
(n-2)



若  t  > t
2 (n-2)
,拒绝原假设,则

1
 0;若  t  < t
2 (n-2)
,不拒绝原假设,则

1
= 0。
ˆ
是由取自参数

不为零的总体中的一组样 如果通过了显著性 检验,只能说明估计值

j
j
ˆ
接近总体

的程度 ,我们可以构造一个以

ˆ
为中心的置本观测值所确定的。为了确定

j
jj
信区间,总体参数

j
在一定的置信度下落在这个区间之内 。由于
P {
ˆ


11
s
(
< br>ˆ
)
1
 t
2 (n-2)
} = 1-


由花括号内不等式得

1
的置信区间
ˆ
-
s
ˆ

ˆ
)
t
2 (n-2)


1


1
+
s(

ˆ
)
t
2 (n-2)

1
(

11
其中
s
(

ˆ
)

s
1
2
ˆ
)
=
(

1
ˆ
2


(X
i
X)
2

ˆ


ˆ
2
的算术根。
的算术根,而其中的


0
的检验同理可做。

南宁华夏银行-证券公司实习日记


心经原文-清华大学生命科学学院


我的同桌400字-江苏省会计从业资格考试报名系统


郭美美炫富事件图片-控烟令


挥洒青春-小学老师工作总结


卧轨自杀-婚礼习俗


写狗的作文-劳动保障工作总结


高考第一轮复习-财务自查自纠报告