基于时间序列分析及Clementine软件的宝钢股价研究

玛丽莲梦兔
699次浏览
2020年08月08日 04:58
最佳经验
本文由作者推荐

会议发言稿格式-5月节日










┊┊┊┊┊┊┊



┊┊┊┊┊┊┊






┊┊┊┊┊┊┊





线
┊┊┊┊┊┊┊











业 论
二○一二 年 六 月
文毕






基于时间序列分析及Clementine软件的宝
钢股价研究












专业班级:数学与应用数学2008级1班

姓 名: XX

指导教师: XX







数学系



摘 要
时间序列是按照时间顺序取得的一系列观测值,现实 中的很多数据都是以时
间序列的形式出现的:一个工厂每月生产的一系列货物数量,每周道路事故的一< br>系列数据,每小时观察的药品生产产量。时间序列的例子在一些领域中是极丰富
的,诸如经济,商 业,工程等。时间序列分析典型的一个本质特征就是相邻观测
值之间的依赖性。时间序列观测值之间的这 种依赖特征具有重要的现实意义。时
间序列分析所论及的就是对这种依赖性进行分析的技巧。要求对时间 序列数据生
成随机动态模型,并将这种模型用于重要的应用领域。
本文的主要内容是借助SPSS Clementine 软件研究宝山钢铁股票价格
随时间的 变化规律,并用时间序列分析的有关知识对其进行建模预测。本
文分两部分:第一部分介绍时间序列分析 的一些基本概念,如平稳过程、
自相关函数、偏相关函数、白噪声等,然后对几种时间序列模型进行描述 ;
另一部分借助SPSS Clementine 软件对宝山钢铁股价这一具体事例分别用
专 家建模、指数平滑建模和ARIMA建模并对股价进行短期预测,最后通过
模型参数比较及预测值误差对 比,找出最佳模型。在给案例建模的同时,
将给出使用SPSS Clementine软件研究的具体过程。

关键词:时间序列;SPSS Clementine软件;宝钢股价;模型比较



Abstract
The time series is a sequence of observations taken sequentially in time.
Many sets of data appear as time series in reality: a monthly sequence of the
quantity of goods shipped from a factory, a weekly series of the number of
traffic accidents, hourly observations made on the yield of a chemical process,
and so on. Examples of time series abound in such fields as economics, business,
engineering and so on. The nature of this dependenced among observations of a
time series is of considerable practical interest. Time series analysis is
concerned with techniques for the analysis of this dependence. This requires the
development of stochastic and dynamic models for time series data and the use
of such models in important areas of application.
The main task of this dissertation is to have a research on the law of the
varying number of the stock price of the Baoshan iron and steel company. In
this study, we will make the use of the software SPSS Clementine and create the
models of the stock price by using the time series analysis. To begin with, this
dissertation briefly introduces some basic concepts such as stationery process,
autocorrelation function partial correlation functions and white noise about the
time series analysis. In addition, this dissertation begins to talk in detail about
several fundamental time series models and the properties of the ACF and
PACF belonging to the four fundamental models. Then, with the help of the
software SPSS Clementine, we will establish models by three measures on the
times series of the stock price and forecast short-term price. Finally, the model
parameters and predictive value of the price should be compared to identify the
best model. In the case, the dissertation offers the process of the software
modeling in detail.

Key words: the time series analysis; SPSS Clementine software; Baoshan
iron and steel company stock price; model comparison



目 录
第1章 绪论 ............................................... ............................................. 1

1.1 时间序列的概念 ............................ ............................................ 1

1.2 时间序列的应用 .................................. ...................................... 1

1.3 本文的主要内容及安排 ............................... .............................. 2

第2章 基本概念 .................................................. .................................. 3

2.1 随机过程 ............................................. ...................................... 3

2.2 自协方差和自相关系数 ............................... .............................. 4

2.3 偏自相关函数 ........................................... ................................. 5

2.4 白噪声过程 ............................................ .................................... 7

2.5 均值、自协方差和自相关的估计 ............................................. 8

2.5.1 样本均值 ............................. ............................................ 8

2.5.2 样本自协方差函数 ............................... ........................... 9

2.5.3 样本自相关函数 .......................................... ................. 11

2.5.4 样本偏自相关函数 ...... .................................................. 12

2.6 本章小结 .............................. .................................................. . 13

第3章 时间序列模型及Clementine软件介绍 .................................... 14

3.1 指数平滑模型 ................................... ....................................... 14

3.1.1 基本公式 ................................... .................................... 14

3.1.2 指数平滑标准 ................................. .............................. 14

3.2 ARIMA模型 .......................................... .................................. 15

3.2.1 自回归过程 .................................. ................................. 15

3.2.2 移动平均过程 ........................................... .................... 17

3.2.3 AR(p)过程和MA(q)过程的对偶关系 ........................... 17

3.2.4自回归求和平稳模型 ........................ ............................. 19

3.2.5 自回归、滑动平均、ARIMA模型性质比较................ 20

3.3 模型识别与选择 .................................. .................................... 21

3.3.1 模型识别的步骤 ................................ ........................... 21

3.3.2 矩方法 . .................................................. ........................ 22

3.3.3 极大似然方法 . .................................................. ............ 23

3.3.4 模型选择准则 ............. .................................................. 24

3.3.5 模型简易选择 .......................... ..................................... 25



3.4 对Clementine软件的概述 ............. ......................................... 26

3.4.1 Clementine的窗口 .......................... ............................... 26

3.4.2 数据流的基本管理和执行 ............................................ 28

3.5 本章小结 .............................. .................................................. . 29

第4章 基于Clementine软件的对宝钢股价建模分析 ......................... 30

4.1 对宝钢历年股价进行预处理 ..................................... .............. 30

4.2 对宝钢最近2年股价进行建模分析..... ................................... 31

4.2.1 模型建立 ................................... .................................... 31

4.2.2 模型分析及比较 ................................ ........................... 36

结论......... .................................................. ............................................. 42

参 考 文 献 ............................... .................................................. ......... 43

致 谢 ...................... .................................................. ....................... 44


基于时间序列分析及clementine软件的宝钢股价研究
基于时间序列分析及Clementine软件的宝
钢股价研究
第1章 绪论
1.1 时间序列的概念
时间序列 (Time series) 从字面意思上看它是与时 间相关的一组序列,
针对某一种现象,在一个确定的统计指标下可以获得不同时间上的各个数
据 ,将这些数据按照时间先后的顺序排列成一组序列,便构成了一组时间
序列。时间也并非是唯一的观测度 量,有时可以根据其他度量来观测,如
空间。
时间序列法作为一种定量的数据预测方法,经过 数十年的不断发展与
完善,已被广泛应用于统计学研究中。
时间序列分析 (Time series analysis) 是建立在随机过程与数理统计学
理论基础上的一种统计方法,该方 法适用于动态数据处理,以解决生产、
经济中的实际问题为目的
[1]

1.2 时间序列的应用
时间序列现象广泛存在于各个领域中:在农业领域,我们关注农产品
的年产量及其价格等;在经济和商业领域,我们关注股票的日收盘价格、
周利息率、月价格指数 、季销售额和年利率等;在工程领域,我们观测声
音、电流和电压等;在地球物理领域,我们记录湍流, 一个地区的海浪和
地球噪声等;在医学研究领域,我们测量脑电图和心电图追踪等;在气象
学领 域,我们观测每小时风速、每日温度和年度降雨量等;在质量控制领
域,我们根据某目标值监测一个过程 ;在社会学领域,我们研究年度出生
率、死亡率、事故发生率和各种犯罪率等。此外,时间序列被用于观 测和
研究的领域还有很多。
对时间序列的研究基于各种各样不同的目的,它们包括对数据生成 机
制的理解和描述,对未来值的预报,以及实现系统的最优化控制。时间序
列其本质主要表现为 :一组观察值之间是相互依赖或相关的;观测值是有
序的。因此,以独立性假设为基础的统计方法和技术 将不再适用,需要建
1


基于时间序列分析及clementine软件的宝钢股价研究
立有别于传统 的新的统计方法。我们把用于时间序列统计的方法学称为时
间序列分析
[2]

1.3 本文的主要内容及安排
本文的主要目的是介绍时间序列分析相关的各种方法概念与模型,利
用SPSS Clementine 软件研究宝山钢铁股票价格随时间的变化规律,并用时
间序列的有关知识进行建 模分析。本文的主要安排:
第一章:绪论,对本文的内容进行简要概述。
第二章:介绍时 间序列的一些基本概念,如随机过程、平稳过程、自
相关函数和偏相关函数、白噪声过程等。
第三章: 介绍了案例中需要用到的几种模型,并进行简要对比;对SPSS
Clementine 软件进行简单介绍。
第四章:通过宝山钢铁股价这一案例具体介绍使 用Clementine软件建
立时间序列模型的步骤与方法,并对模型参数进行分析比较,确定最佳模
型。
对本文进行总结。
2


基于时间序列分析及clementine软件的宝钢股价研究
第2章 基本概念

2.1 随机过程
随机过程是以时间为标号的一组随机变量
Z(

,t)
,其中ω属于某个样
本空间,t属于某个标号集。对于固定的t,< br>Z(

,t)

是一个随机变量。对于
给定的ω,
Z(

,t)

是t的函数,我们把它称作样本函数或实现。所有可能
实现的全体称为随机过程和时间序列分析。因此, 一个时间序列就是来自
某个随机过程的样本函数或实现。为了对时间序列分析有一个正确的认识,
我们在本节引入了随机过程的一些基本概念。
假设指标集是所有整数的集合。考虑一个来自随机过程
{Z(

,t):t0,1,2,}
的有限随机变量集
{Z
t
1
,Z
t
2
,,Z
t
n
}< br>,其n维分布函数可
定义为
F
Z
t
,

, Z
t
(x
1
,

,x
n
)P{

:Z
t
1
x
1
,

,Z
t< br>n
x
n
}
(2.1)
1n< br>其中
x
i

i1,,n
是任意实数。如果其一维分布函数 是时不变的,及对任意
整数
t
1
,k和
t
1
k< br>有
F
Z
t
(x
1
)F
Z
tk< br>(x
1
)
,这个过程称为依次分布一阶平稳。依
11
分布二阶 平稳是指对于任意整数
t
1

t
2

k

t
1
k

t
2
k

F
Z
t
,Z
t
(x
1
,x
2
)F
Z
tk
,Z
tk
(x
1
,x
2
)< br>成立;从而,依分布n阶平稳是指
1212
F
Z
t
,

,Z
t
(x
1
,

,x
n
) F
Z
tk
,

,Z
tk
(x
1,

,x
n
)
(2.2)
1n1n
对于任意n元组
(t
1
,,t
n
)
和整数k成立。若对任意整数n
(n1,2,)
,公
式 (2.2) 成立,则该过程被称为严平稳过程。
对于实值过程
{Z
t
:t0,1, 2,}
,定义该过程的均值函数为


t
E(Z
t
)
(2.3)
该过程的方差函数为

t
2
E(Z
t

t
)
2
(2.4)
3


基于时间序列分析及clementine软件的宝钢股价研究
Z
t
1

Z
t
2
间的协方差函数为 Z
t
1
Z
t
2

(t
1
,t
2
)E(Z
t
1


t
1
)( Z
t
2


t
2
)
(2.5)
Z
t
1

Z
t
2
间的相关函数为


(t
1
,t
2
)

(t
1
,t
2
)

2
t
1

2
t
2
(2.6)
对于一个严平稳过程,分布函数对于所有的t都是一样的,若
E(|Z
t
|)

则均值函数

1


,是一个 常数。若
E(Z
t
2
)
,则对所有的t,有

t
2


2

也是一个常数,再进一步,由
FZ
t
,Z
t
(X
1
,X
2
)FZ
tk
,Z
tk
(X
1
,X
2
)

t
1

t
2
和k取
1212
任 意值时都成立,我们有


(t
1
,t
2
)

(t
1
k,t
2
k)
以及



(

t
1

,t

2

)





(

t
1



k

,

t
2



k

)
(2.8)
(2.7)

t
1
tk

t
2
t
,可以得到

以及


(t< br>1
,t
2
)

(tk,t)

(t, tk)

k

(t
1
,t
2
)
(tk,t)

(t,tk)

k

(2.9)

(2.10)
因此,对于前两阶矩有限的严平稳过程,Z
t

Z
tk
之间的协方差和相关仅依
赖于时间差k
[3]

2.2 自协方差和自相关系数
时间序列相邻值之间是有依赖性的,对于一个平稳过程
{Z
t
}
, 如果其
时间间隔为k,那么对于任意时间t,
Z
t

Z
t k
之间的协方差都是相同的,
我们将其称为滞后k的自协方差,表达式如下


k
Cov(Z
t
,Z
tk
)E(Z
t-

)(Z
tk
-

)
(2.11)
Z
t

Z
tk
之间的相关为
4


基于时间序列分析及clementine软件的宝钢股价研究

k

Cov(Z
t
,Z
tk
)
Var(Z
t
)Var(Z
tk
)


k
(2.12)

0
其中,
Var(Z
t
)Var(Z< br>tk
)

0
,作为k的函数,

k
称为 自协方差函数,

k

为自相关函数(autocorrelation f unction简称ACF),因为它们描述同一过
程中相距k个时滞的
Z
t

Z
tk
之间的协方差和相关性。
平稳时间序列
{Z
t
}
的自协方差函数列
{

k
}
与自相关函数列{

k
}
具有以
下的性质:
(1) 对称性:
k


-k
,

k

< br>-k

(2) 非负定性:系列
{

k
,k0 ,1,2,}

{

k
,k0,1,2,}
都是非负 定序列,


0


m-1

1


m-1





< br>,

m











m-1


0
 
m-1

1

即对任意正整数m,

m
为非负定对称阵;
(3)

k


0
,

k
1

2.3 偏自相关函数

除了
Z
t

Z
tk
之间的自相关外,我们考察除去
Z
t

Z
tk
共同依赖的干预
变量
Z
t1,Z
t2
,

,Z
tk1
的影响后的相关。这种 条件相关通常被称之为偏自相

[4]

这里有两种方法推导:
~
第一种方法:记

k

Z
t

Z
tk
之间的偏自相关,它等于
Z
t
Z
t

 

Z
tk
~
Z
tk
之间的普通自相关 < br>
~~
CovZ
t
Z
t
,Z
tk
Z
tk
(2.13)

k< br>
~~
varZ
t
Z
t
varZ
tk< br>Z
tk








然后再计算各个分量。
第二种方法:考虑回归模型,其中因变量
Z
tk
来自于0均值的平稳过程,
它关于之后k个变量
Z
tk1
,Z
tk2
,

,Z
t
进行回归
5


基于时间序列分析及clementine软件的宝钢股价研究
Z
t k


k1
Z
tk1


k2Z
tk2


kk
Z
t
e
tk
(2.14)
e
tk
是0均值的误差 项,其中

ki
代表第i个回归系数,并且与
Z
tkj
,

j
1
,
2
,

,k
不相关。
在 (2.14) 式回归方程的两边同乘
Z
tkj
,并取期望得到 < br>
j


k1

j1


k2

j2


kk

jk

对于
j1,2,,k
,我们有如下的方程组

1
< br>
k1

0


k2

1


kk

k1


2


k1

1


k2

0


kk

k2




k

k1

k1


k2

k2




kk

0

对k=1,2,…依次运用Cramer法则,有

11


1

1

22


1
1

1

2


1
1

1
1

1
1

33

1

2
1

1

11

1

2


1

2

3


2

1
1

1

6


基于时间序列分析及clementine软件的宝钢股价研究
1

1
1


1


2

1



k2


k3

< br>1

2


kk


k1
1

k2

1
1


1
< br>
k3


1

2


k2

1


k3


k
(2.15)

k1

k2

1

k1

k2

k3


1

作为k的函数,

kk
通常称为偏自相关函数(partial autocorrelation function
简称PACF)
[5]

2.4 白噪声过程


{a
t
}
是一个不相关的 随机变量序列,具有常值均值
E(a
t
)

a
(通常假< br>设为0)和常值方差
Var

a
t


< br>a
的确定分布,且对任意
2

a
k
,a
t k

0
,那么这个过程
{a
t
}
称为白噪声过程 。显然,白噪声
k0,

k
Cov
过程是平稳的,并且其自协方 差函数为


a
2
k0

k


(2.16)

0 k0
自相关函数为

1 k0

k


(2.17)
0 k0

偏自相关函数为

kk

1 k0


(2.18)
0 k0

根据定义,对任何过程都有

0< br>

00
1
,所以我们提到的自相关和偏相关,
仅涉及k0
时的

k


kk
。在白噪声过程中的 基本现象就是其ACF与PACF
均等于零。
7


基于时间序列分析及clementine软件的宝钢股价研究
尽管白噪声过 程在实际中很难发生,但它作为时间序列模型中的基本
构建,扮演着一般向量和函数分析中正交集的角色 。
2.5 均值、自协方差和自相关的估计
一个平稳时间序列可以被均值

、方差

2
、自相关

k
和偏自相关

kk

描述。如果知道了所有可能实现的全体或者得到了多次独立实现,则能够
计算出 这些参数的精确值。然而,在大多数情况下,得到多次实现非常困
难。大多数可利用的时间序列只由单个 实现构成,不可能计算总体平均。
不过,对于平稳过程,可以将总体平均由时间平均来代替。接下来,本 节
在优良的统计特性检测条件下,使用时间平均来估计均值、自协方差和自
相关。
2.5.1 样本均值
对于单个实现的平稳过程,其均值

E(Z
t
)
的一个自然估计是简单均


1
n

Z

Z
t
(2.19)
n
t1
它是n个观测值的时间平均。问题变为上面的估计是否是一个 有效的估计。
显然

1
n
1

E(Z)
E(Z
t
)n



(2.20)
n
t1
n
这意味着
Z
是μ的无偏估计。同时也容易得到

n

n

nn

1
0



ar(

Z)

Cov(Z
t
,Z
s
)


(ts)
V
n
2
t1s 1
n
2
t1s1



|k|
)

k
(2.21)

n
k1n
n



0
n
2
k1n

(n|k|)

n1
n1
k



0
(1
其中令
k(ts)
。因此,如果
8


基于时间序列分析及clementine软件的宝钢股价研究
lim[

(1
n
k1n
n1
|k|
)

k
]
n

是有限的,则当
n
时,
Var(Z)0
,从而
Z


的一致估计。即在均方意义下有
1
n
(2.22)
lim

Z
t


n
n
t1

如果存在式 (2.22) 中的结果,则这个过程就是均值遍历的。该结果成立的
一个充分条 件是当
k
时,

k
0
。这是因为这个条件暗含着对于 任意

0
,我们都可以找到一个正整数N,使得对于所有的
kN
,都有
|

k
|

4
。因此,对于
n (N1)
,有
1
n1
2
n1
|


k
|

|

k
|

n
k1n
n
k0
2
N
2
n1


|

k
|

|

k
|

n
k0
n
kN1
2
N
1


|

k
|


n
k0
2



(2.23)
在此选取足够大的n使得前式第三行第一项小于

2
。因此,当
k
时,
1
n1

k
0
,我们有
lim


k
0
,这意味着在 (2.23) 式中有
n
n
k1n
limVar(Z)0
n

(2.24)
这些结论简单地说就是:当
Z
t

Z
tk
相隔足够远时,它们几乎不相关,一些
新的有用的信息增加进来,使得时间平均接近总 体平均
[6]

2.5.2 样本自协方差函数
对于单个实现,我们可以使用时间平均来估计自协方差函数

k

1
nk

ˆ
k


(
Z
t
Z
)(
Z
tk
Z
)
n
t0

(2.25)

9


基于时间序列分析及clementine软件的宝钢股价研究


1
nk
ˆ

ˆ
k

(
Z
t
Z
)(
Z
tk
Z
)nk
t1
nk
t1

(2.26)

(Z
t1
nk
t
Z)(Z
tk
Z)

[(Z
t


)(Z

)][(Z
t k


)(Z

)]


(Zt


)(Z
tk


)(Z

)

(Z
t


)

t1t 1
nknk
(Z

)

(Z
tk

)(nk)(Z

)
2

t1< br>nk


(Z
t


)(Z
t k


)(nk)(Z

)
2
(2.27)
t1
nk
其中,用
(nk)(Z

)
来近似

(Z
t


)

< br>(Z
tk


)
。因此
t1t1
nknk
nk


E




ˆ




k





Var

Z

kkk
n

ˆ

ˆ
k


k
Var

Z

E< br>

n

(2.28)
(2.29)

ˆ
ˆ
k
变成无
显然,这两个估计都是有偏的。不考虑估计

的效率
Var(Z)
后,

ˆ
ˆ
k


ˆ
k
仍然是有偏的。一般地,

ˆ
k
的估计偏差大 ,尤其是在k相
偏的,而

对于n很大的情况下。因此,在时间序列分析中,对于给定 的n,常建议至
多计算到n4时的估计。若
k
时,

k
0
,则该过程是均值遍历的,并
ˆ
ˆ
k


ˆ< br>k
都是接近无偏的。
且如 (2.24) 中显示的
limVar(Z)0< br>,那么,估计

n
ˆ
ˆ
k


ˆ
k
都是有偏的,比较它们的均方误差更合适。对
在某些情况下,因为
ˆ
ˆ
k
有更小的均方误差。另外,像

k
一样,

ˆ
k


ˆ
k
总是
于某些类型的过程 ,

ˆ
ˆ
k
却不一定。因此,可以采用式 (2.25) 中的
ˆ
k
作为样本自相
半正定的,而

关函数去估计
k
的值
[7]

当过程是高斯过程时,Bartlett得到了下面的近似结果
1

ˆk
,

ˆ
kj





i

ij


ikj

ik
(2.30)
Cov


n
i
10


基于时间序列分析及clementine软件的宝钢股价研究
以及
1

ˆ
k




i
2


ik

ik
(2.31)
Var


n
i

类似地,有
ˆˆ
ˆ
k
,

ˆ
kj

Cov


1




i

ij< br>

ikj

ik

(2.32)
nk
i

ˆ
ˆ
k
Var


1


i
2


ik

ik
(2.33)

nk
i

ˆˆ
ˆ
k< br>比

ˆ
k
ˆ
k
的方差大。事实上,从式 (2.33) 可以看出,对于较大的k,

因此,

ˆ
ˆ
k
会不稳定的估计。
的方差
Var


接着,我们想知 道什么时候过程是自协方差函数遍历的,即依均方有
1
nk
ˆ
k

lim

(
Z
t
Z
)(
Z
t k
Z
)


k
(2.34)
lim

nn
n
t1
对于任意给 定的k,由于样本自协方差

ˆ


k
的渐近无偏估计,因 此

ˆ
k
为均
方一致以及该过程是自协方差遍历的一个充分条件是自 协方差是绝对可和
的,即


|

i
|,并且有
limVar(

ˆ
)
k
0

n

2.5.3 样本自相关函数
对给定的一组观测到的时间序列Z
1
,Z
2
,,Z
n
,样本ACF定义为

ˆ
k

ˆ
k



t1
ˆ
0
nk
(Z
t
Z)(Z
tk
Z)

(Z
t1
n

k0,1,2

,
(2.35)
t
Z)
2
ˆk
关于k的图像为样本相关图。其中
Z

Z
t
n是序列的样本均值。我们称


t1
n
对于平稳的高斯过程, Bartlett得到,对于k>0

k+j>0,有
11


基于时间序列分析及clementine软件的宝钢股价研究
ˆ
k
,

ˆ
kj


Cov

< br> (2.36)
1

2


i

ij


ikj

ik
2

k

i

ikj
2

kj
i

ik
2

k

kj
i
n
i

ˆ
k
的分布近似于正态分布,其均值 为

k
,方差为 对于较大的n,

1

ˆ
k




i
2


ik< br>
ik
4

k

i

ik< br>2

k
2

i
2
(2.37)
Var


n
i

当k> m时,

k
0
,则Bartlett的 (2.37) 式近似为
ˆ
k

Var


1
222
1

2

1

2

2

2< br>
m
(2.38)
n
< br>ˆ
i
来代替,并在实际中,当

i
(i1,2,,m)< br>未知时,可以用它们的样本估计

ˆ
k
的大滞后标准差为
且有


S

ˆ
k

1
2
ˆ
1
2

2

ˆ
m
(1

2

)
(2.39)
n
为检验白噪声过程,我们使用
S

ˆ
k

1
(2.40)
n
2.5.4 样本偏自相关函数
ˆ
的一个递推算法: 介 绍计算样本偏自相关函数

kk
ˆ


ˆ
1
为起始,根据


11
ˆ

k1,k1

ˆ

ˆ
k1


j1

ˆ< br>
kjk1j
k

以及
ˆ

ˆ
1


j1

kjj
k
(2.41)
ˆˆˆˆ

k1,j


kj


k1,k1

k,k1j
,
j1,,k
(2.42)
这个方法也可用于计算样本的理论偏自相关函数

kk

ˆ
的方差可以近似表示为 在原过程是白噪声序列的假设条件下,

kk
12


基于时间序列分析及clementine软件的宝钢股价研究
ˆ

1
(2.43)
Var

kk
n

因此,
2n
可以作为检验白噪声过程假设的关于

kk
的临界限度。
2.6 本章小结
本章引入了一些为便于理解本文中讨论的时间序列模型所必须的基本
概念。 首先简单介绍随机过程、自协方差和自相关函数、偏相关函数、白
噪声过程的概念与计算公式。接着讨论 样本均值、自协方差、自相关和偏
相关函数的估计。这样,便于阐释第3章中所介绍模型的采样现象,并 提
高对模型识别的评价。同时,这些概念对于理解在时间序列分析中使用的
潜在逻辑简化线性过 程是非常有用的。
13


基于时间序列分析及clementine软件的宝钢股价研究
第3章 时间序列模型及Clementine软件介绍

3.1 指数平滑模型
在实际的生 产预测中,指数平滑法作为一种常用的手段,也用于对经
济发展趋势进行中短期的预测。在所有的预测方 法中,指数平滑法是使用
最频繁的一种。简单的全期平均法是对一组时间序列的全部过去数据加以
利用,并对每个数据赋予相同的权值;移动平均法则不考虑时间间隔相距
较远的数据,并在加权移动平 均法的基础上赋予较新数据更大的权重;而
指数平滑法兼顾了全期平均法和移动平均法,不舍弃以往的数 据,仅仅给
历史数据以逐渐减小的权重赋值,即随着数据的不断远离,赋予其逐渐收
敛为零的权 数
[8]

3.1.1 基本公式
指数平滑法的基本公式是

S

t



a



y

t



(1



a

)S

t

1
(3.1)

其中,
S< br>t
是时间t的平滑值;
y
t
是时间t的实际值;
S
t 1
是时间t-1的平滑值;
a是平滑常数,其取值范围为[0, 1]。
3.1.2 指数平滑标准
(1) 简单:此模型适合于其中没有趋势或季节性的序列。其唯 一的相关
平滑参数是水平。简单的指数平滑模型非常类似于自回归阶数为0、差分阶
数为1、移 动平均阶数为1且没有常量的 ARIMA 模型。
(2) Holt's 线性趋势:此模型适合于 其中有线性趋势但没有季节性的序
列。其相关的平滑参数是水平和趋势,并且在此模型中,这些参数的值 不
会彼此限制。Holt's 模型比 Brown's 模型更加常用,但在计算大型序列的
估计值时会花费更多的时间。Holt's 指数平滑模型非常类似于自回归阶数为
0、差分阶数为2且移动平均阶数为2的 ARIMA 模型。
(3) Brown's 线性趋势:此模型适合于其中有线性趋势但没有季节性的
序列。其相 关的平滑参数是水平和趋势,但在此模型中,这些参数的值假
设相等。因此,Brown's 模型是 Holt's 模型的特例。Brown's 指数平滑模
型非常类似于自回归阶数为0、差分阶数为2且移动平均阶数为2的 ARIMA
模型,其第二阶移动平均的系数等于第一阶系数的平方的一半。
(4) 阻尼趋势:此模型适合于具有逐渐消失的线性趋势但没有季节性
14


基于时间序列分析及clementine软件的宝钢股价研究
的序列。其相 关的平滑参数是水平、趋势和阻尼趋势。阻尼指数平滑模型
非常类似于自回归阶数为1、差分阶数为1且 移动平均阶数为2的 ARIMA
模型。
(5) 简单季节:此模型适合于其中没有趋势且 季节效应不随时间变化
的序列。其相关的平滑参数是水平和季节。季节指数平滑模型非常类似于
自回归阶数为0、差分阶数为1、季节差分阶数为1且移动平均阶数为1、p
和 p+1 的 ARIMA 模型,其中 p 是一个季节区间中的周期数。对于以月
为时间单位的数据,p = 12。
(6) Winters 加法:此模型适合于具有线性趋势且季节效应不随时间变
化 的序列。其相关的平滑参数是水平、趋势和季节。Winters 加法指数平滑
模型非常类似于自回归 阶数为0、差分阶数为1、季节差分阶数为1且移动
平均阶数为 p+1 的 ARIMA 模型,其中 p 是一个季节区间中的周期数。
对于以月为时间单位的数据,p = 12。
(7) Winters 乘法:此模型适合于具有线性趋势且季节效应随序列的大
小变化的序列。其相关的平滑 参数是水平、趋势和季节。Winters 乘法指数
平滑模型与任何 ARIMA 模型都不相似
[9]

3.2 ARIMA模型
ARIMA模型全称为差分自回归移动平均模型(Autoregressive Integrated
Moving Average Model,简记ARIMA),是一种著名时间序列预测方法。其
中ARIMA(p, d, q) 称为差分自回归移动平均模型,AR是自回归, p为自回
归项,MA为移动平均,q为移动平均项数, d为时间序列成为平稳时所做
的差分次数。
或者说,所谓ARIMA模型,是指将非平稳时 间序列转化为平稳时间序
列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回
归所建立的模型。ARIMA模型根据原序列是否平稳以及回归中所含部分的
不同,分为自回归过程 (AR) 、移动平均过程 (MA) 、自回归移动平均过
程 (ARMA) 以及ARIMA过程。
3.2.1 自回归过程
把p阶自回归过程或模型记作AR(p) ,表示为
< br>

Z

Z
t1t1


< br>
p
Z
tp
a
t
(3.2)


a
(3.3)

p
(B)Z
tt
15


基于时间序列分析及clementine软件的宝钢股价研究

Z

。 其中

p

B



1

1
B



p
B
p

,Z
tt
因为


j



j

,所以上述过程总是可逆的。
j 1i1

p
为了满足平稳性,多项式

p

B< br>
0
的根必须在单位圆之外。
一般的p阶自回归AR(p) 过程为

a
(3.4)
(1

1
B



p
B
p< br>)Z
tt




Z


Z
t1t1




p
Z
t p
a
t
(3.5)
一般的AR(p) 过程的ACF
同样用前面的方法得到下面的自相关递推关系:

k


1

k1


p

kp


k0

(3.6)
从式 (3.6) 可以看到,ACF,

k
由差分方程 < br>
p

B


k


1

1
B

p
B
p

k
0

所确定。现在将特征多项式写成

p
B



i1

1G
i
B


其中,

i1
d
i
p

G
i
我们可以得到
m
m
d
i
1
< br>i
1
,
2
,

,m



p

B

0

d
i
重根。
d
i
1

k


i1
i0
b
ij
k
j
G
i
k

对平稳过程,
G
i
1
m
1

G
i1
。因此,ACF,

k
的拖尾是指数衰减或
阻尼正弦波动 的混合形式,这依赖于

p

B

0
的根,若某 些根是负根则呈现
阻尼正弦波动。
一般AR(p) 过程的PACF

k


1

k1


p
< br>kp


k0


由上式易知,当k>p时,式 (2.18)

kk
分子中的矩阵的最后一 列可写为该矩
阵前面各列的线性组合。因此,PACF将在滞后p期截尾。
16


基于时间序列分析及clementine软件的宝钢股价研究
3.2.2 移动平均过程
q阶移动平均过程MA(q) 表示如下






a

Z

a









a

tt1t1qtq
(3.7)






B

aZ
tt
(3.8)
其中


B

1

1< br>B

2
B
2


q
B
q

因为
1

1


q

,所以有限阶移动平均过程总是平稳的。若
22


B

0
的根在单位圆之外,则移动平均过程是可逆的。
对于一般的q阶移动平均过程MA(q) ,其表达式为



1 

B

B
2


B
q< br>
a

Z
t12qt
(3.9)
对于该一般MA(q) 过程,方差为

0


a
2

i0

j
2
,

0
1
. (3.10)
自协方差为


a
2



k


1

k1


< br>
qk

q

k1,2,

,q




(3.11)
0 kq

q
自相关函数为



k
< br>
1

k1




qk
q
k1,2,

,q

22< br>
k


(3.12)
1
< br>1




q

0 kq

MA(q) 过程的自相关函数在滞后q期后截尾。
从对MA(1) 和MA(2) 过程的讨论中,易知一般MA(q) 过程的偏自相
关函数是拖尾的,为指数衰减和(或)阻尼正弦波动的组合。具体取决于
1< br>
1
B

2
B
2


q
B
q
=0的根的特征。如果存在某些复根,则PACF将包含
阻尼正弦波 动。
3.2.3 AR(p)过程和MA(q)过程的对偶关系

ta
,其中 对于一个给定的平稳AR(p) 过程

p

B

Z
t

p

B



1

1
B

2
B
2< br>

p
B
p


17


基于时间序列分析及clementine软件的宝钢股价研究
也可以写为

Z
t
1
a
t



B

a
t


p

B

2
这里


B

1

1
B

2
B
,并且有


B

1
(3.13)

p

B

例如,可以将AR(2) 过程写成

tZ
1
2
a1

B

Ba
t

t12
2
1

1
B

2
B

这意味着

1
< br>B

12
B
2
1

1
B
2
B
2
1


因此,得到的权数

j
如下:
B
1
:

1


1
0

1
< br>
1

B
2
:

2

< br>1

1


2
0

2


1

1


2


1


2

B
3
:

3


2

1


1

2
0

3


2

1

1

2

2



实际上,对于 j2有

j


j1

1


j2

2
其中,

0
1
。在

2
1
的特殊情形
下,有

j

1
,j0
。因此



Z
t
1< br>2
a
t
1

1
B

2
B
2
a
t

1

1
B
j

这意味着一个有限阶的平稳AR过程等价于一个无穷阶的MA过程。
给定一个一般的可逆MA(q) 过程




B

a

Z
t qt



q

B

1
< br>1
B

2
B
2


q
B
q
,其中,也可以将其写成


B

Z
t
1

Z
t
a
t


q

B

18


基于时间序列分析及clementine软件的宝钢股价研究
这里,


B

1

1
B

2
B
2

例如,可以将MA(2) 过程写成
1

q

B


1

B

1
2

2
B

Z
t


1

a

Z
tt
2
1
< br>1
B

2
B
其中,

1
1
B

2
B
2

1

1
B

2
B
2


1
,因 此,通过令
B
j
系数相等可以
得到

权。具体如下: B
1
:

1


1
0

1


1

B
2
:
2


1

1


2
0

2


1

1


2


1


2

2

B
3
:

3


2

1


1

2
0

3

2

1


1

2




一般地,我们有

j


j1

1


j1

2
,j3



2
0
,过程变为MA(1) 过程时,我们有

j


1
j
,j1
(3.14)


1

B

1
2
2

B
2


Z
t

1

Z
t
a
t
(3.15)
1

1
B
因此,根据AR表达式,一个有限阶的可 逆MA过程等价于一个无限阶的
AR过程。
综上所述,一个有限阶的平稳AR(p) 过程对应于一个无穷阶的MA过
程,而一个有限阶的可逆MA(q) 过程对应于一个无穷阶的AR过程。它们
之间的对偶关系也存在于ACF和PACF函数中。AR(p) 过程具有ACF函数
拖尾和PACF函数截尾的性质,MA(q) 过程具有ACF函数截尾和PACF函
数拖尾的性质。
3.2.4自回归求和平稳模型
考虑一般ARIMA模型
19


基于时间序列分析及clementine软件的宝钢股价研究

p

B

1B

d
Z
t

0


q

B

a
t (3.16)
其中,平稳AR算子

p

B

1

1
B
2
B
2


p
B
p
和可逆MA算 子

q

B

1

1
B< br>
2
B
2


q
B
q
没有公因子。参数

0
对d=0和d>0分别起着
不同的作用。当d=0时, 原过程是平稳的,

0
与过程的均值有关,即

0



1

1


p

; 然而,当
d1
时,

0
被称作确定性趋势项,除非需
要, 否则在模型中

0
常可以忽略不计。
我们将式 (3.16) 中得到的齐次非平稳模型称之为 (p, d, q) 阶自回归
求和移动平均模型,简记为ARIMA(p, d, q) 模型。
3.2.5 自回归、滑动平均、ARIMA模型性质比较
自回归、滑动平均、ARIMA模型性质比较如表3.1所示。

表3.1 自回归、滑动平均、混合ARIMA模型的性质

自回归模型 滑动平均模型 混合ARMA模型

表示形式 模型的
Z
t
模型的
a
t
表示形式
权数


权数


平稳条件

a


(B)Z
tt

a


1
(B)Z
tt

a


1
(B)

(B)Z
tt



1< br>(B)a

Z
tt
有限序列
无限序列



(B)a

Z
tt
无限序列
有限序列
总是平稳



1
(B)

(B)a

Z
tt
无限序列
无限序列

(B)0
的根在
单位圆外

(B)0
的根在单位
圆外
可逆条件 总是可逆
无限项(指数衰减

(B)0
的根在单
位圆外
有限项

截尾
无限项(指数衰减或
正弦振荡)
拖尾

(B)0
的根在单位
圆外
无限项(指数衰减或
q-p步后正弦振荡)
拖尾
无限项(指数衰减或
p-q步后正弦振荡)
拖尾
自相关函数 或正弦振荡衰减)
拖尾
有限项
偏相关函数

截尾
20


基于时间序列分析及clementine软件的宝钢股价研究
3.3 模型识别与选择
3.3.1 模型识别的步骤
为了说明模型识别,我们考虑一般的ARIMA(p, d, q) 模型
(1

1
B

p
B
p
)(1B)
dZ
t


0
(1

1
B< br>
q
B
q
)a
t
(3.17)
模型识别关系到确定必要的变换,如方差稳定变换和差分变换。当d
时判定所包含的确定性参数

0
的确定,以及确定模p、q的适当阶数。给定
一个时间序列,我们用下述有用的 步骤来识别一个试探性模型。
步骤1 画出时间序列图并选择适当的变换。
在任何时间序列 分析中,第一步都是画出数据图。通过仔细地考察散
点图,往往可以得到好的思路,如时间序列是否存在 趋势、季节性、异常
值、异方差,以及其他非正态非平稳现象。这种认识往往为实施必要的数
据 变换奠定了基础。
在时间序列分析中,运用最广泛的变换是方差稳定的变换和差分。方
差稳定 的变换、如幂变换等,需要非负值,而差分过程可能产生一些负值,
因而我们进行方差稳定变换总是在取 差分之前。具有非常数方差的序列往
往需要进行对数变换。更一般地,为了使方差平稳化,我们可以采用 Box-Cox
幂变换。如有必要,方差稳定变换总是在我们作任何更深入的分析之前,
因而我 们在后面的讨论中,如不加特别说明,总是把变换后的序列称为序
列。
步骤2 计算并考察原 序列的样本ACF和样本PACF,以便进一步确认
必要的差分阶数,使得差分后的序列是平稳的。一般 准则如下:
① 若样本ACF衰减缓慢(个别样本ACF可能不大),且样本PACF在
1步 延迟后截尾,表明差分是必须的。可进行一阶差分
(1B)Z
t
,也可以用
Dickey和Fuller(1979) 给出的单位根检验。在临界情形,一般推荐用差分
(Dickey, Bell and Miller, 1985)
[10]

② 更一般地,为了消除非平稳性有时需要 考虑高阶差分
(1B)
d
Z
t
,其
中d>1。在绝大多数 情形,d为0,1或2。注意到如果
(1B)
d
Z
t
是平稳的,< br>那么
(1B)
d1
Z
t
(i=1,2) 也是平稳的。
21


基于时间序列分析及clementine软件的宝钢股价研究
步骤 3 计算并考察经适当变换和差分后序列的样本ACF和样本
PACF,并由此识别p和 q的阶数。我们知道p是在自回归多项式
(1

1
B
p
B
p
)
的最高阶,而q是移动平均多项式
(1
< br>1
B

q
B
q
)
的最
高阶。 通常,p和q所需的阶数小于或等于3。
步骤 4 当d>0时确定趋势项

0

对于非平稳模型
(1

1
B

p
B
p
)(1B)
dZ
t


0
(1

1
B< br>
q
B
q
)a
t

参数

0
经常被忽略掉,以便它能够表示局部水平,斜率或趋势有随机变化
的时间序列。如果有理由相 信差分后的时间序列含有确定性趋势,那么,
我们可以通过比较差分序列
W
t
(1B)
d
Z
t
的样本均值
W
和近似标准差
S
W

W)
确认这个结论。为了推导出
S
W
的表达 式,有
limnvar(
n
j



j
。由此得到
1




j

n
j
n
2
W

0

j


j


(1)
(3.18)

1
n
其中,

(B)
是定义的自协方差生成函数,

(1)
是它在B=1时的值。因此,
W的方差和标准差是依赖于模型的。尽管如此,在模型识别阶段,由于基
本模型是未知的,大多数现有 软件都是用下面的近似公式
S
W

[

ˆ
0n
ˆ
1

2

ˆ
2

2

ˆ
k
)]
12
(3.19)
(1

2

ˆ
1
,
,

ˆ
k
是序列
{W
t
}
的前k个显 著的样本ACF值。在原其中

ˆ
0
是样本方差,

ˆk
0(k1)
时,方程 (3. 19) 退化为 假设

S
W


ˆ
0

n
(3.20)
另外,我们可以一开始包括

0
,如果初步估计结果不显著, 再从最终的模
型估计中将它去掉。
3.3.2 矩方法
矩方法是用样本矩代替相应的理论值,并求解相应方程得到参数的估
计。如对于AR(p) 过程
22


基于时间序列分析及clementine软件的宝钢股价研究



Z

Z
t1t1


2
Z
t2




p
Ztp
a
t
(3.21)
均值

E(Z
t
)

Z
估计。为了估计

,我们先利用

k


1

t1< br>

2

t2


p
tp
,k1
,得到下面的Yule-Walker方程组

1

1


2

1

3

2


p

p1
< br>
2


1

1


2< br>

3

1


p

p2




p


1
p1


2

p2


3

p3


p

然后,用

ˆ< br>k
代替

k
,通过前面的线性方程组我们就得到矩估计
ˆ
1
,

ˆ
2
,,

ˆ
p
,即

ˆ
1


1

1

ˆ
1

ˆ
2


ˆp2

ˆ
p1



ˆ

ˆ

1


2



ˆ
p1

ˆ
1


ˆ
p3

ˆ


1


p2










< br>


ˆ
2




< br>
ˆ

p





ˆ< br>p1

ˆ
p2

ˆ
p3


ˆ
1
1








ˆ

p


该估计量通常称为Yule- Walker估计。
在得到

ˆ
1
,

ˆ
2
,,

ˆ
p
后,利用下面的结果

0E(Z

t
Z

t
)E[Z

t
(

1
Z

t1


2
Z

t2




p
Z
< br>tp
a
t
)]


2
1
< br>1


2

2


p

p


a

得到

ˆ
2
a
的矩估计为


ˆ
2
a


ˆ
0
(1


ˆ
1

ˆ
1


ˆ
2

ˆ
2


ˆ
p

ˆ
p)

3.3.3 极大似然方法
对于一般的平稳ARMA(p, q)模型:
Z

t


1
Z

t1


2
Z

t2




p
Z

tp
a
t


1
a
t1


< br>
q
a
tq

23
(3.22)
(3.23)
(3.24)
(3.25)




基于时间序列分析及clementine软件的宝钢股价研究

Z

,
{a}
是独立同分布服从
N(0,

2
)
的白噪声,
a(a,a,,a)
'
其中
Z
12n
tta
t
联合概率密度由下式给出
P(a|
,

,

,

)(2

)
2
a
2n2
a
exp[
1
2
2< br>
a

a]
(3.26)
2
t
t1
n
然后将 (3.25) 改写为



Z

a
t


1
a
t1




q
a
tq
Z
t1t1




p
Z
tp
(3.27)
2
)
的似然函数。 我们可以写出参数
(

,

,

,

a

Z(Z
1< br>,Z
2
,,Z
n
)
'
,并假设初始条件
Z

(Z
1p
,,Z
1
,Z
0
)< br>'

a

(a
1p
,,a
1
,a
0
)
是已知的。条件对数似然函数为
S(

,

,

)
n
22
lnL

(
,

,

,

a
)ln2
a


(3.28)
2
22

a
其中

S

(
,

,

)

a
t
2< br>(

,

,

|Z

,a

,Z)
(3.29)
t1
n
ˆ
,

ˆ
称为条件极大似然估计
[11]

ˆ
,

是条件平方和函数。其中

3.3.4 模型选择准则
(1) Akanke 的AIC 和BIC准则
假设用M个参数的统计模型 对数据进行拟合。为了检验模型拟合的质
量,Akaike(1973, 1974) 引入了信息准则。该准则在文献中被称为
AIC(Akaike’s information criterion) ,其定义为
AIC(M)=-2ln[maximum likelihood]+2M (3.30)
其中,M是在模型中的参数个数。我们要选择M使AIC(M) 极小化。
Shibata(1976) 证明了AIC准则趋向于高估自回归的阶数。Akaike(1978,
1979) 发展了贝叶斯的极小AIC方法,被称为贝叶斯信息准则 (Bayesian
information criterion, BIC) ,其具体形式如下:
ˆ
z
2

M
ˆ

(
nM
)ln(1
)
M
ln
nM
ln[(
2

1 )
M
]
(3.31) BIC(M)=
n
ln

ˆ
a
n

2
a
24


基于时间序列分析及clementine软件的宝钢股价研究
22
ˆ
a
ˆ
z
2
是序列的样本方差。 这里,


a
的极大似然估计,M是参数个数,

(2) Schwartz的SBC准则
类似于Akaike的BIC准则,Schwartz(1978) 建议使用下面的贝叶斯准
则来选择模型,该准则被称为SBC(Schwartz’s Bayesian criterion):
2
ˆ
a
M
ln
n
(3.32) SBC(M)=
n
ln

22
ˆ
a
在式 (3.32) 中仍有:



a
的极大似然估计,M是参数个数,n是有效观
测个 数,等价于可由序列中计算的残差个数。
(3) Parzen的CAT准则
Parzen(1977) 建议采用下面的模型选择准则称为CAT(criterion for
autoregressive transfer functions)
1

(1),p0

n

CAT(p)=

p
(3.33)
111


2

2
,p1,2,3,



n
j1

j

p
2

其中,< br>
2
是当用AR(j) 模型对序列拟合时
j
a
的无偏估计, n是观测个数。
最优阶数p被选为使CAT(p) 达到极小
[12]

3.3.5 模型简易选择
时间序列节点可为时间序列估计指数平滑模型、单变量综合自回归移
动平均 (ARIMA) 模型和多变量 ARIMA(或变换函数)模型并基于时间序
列数据生成预测。指数平滑指数平滑是一种 使用以前的序列观察的加权值
来预测未来值的预测方法。因此,指数平滑不是以对数据的理论理解为基< br>础的。指数平滑每次预测一个点,在输入新数据时可调整其预测。此技术
有助于预测可展示趋势和 或季节性的序列。可以从对趋势和季节性有不同
处理方式的多种指数平滑模型中进行选择。

ARIMA 模型比起指数平滑模型在对趋势和季节组件建模方面可提供
更成熟的方法,特别是 ,增加了可在模型中包括自变量(预测变量)的优
势,这包括自由指定自回归阶数和移动平均阶数以及差 分次数。可以包含
预测变量并为任意或所有预测变量定义变换函数以及指定对离群值的自动
检测 或精确设置。
实际上,如果想要包括预测变量(该变量有助于解释正在预测的序列
的行为,例 如邮寄的目录数或某公司网页的点击数),ARIMA 模型会非常
25


基于时间序列分析及clementine软件的宝钢股价研究
有用。而指数平滑模型在说明时间序列的行为时,并不试图去了解其行为
的原因。
还可使用 Expert Modeler(专家建模),它可自动识别和估计对一个或
多个目标变量拟合得最好的 ARIMA 模型或指数平滑模型,从而不需要通
过试错来识别适当的模型。在所有案例中,Expert Modeler 都可为指定的每
个目标变量选择最适合的模型。
如果已指定预测变量,则 Expert Modeler 会将那些与相关序列具有统
计意义下的显著关系的变量包括在 ARIMA 模型中。在适当的地方使用差
分和或平方根或自然对数变换对模型变量进行变换。默认情况下, Expert
Modeler 会考虑所有指数平滑模型和所有 ARIMA 模型并为每个目标字段
选择其中最适合的模型。不过,可以将 Expert Modeler 限制为仅选择最适
合的指数平滑模型或仅选择最适合的 ARIMA 模型。也可以指定对离群值
进行自动检测。
3.4 对Clementine软件的概述
Clementine 软件是一款面向商业用户的高品质数据挖掘产品。该软件
有丰富的数据 挖掘算法,支持与数据库之间的数据和模型交换;同时,具
有可视化操作界面,简单易用,分析结果直观 易懂,图形功能强大等特点。
该软件将一系列数据处理程序或技术整合成相互独立的模块,例如将聚类、决策树、神经网络、关联规则等多种数据挖掘技术集成在直观的可
视化图形界面中,并采用图 形用户交互式界面,因此对于不谙编程但又经
常面临大量数据处理任务的用户来说,它的确要比Exce l更易用更高效,而
且处理方法有重用性,即这次构建的数据流经保存后可在下一个类似任务
中 稍做修改便可使用,或者一条数据流可以支持相似数据的分析,不需要
再翻看复杂的编程手册、在Exc el里频繁使用各种函数、整理数据等。
3.4.1 Clementine的窗口
Cle mentine的操作与数据分析的一般流程相吻合。数据分析通常经过数
据收集、数据展示和预处理、 模型建立、模型评价等环节。Clementine形象
地将这些环节表示成若干节点,将数据分析过程 看成数据在各个节点之间
的流动,并通过一个图形化的“数据流”直观表示整个数据分析过程。
所以,Clementine的操作目的就是要建立一条或多条数据流,不断修改
和调整流中的节点及 参数,执行数据流,进而完成整个数据分析任务。
成功安装并启动Clementine软件后会出现 Clementine主窗口,如图3.1
所示。
26


基于时间序列分析及clementine软件的宝钢股价研究


图3.1 Clementine主窗口

Clementine主窗口由数据流编辑区域和三个窗口组成。
(1) 数据流编辑区域
数据流编辑区域位于主窗口中间,是建立和编辑Clementine数据流的
区域,用户的大 部分操作是在这个区域完成的。
(2) 节点工具箱窗口
Clementine数据流是 由多个节点组成的。节点工具箱窗口位于主窗口的
下方,可通过上下按钮(▲▼)使其呈现“可见”或“ 不可见”状态。
工具箱中分类存放着Clementine的所有节点工具,这些节点均以图符
形式显示,可实现数据采集、数据展示、数据(包括变量和样本)预处理、
数据建模以及模型评价等功 能。它们被分别放置在源、记录选项、字段选
项、图形、建模、输出和导出选项卡中,其中的常用节点又 集中存放在收
藏夹选项卡中。
(3) 流管理窗口
多个节点依次连接就形成了数 据流。流管理窗口位于主窗口的右上方,
可通过左右按钮(
◀▶
)使其呈“可见”或“ 不可见”状态。流管理窗口由
流、输出、模型三张选项卡组成。
可在流选项卡中新建、打开、关闭、保存数据流。
输出选项卡中存放着执行数据流后生成的各 种数据表,用户可根据需
要对这些数据表进行必要的管理操作。
27


基于时间序列分析及clementine软件的宝钢股价研究
模型选项卡中 存放着执行数据流后生成的各种模型计算结果,用户可
根据需要对计算结果进行必要的管理操作。
(4) 项目管理窗口
项目管理窗口位于主窗口的右下方,可通过上下按钮(▲▼)使其呈
“可见”或“不可见”状态。
多条数据流可以组成一个数据挖掘项目。Clementine 通常以项目为单
位,对流管理窗口中的各种数据流集中分类管理,进而避免数据流过多而
带来的 管理上的混乱。
当用户的数据挖掘任务较为庞大而建立了很多数据流时,可自行将流
管理窗口 中的服务于不同目标的数据流,分别存放到不同目录中,这些目
录的默认名为商业理解、数据理解、数据 准备、建模、评估、部署,分别
应对与数据挖掘的各个阶段,以最终形成一个完整的数据挖掘项目。用户
只需打开一个项目,Clementine便会自动打开项目中记录的全部数据流,并
显示在流 管理窗口中。
3.4.2 数据流的基本管理和执行
数据流的基本管理是Clementi ne的核心操作。由于节点是组成数据流
的最小单位,数据流的基本管理是围绕节点展开的。数据流的节 点通常应
实现以下主要功能。
第一,从指定数据源中读入数据到Clementine中。通 常这些节点位于
整个数据流的开始部分。第二,对所读入的数据进行必要的预处理。例如,
以表 格形式显示数据内容;数据分布特征的分析和展示;根据分析需要删
选部分数据参与后续分析等。第三, 数据建模。第四,对所建立模型进行
评价,选择最优模型等。
为实现上述目标,数据流的操作主要包括以下步骤:
① 选择很管理节点。
② 节点连接很连接调整。
③ 设置节点参数。
④ 执行数据流。
(1) 选择和管理节点
由于节点所实现的功能不同,因此被安排在节点工具箱的不同选项卡
中。建立 数据流时,应根据实际需要,首先选择相应的选项卡,再将某个
节点工具选中并添加到数据流编辑区域中 。其中包括如下的选项卡。
●收藏选项卡:存放数据流建立过程中最常用的节点工具。
●数据源选项卡:存放将各种外部数据读到Clementine中的节点工具。
●记录选项卡:存放针对记录操作的节点工具。
28


基于时间序列分析及clementine软件的宝钢股价研究
●字段选项卡:存放针对字段操作的节点工具。
●图形选项卡:存放展示数据分布特征和变量关系规律的可视化图形
节点工具。
●建模选项卡:存放建立各种数据模型的节点工具。
●输出选项卡:存放展示数据和数据基本统计特征的节点工具。
●导出选项卡:存放将数据转换成其他格式的节点工具。
(2) 节点连接和节点调整 < br>当数据流编辑区域中有两节点A、B时,可通过有向线段实现节点A、
B的连接。节点间连接的调 整包括:删除A、B之间的连接;在已连接的两
个节点A、B中插入一个节点C;在已建立的节点“A→ B→C”上绕开节点
B直接连接到节点C。
(3) 设置节点参数
节点是用来处理数据的,需要对某些节点中针对数据处理的参数进行
必要说明。
(4) 执行数据流
当数据流建立完成后,若要得到数据分析结果,则需要执行数据流。
如果数据流执行成功,则所产生的数据表或模型结果会显示在流管理器的
相应选项卡中;如果没 有执行成功,Clementine会给出错误提示信息,用户
需要对节点参数进行重新调整后再执行数 据流。
总之,Clementine的操作使用非常简单,用户只需要通过鼠标和菜单选
择, 就可轻松完成较为复杂的数据挖掘工作
[13]

3.5 本章小结
本章 着重介绍指数平滑模型与ARIMA时间序列模型,并且对这两种模
型的适用进行详细的比较;在本章结 尾处简单介绍本文研究宝山钢铁股价
所用到的软件——SPSS Clementine。
29


基于时间序列分析及clementine软件的宝钢股价研究
第4章 基于Clementine软件的对宝钢股价建模分析

在掌握前面知识的基础上,利用时间序列分析知识并结合SPSS
Clementine软件对A股宝山钢铁 (600019) 股票每日行情数据进行建模分
析,与原始数据比较拟合并根据参数选择最佳模型。
本次建模所用建模方法:专家建模,指数平滑建模,ARIMA建模。
4.1 对宝钢历年股价进行预处理
以宝山钢铁2001年1月至2012年4月每周收盘价作为数据源,利用
SPSS Clementine软件对这些数据进行简单分析。建立的数据流如图4.1所
示。


图4.1 宝钢历年股价数据流图

简要步骤如下:
步骤 1 :打开SPSS Clementine程序,新建一个流。
步骤 2 :如下图依次添加模型节点: 源节点,表节点,过滤节点,类
型节点,时间区间节点,时间序列散点图节点。
步骤 3 : 在源节点中读取数据源文件;连接到表节点查看数据;通过
过滤节点过滤不相关字段,只留下日期字段与 收盘价字段;类型节点设置
日期字段为“无”,收盘价字段为“输出”;时间区间节点选择以周为周期,从数据构建选择日期字段并对收盘价字段进行填充。
步骤 4 :执行时间序列散点图节点,得到宝钢历年股价的时间序列散
点图。所得散点图如图4.2所示。

30


基于时间序列分析及clementine软件的宝钢股价研究

图4.2 宝钢历年股价时间序列散点图


根据得到的时间序列散点图,进行简单的数据分析。
通过图4.2可以看出,宝山钢铁历年股 价在07年—09年之间变化幅度
过大,若将所有数据均作为本次建模的数据源,那么必然难以用一个模 型
来准确拟合。所以,为了对宝钢股价进行进一步的研究,我们需要对该数
据源进行删减。再次 观察散点图发现,宝钢股价从2010年以来变化幅度相
对较小,按照每日收盘价来记录亦可以获得较充 足的数据,故在本例中,
我们最终选取2010年1月4日至2012年4月20日的日收盘价作为数据 源
进行建模分析。
4.2 对宝钢最近2年股价进行建模分析
4.2.1 模型建立
以宝山钢铁2010年1月4日至2012年4月20日每日收盘价作为数据
源,建 立如图4.3所示的数据流。
建模过程中考虑到数据源中除了“Date”(日期)、“Close” (收盘价)
字段外,还包含了“Open”(开盘价)、“Change”(涨跌额)、“%Cag”( 涨
跌幅)、“Low”(最低价)、“High”(最高价)、“Volume”(成交量)、“Tur nover”
(成交金额)、“Rate”(换手率)等无关字段,所以需要先对字段进行过滤;
同时,因为股票市场双休日及节假日不开市的特殊性,收集到的数据在时
间段上是分段的,也就是说, 在不开市的时间点,数据缺失。为了方便利
用模型来分析,我们通过填充的办法使得数据(收盘价)在以 天为时间单
位上能够连续。
对股票研究的意义在于能够在一定时间段内对股价进行较为准确地 预
测,所以,本次研究中,我们也要通过选择合适的模型,对宝山钢铁每日
收盘价进行预测。由 于预测时间越长误差越大,尤其是对股票这类数据的
预测,无法长时间较准确地预测,故我们只进行短期 预测。
31


基于时间序列分析及clementine软件的宝钢股价研究


图4.3 宝钢近2年股价数据流图

从图4.3中可以看到 ,本例将用专家建模,指数平滑建模,ARIMA建
模多种方式对模型进行拟合,具体研究步骤如下:
步骤 1 :根据数据源格式建立相对应的源节点,由于本次使用的数据
保存在Excel表中,故在此选择 “Excel” 源节点。选择要读取的Excel文件,
并在“类型”选项卡中点击“读取值”按钮, 将Excel中的数据读入本数据
流;在过滤选项卡中将需要过滤的字段过滤;在类型选项卡中,将“D ate”
(日期)字段设置为“无”、将“Close”(收盘价)字段设置为“输出”。
操作 如图4.4所示。


图4.4 数据流源节点设置

步骤 2 :建立表节点,从源节点连接到该表节点,通过执行表节点,
我们可以看到经过过滤后剩下的字段:Da te和Close的具体数值。如图4.5
所示。

32


基于时间序列分析及clementine软件的宝钢股价研究

图4.5 宝山钢铁每日收盘价数据输出表

步骤 3 :通过导出模块计算宝山钢 铁每日收盘价的对数,在公式中选
择自然对数函数log(Close)。如图4.6所示。


图4.6 导出模块计算收盘价对数

步骤 4 :在时间序列散点图模 块中,将宝山钢铁每日收盘价及其对数
设置为输出,执行模块可以获得它们的时间序列散点图。操作如图 4.7所
示。

33


基于时间序列分析及clementine软件的宝钢股价研究

图4.7 时间序列散点图设置

在如图4.8所示获得的时间序列散点图中,宝山 钢铁每日收盘价是均值
非平稳且方差非平稳的,而收盘价对数有着不变方差的向下趋势,故可以
选择对数变换。


图4.8 收盘价及其对数的时间散点图

步骤 5 :本例研究的是每日收盘价,于是在“时间区间”一栏选择“天
(非周期性)”,点 击选择“从数据构建”,字段选择 “Date” ,在“日期
格式”一栏中的选择与数据源中格式相对 应。这里,我们点击“指定字段
和函数”,选中 “Close” 字段,并在“填充函数”选项卡选择 “最近点的
平均值”。本例中,我们勾中“将记录扩展至未来”,选择要预测的天数,
这里我们 选择预测 “20” 天,选中“Date”(日期)跟“Close”(收盘价)字段,
并在选项卡中 选择“最近点的平均值”。如图4.9所示。
34


基于时间序列分析及clementine软件的宝钢股价研究


图4.9 时间区间模块的设置

步骤 6 :模型选择与建立
(1) 专家模型
在时间序列模块中选择需要建立的模型。在此我们选择“专家建模器”,
点击“标准 ”选项,选择“所有模型”。“确定”后“执行”,获得专家
模型。如图4.10所示。


图4.10 时间序列模块——专家模型

指数平滑模型
在 时间序列模块中选择需要建立的模型。在此我们选择“指数平滑”,
点击“标准”选项,选择“Holt ’s线性趋势”。“确定”并“执行”后得到
Holt’s指数平滑模型。如图4.11所示。
35


基于时间序列分析及clementine软件的宝钢股价研究

图4.11 Holts指数平滑模型

(2) ARIMA(p, d, q) 模型
在时间序列模块中选择需要建立的模型。在此我们选择 “ARIMA” ,
点击“标准”选项,我们可以分别对自回归 (p) ,差 (d) ,均匀移动 (q) 进
行赋值。
在此,我们对(p, d, q)赋值:( 2, 1, 2)。“确定”并“执行”后得到ARIMA
模型。如图4.12所示。


图4.12 ARIMA(2,1,2)模型

4.2.2 模型分析及比较 查看模型参数。双击主界面上的模型模块,打开模型参数界面,在视
图选项卡选择“高级”选项,我 们可以看到一系列参数。(专家建模、指
数平滑建模、ARIMA建模图分别为图4.13、图4.14 、图4.15。)
36


基于时间序列分析及clementine软件的宝钢股价研究


图4.13 专家模型参数


图4.14 指数平滑模型参数


图4.15 ARIMA(2,1,2)模型参数

37


基于时间序列分析及clementine软件的宝钢股价研究
将按照上面方法获得的10个模型的部分参数汇总在表4.1中:

表4.1 宝钢股票收盘价模型比较

专家模型
指数平滑(holt’s)
ARIMA(2, 1, 2)
固定
R
2

0.021
0.57
0.046
R
2

0.918
0.918
0.92
Q
24.085
24.237
26.955
Df
17.0
16.0
14.0
Sig
0.117
0.084
0.02
RMSE MAPE
0.049
0.05
0.049
0.659
0.663
0.671
MAE
0.034
0.034
0.034

(1) 参数含义
●固定R^2:固定的R平方值,用于比较模型的平稳部分及简 单均值
模型的度量值。当存在趋势或季节模式时,该度量值对普通 R 平方更具优
势。平稳的R平方范围是负无穷大到 1。负值表示所检验的模型比基准模
型差,正值表示所检验的模型比基准模型好。
●R^2: 是序列中由模型解释的总变异所占比例的估计值,该值越高(最
大值为1.0),则表示模型的拟合越好 。

●Q、df、Sig列与Ljung- Box统计量相关联,该检验师对模型中残差
错误的随机检验;错误的随机性越大,则模型会变得越好。
●Q:Ljung-Box统计量本身。
●df:自由度,表示评估特定目标时可任意改变的模型参数。
●Sig.:给出了Ljung-Box统计量的显著性值,从而以另一种方式来表
示指定的模 型是否正确。显著性值小于0.05(可能还需进行一些实验,以
便找到拟合度更好的模型)表示残差误 差不是随机的,则意味着所观测的
序列中存在模型无法解释的结构。
●RMSE:指均方根误 差,是一种测量序列实际值与模型预测值之间差
异的度量方法,采用与序列本身所用的相同单位表示。由 于这是误差测量
值,因此我们希望该值尽可能低。
●MAPE:均值绝对百分比误差,用于度 量目标序列与其模型预测水平
的差异度,用百分比表示。通过审查所有模型中的均值和最大值,可以大< br>概知道预测的不确定性程度。
●MAE:绝对平均误差,用于显示预测误差绝对值的均值。如R MSE
值,使用与序列本身所用的相同单位表示。
(2) 残差的自相关与偏相关
38


基于时间序列分析及clementine软件的宝钢股价研究
专家建模、指数平滑建模、ARIMA建模所得的残差ACF及PACF分别
如图4.16、图4.1 7、图 4.18所示。


图4.16 指数平滑模型的残差ACF及PACF


图4.17 专家模型的残差ACF及PACF


图4.18 ARIMA(2,1,2)模型的残差ACF及PACF

残差:所谓残差是指观测值与预测值(拟合值)之间的差,即是实际观
察值与回归估计值的差。
(3) 时间序列散点图
39


基于时间序列分析及clementine软件的宝钢股价研究
专家 建模、指数平滑建模、ARIMA建模所得的时间序列散点图分别如图
4.19、图4.20、图4.2 1所示。

图4.19专家模型预测收盘价散点图


图4.20 指数平滑模型预测收盘价散点图


图4.21 ARIMA(2,1,2)模型预测散点图

将三种建模方法所得的股票收盘价预测值分别列 在表2中,并与真实值进
行比较,小括号内为预测值与真实值只差。

40


基于时间序列分析及clementine软件的宝钢股价研究
表2 模型预测值与真实值汇总
日期
4.23
4.24
4.25
4.26
5.2
5.3
5.4
5.7
5.8
5.9
指数平滑模型
4.970(0.01)
4.966(0.016)
4.963(-0.027)
4.959(-0.041)
4.938(-0.142)
4.935(-0.125)
4.931(-0.149)
4.921(-0.169)
4.917(-0.113)
4.914(-0.036)
专家模型
4.984
4.984
4.984
4.984
4.984
4.984
4.984
4.984
4.984
4.984
ARIMA模型
4.959(0.001)
4.950(0)
4.946(-0.044)
4.940(-0.06)
4.908(-0.172)
4.903(-0.157)
4.898(-0.182)
4.882(-0.208)
4.876(-0.154)
4.871(-0.079)
实际值
4.96
4.95
4.99
5.00
5.08
5.06
5.08
5.09
5.03
4.95

分析结果
从对数散点 图得知其有不变方差变化的趋势,则固定更有参考价值,
其中专家模型拟合程度为0.021,Holt ’s指数平滑模型拟合程度为0.57,
ARIMA(2,1,2)模型拟合程度为0.046,即H olts指数平滑模型拟合程度更好;
而,RMSE,MAPE,MAE这几个值的对比,三模型相差不 大;指数平滑
模型与专家模型的Sig值均大于0.05,为显著可行。从模型残差的自相关与
偏自相关上看,Holts指数平滑模型比专家模型与ARIMA(2,1,2)的误差
都小;最后,根 据实际数据对比三种模型的预测结果发现,专家模型在本
例中的预测值没有变化,没能体现出宝山钢铁股 价的行走趋势,而指数平
滑模型的预测精度要比ARIMA(2,1,2)要更准确。故,Holts指 数平滑模
型更可行。
41


基于时间序列分析及clementine软件的宝钢股价研究
结论
本文首先介绍了时间序列的基本概念、应用及其意义,然后介绍时间
序列分析的几种模型包括:指数平 滑模型与ARIMA模型。再简要介绍数据
挖掘软件SPSS Clementine,并利用该软件对 宝山钢铁股价进行建模、分析、
预测,最后依据对各种参数的分析选择最佳的模型。本文主要取得以下结
论:
(1) 对于中国这种受政策、大盘走向等因素影响较大的股票市场,研究
股价 并不是数据越多越好,因为数据多表明时间跨度大,过大的时间跨度
难以避免非正常因素的影响。于是, 选择合适的数据源利于更好地建模。
(2) 对宝山钢铁近2年的每日收盘价进行建模,得出的最佳模型为Holts
指数平滑模型。
(3) SPSS Clementine软件在数据挖掘方面有很大的使用空间,并在很大
程 度上简化了时间序列建模过程。因此,在研究性学习的过程中,充分利
用适当的工具能有效提高工作效率 。
42


基于时间序列分析及clementine软件的宝钢股价研究
参 考 文 献
[1] 王文慧.基于小波分析理论的高炉炉温预测模型研究[D].浙江大学硕士学位论
文,2005.
[2] 段江娇.基于模型的时间序列数据挖掘-- 聚类和预测相关问题研究[D].复旦大学博
士学位论文,2008.
[3] 魏武雄(William )编著.时间序列分析—单变量和多变量方法(第二版)[M].
北京:中国 人民大学出版社,2009:6-10.
[4] 陈琳.太原市月降水量时间序列分析[J].太原师 范学院学报自然科学
版,2011(2):21-25.
[5] 石秀民.空间非平稳噪声 状态下的超分辨测向技术研究[J].应用科
技,2003(3):12-14.
[6] 夏 婧.广义矩估计法在计量经济学中的应用[J].柳州职业技术学院学
报,2011(5):25-27 .
[7] 关庆云.采用测量距离方向法试射时距离误差的新校正方法[J].兵工学
报,2 007(9):31-34.
[8] 何舒华.指数平滑法初始值计算与平滑系数选取的新方法[J] .广州大学学报自然科
学版,2011(2):9-10.
[9] GEORGE and GWILYM S. TIME SERIES ANALYSIS
forecasting and control. HODEN-DAY, INC, 1976.
[10] Abraham,al aggregation and time series, International Statistical Review,
50, 285-291.
[11] Ahsanullah,M.,and Wei W.W.S.(1984b). The effects of time aggregation on the AR(1)
process, Computational Statistics Quarterly, 1, No.4, 343-352.
[12] Akaike,H.(1969). Power spectrum estimation through autoregressive model fitting,
Ann. Inst. Statist. Math.,21, 407-419.
[13] 薛薇 陈欢歌编著. Clementine数据挖掘方法及应用[M].北京:电子工业出
版,2010:14-19.
43


基于时间序列分析及clementine软件的宝钢股价研究
致 谢

在四年大学学习期间,无论在学习上还是在生活上,数学系的各位老< br>师都给予了我极大的关怀与帮助。老师们渊博的学识,谦逊、严谨的治学
作风,一丝不苟、尽职尽 责的工作态度以及正直的为人之道,使我终身受
益,并激励我始终刻苦努力。
在论文即将完成 之际,我在此向我的论文导师XX老师表示深深的谢
意!感谢陈老师在我论文完成过程中为我指点迷津, 并给了许多宝贵意见,
帮我开拓思路,从而使得课题顺利完成。
最后,再次向各位老师表示崇高的敬意和衷心的感谢!
44

小练笔-亚航行李规定


嘉兴市职业技术学院-最新会计法


厦门财政局会计之窗-法制名言警句


山东省教育招生网-福建艺术职业学院


忏悔录读后感-银行工作自我鉴定


白萝卜的英文-三支一扶工作总结


螺丝钉精神-高考状元经验谈


学校安全教育内容-小雪球