多元统计聚类分析方法实例
搞笑台词-河南省国家税务
三种系统聚类方法对24款8600GT进行分类
的应用
0082807段超波 0082796童善杰
(江西财经大学信息管理学院08管理科学1班,江西,南昌220032)
摘要:我们知道
在SAS系统中提供了很多种系统聚类过程中确定类别与类别之间
距离的方法,像类平均法(AVE)、
最短距离法(SIN)、离差平方和法(WARD)、
最长距离法(COM)、重心法(CEN)等,从
而影响最终的分类结果。到底哪一种
方法更合理更符合实际呢?通过用类平均法(AVE)、最短距离法
(SIN)和离差
平方和法(WARD)3种方法对24款8600GT进行分类,来对比一下这三种方
法的
分类效果。
关键词:聚类分析 类平均法 最短距离法 离差平方和法
Three Kinds of Clustering Method in 8600GT
Classification of 24 of the
Application
Abstract: we know in the SAS system provides a
variety of system clustering process
to
determine the distance between classes and
category of methods, like Average
linkage
(AVE), Single linkage (SIN), WARD (WARD), Complete
method (COM),
Centroid method (CEN) etc, thus
influence the final classification results. Which
method is more reasonable more accord with
actual? Through using class average
method
(AVE), Single linkage (SIN) and WARD (WARD), three
methods for the 24
8600GT classification, to
compare these three methods of classification
effect.
Keywords: Cluster Analysis Average
linkage WARD Single linkage.
在现实生活中,需要对复杂的对象依据
一定的标准进行分类,通常情况下,
人们根据事物现象的一个指标或者某一方面就可以进行分类活动,而
实际上,需
考虑的事物或对象不只包含单一指标,因此,很可能还需通过许多侧面或者指标
来进
行分类。一般情况下,人们往往可根据事物之间的远近距离来判定类别。个
体与个体之间的距离越近,其
相似程度可能也越高,属于同类的可能性越大。有
了一定的分类规则之后,人们可以根据个体与个体之间
的距离长短进行分类,首
先把最近的个体分为同类,然后再根据最短距离继续扩大类别所涵盖的范围,知
道把所有个体都分为一个大类为止,类似这样的分类过程称为“系统聚类”。案
例中将要使用聚
类方法均属于此类过程。
1 原理和方法
1.1类平均法(AVE)
类平均法是
用两类样品两两之间平方距离的平均值的平均值作为类之间的
距离。如
G
p
和
G
q
两类,可以计算每类中每对样本点之间的平均距离。
1 <
/p>
1
D
pq
N
p
N
q
若
d(x,y)
推公式决定。
iG
p
iG
q
d(x,x)
ij
xy
2
,则新类
G
n
与其他任意类
G
k
之间的距离系数由递
D
kn
N
p
D
k
p
N
q
D
kq
N
n
即在并类过程中,以类别样本点之间的平均距离作为依据并类,直到把所
有样本归为一类。
1.2最短距离法(Single linkage)
如果
G
p
和
G
q
两类合并为新类
G
n
,在最短距离法中,新类
G
n
与其他任
意类
G
k
之间的距离系数由下列公式决定:
D
kn
D
kp
D
kq
2
<
br>D
pq
4
即如果新类与其他类别之间存在多个距离,则取这些距离中最小者作为两类
之间的距离。
1.3离差平方和法(WARD)
离差平方和法的思想来源于方差分析,即如果类分得恰当,
同类内样品之间
的离差平方和应较小,而类间的离差平方和应当较大。该法要求样品间距离必须
采用欧氏距离。
2222
离差平方和法定义类间的平方距离为:
D
pqS
n
S
p
S
q
。其中,
S
n<
br>2
是类
G
p
和
G
q
合并成的
Gn
类的类内离差平方和。
xy
当观测距离
d(x,y)
时
,则新类
G
n
与其他任意类
G
k
之间的距
2
离由下列递推公式决定。
2
D
kn
(N
k
N
p
)D
kp
(N
k
N
q
)D
kq
N
k
D
pq
N
k
N
n
当采用离差平方和法进行分类时,先让每个样品自成一类,然后并类。每并
一类,离差平方和都
要增大,选择使其增加最小的两类合并,直到所有的样品归
为一类为止。
这么多种方法都可以对样本数据进行聚类分析,究竟采用哪一种方法最好
2
呢?Demirmen(1972)提出了一定的遵循原则。
(1)
任何类必须在邻近的各类中是突出的,即各类重心(常用平均数衡量)之
间应该有最大的距离。
(2) 在确定的类中,各类所包含的元素都不宜过多。
(3) 分类数目应符合实际。
(4) 当用许多方法进行分类时,应选出现次数最多的那种分类结果。
1.4实现方法 <
br>在SAS系统中,主要通过调用Cluster过程进行系统聚类,而在Cluster语句
的“
Method=”关键字下,便可以指定上述3种系统聚类方法。
2 应用实例
IT世界网显卡频道在2007年组织了一次GeForce 8600GT显卡系列横向评测,
针对市场上最热卖最火热的24款产品进行对比测试,来考察市场上所有GeForce
8600系
列的总体性能。现在利用3种系统聚类的方法将这24款显卡进行归类。下
表1的数据收集来自http
:。
表1 参加横向评测的24款显卡规格介绍
名
指
称
标
核心频率显存频率3DMark06
(MHz) (MHz) (SM2)
700
540
540
540
540
650
650
650
560
625
540
540
540
600
620
590
625
540
615
2000
1400
1400
1400
666
2000
2000
1400
1600
1800
800
1400
1400
1650
1800
1800
1800
1400
1500
3
3DMark06
(SM3)
1971
1659
1667
1658
824
1971
1984
1789
1790
2712
1284
1661
1668
1832
1926
2017
1978
1662
1833
2007年9月份
市场价格
999
999
1430
899
900
999
999
1099
1099
899
699
699
699
999
1099
1260
899
799
699
A翔升8600GTOF
B华硕EN8600GT
C华硕EN8600GT
Silent
D映泰VR8603GT21
E映泰V8602GT51
F七彩虹逸彩8600GT
烈焰战神H10
G艾尔莎影雷者8600GT
凤凰极限版
H富彩86000GT炎龙版
I富士康86000GT-256
OC
J耕升8601GT红旗版
K小影霸GT6
L小影霸GT7
M映众游戏战斗
N映众战神加强版
O映众i-Chill 8600GT
P丽台PC8600GT TDH
EXTREME
Q铭瑄极光8600GT超
能战士
R铭瑄8600变形金刚
珍藏版
S铭鑫8600GT视界风
2243
1674
1675
1660
987
2243
2241
2158
2064
2939
1595
1665
1664
2133
2193
2354
2266
1675
2144
PK版
T微星NX8600GT暴雪
骑士2
U昂达8600GT 256M神
戈
V双敏PCX8626GT Pro
玩家战斗版
W讯景8600GT黑金版
X盈通G8600GT游戏高
手二代
580
600
625
650
675
1600
1500
1800
1800
1800
2243
2260
2681
2356
3002
1898
1889
2542
2022
2751
799
799
899
999
999
数据做以下处理:将显卡名称依次用A-X24个字母表示,五个指标也依次用x1-
x5
表示,对于每列的数据作归一化处理,使得数据量纲化,结果如表2。
表2
处理后的待聚类表
name
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
4.883153
3.767004
3.767004
3.767004
3.767004
4.534356
4.534356
4.534356
3.906522
4.359958
3.767004
3.767004
3.767004
4.18556
4.325078
4.1158
4.359958
3.767004
4.290199
4.046041
4.18556
4.359958
4.534356
4.708755
5.302789
3.711952
3.711952
3.711952
1.765829
5.302789
5.302789
3.711952
4.242231
4.77251
2.121116
3.711952
3.711952
4.374801
4.77251
4.77251
4.77251
3.711952
3.977092
4.242231
3.977092
4.77251
4.77251
4.77251
4.475706
3.340317
3.342313
3.312382
1.96947
4.475706
4.471715
4.306096
4.118527
5.864512
3.18268
3.322359
3.320363
4.256211
4.375935
4.697196
4.5216
3.342313
4.27816
4.475706
4.509628
5.349696
4.701187
5.990222
4.381168
3.68765
3.705433
3.685427
1.8316
4.381168
4.410065
3.976616
3.978839
6.028274
2.854094
3.692096
3.707655
4.072197
4.281142
4.483418
4.396728
3.694318
4.07442
4.218903
4.198897
5.650396
4.494532
6.114964
4.406899
4.406899
6.308174
3.965768
3.97018
4.406899
4.406899
4.84803
4.84803
3.965768
3.083506
3.083506
3.083506
4.406899
4.84803
5.558251
3.965768
3.524637
3.083506
3.524637
3.524637
3.965768
4.406899
4.406899
var
x1
x2
x3
x4
x5
2.1类平均法(AVE)在聚类分析中的应用
聚类分析的程序为:
proc cluster data= method=ave outtree=GC_out;
var x1-x5;
id name;
4
run;
proc tree horizontal;
run;
图1显示了样本之间的并类全部过程。“NCL”表示聚类编号,并类从上至
下,直到最后所有
样本归为一类,“Clusters joined”表示分类的过程,可
以看出样本和类别之间的并类
过程,“FREQ”表示每次并类时该类别中所包含
的样本量;“Norm RMS
Dist”表示距离的均方根。
图1.采用类平均法聚类分析并类过程
得到的水平放置的系统聚类谱系图如图2。
图2.采用类平均法聚类分析谱系图
如果在图2上画一条竖直的直线,该直线与谱系聚类图有几个交点,就可把
所有样本分为几类。
在这个案例中,使用类平均法进行分类时,分类的结果并不
是很明显,而且类内样本之间的距离明显很大
,不便于进行分类,继续采用其他
聚类方法进行分析。
5
2.2最短距离法(SIN)在聚类分析中的应用
使用最短距离法来进行聚类
分析时,只要上面聚类分析过程cluster中指定
的方法“AVE”改为“SIN”,其他的不做改
变,结果如图3和图4。
得到的分类结果缺点跟用类平均法进行聚类分析时差不
多,分类不够明显,
类与类的差别不大,而类内样本的差距又过大,显然不够合理,继续采用其他的聚类方法。
2.3离差平方和法(WARD)在聚类分析中的应用
同样的,使用离差平
方和法进行聚类分析时,只要将聚类分析过程cluster
指定的方法“AVE”改为“WARD”,
其他的不做改变,结果如图5和图6。
6
图5.采用离差平方和聚类分析并类过程
图6.采用离差平方和聚类分析谱系图
很明显,使用离差平方和进行分类时效果很明显,类与类之间的有差距,类
内样本之间距离较短
。所以,从上至下,大致可以分为5类,即把A、F、G、Q、
W、H、I、N、O和P归为一类,把C
归为一类,把J、X和V归为一类,把B、D、
L、M、R、S、T和U归为一类,将E和K归为一类。
所以对于24款显卡,分类如
下:
第一类(
翔升8600GTOF、七彩虹逸彩86
00GT烈焰战神H10、艾尔莎影雷者8600GT凤凰
极限版、铭瑄极光8600GT超能战士、讯
景8600GT黑金版、富彩86000GT炎龙版、富士康
86000GT-256
OC、映众战神加强版、映众i-Chill 8600GT、丽台PC8600GT TDH
EXTREME
);
第二类(
华硕EN8600GT Silent
);
第三类(
耕升8601GT红旗版、盈通G8600GT游戏高手二代、双敏PCX8626G
T Pro玩家战
斗版
);
第四类(
华硕EN8600GT、映泰VR86
03GT21、小影霸GT7、映众游戏战斗、铭瑄8600变
形金刚珍藏版、铭鑫8600GT视界风
PK版、昂达8600GT 256M神戈
);
第五类(
映泰V8602GT51、小影霸GT6
)。
7
这个分类结果与横向评测数据来源基本吻合。
以下是2007年IT世界网对24款显卡横向评测后的获奖显卡:
最佳性能奖:ASUS(华硕)EN8600GT Silent
最佳性价比:讯景8600GT黑金版
编辑选择:Inno3D(映众)i-Chill
8600GT
编辑选择:Maxsun(铭瑄)8600GT超能战士
编辑选择:Onda(昂达)8600GT 256M神戈
热点品牌推荐:耕升
8600GT红旗版
热点品牌推荐:HASEE(小影霸) GT6
新晋品牌推荐:Foxconn(富士康) 8600GT-256 OC
很明显的可以看出,最佳性能的ASUS(华硕)EN8600GT Silent,最佳性价比,均的讯景8600GT黑金版(W)均被分在前两类中,属于性能和价格俱佳的显卡;编
辑所选的三
款显卡中有两款是在第一类中,新晋品牌的Foxconn(富士康)
8600GT-256
OC也被分在第一类中;至于 热点品牌推荐中的HASEE(小影霸) GT6
之所以能上榜,但却分
在相对来讲性价比最差的第五类,这完全得归功于它是市
场上第一个将8600GT杀价到699元的品
牌;所以,总体来讲,这个分类结果还是
合理的,有效的。
3 结论
本文通过实例
比较了三种系统聚类方法在聚类分析中的应用效果,以24款
8600GT的横向评测的相关数据为基础
,利用三种聚类方法对它们进行分组,来找
到其最终最优的分类结果。实例结果表明,利用离差平方和法
进行聚类分析能够
得到最佳的分类结果。针对第一类的显卡,性能相对卓越,而且性能和价格相类
似,属于性能优良价格较高的高端显卡;而第五类的显卡,性能一般且价格较低,
属于低端显卡;居于
两类之间三类相应地分别属于中高端、中端和中低端显卡。
【参考文献】
1.阮敬.SAS统计分析从入门到精通.2009年4月第1版:195~212
2.谭慧恒.-memory.2007年DX10中端
24款86GT横向评测.2007.9.19
6:00:00(出处:(IT世界网)):1~39
8