学 海 无 涯 第十二章 聚类分析
聚类分析(CLUSTER)是将样本或变量进行分类的一种方法。
通常用相似性指标“距离”和“相似系数”来衡量研究对象的联系紧密程度,从而进行合理分类。“距离”常用来对样本分类,即把每一个样本看作是m维空间(若样本被m个变量所描述)的一个点,把距离较近的点归为一类,距离较远的点归为不同的类。“相似系数”用来对变量分类,将变量间相似系数较大的归为一类,较小的归为不同类。
第一节 距离和相似系数
一、距离
1、“欧几里得”距离
A和B两点由m个变量所描述,其坐标分别是(x1,x2,…,xm)和(y1,y2,…,ym),那么d(A,B)= ?(x?y)iii?1m2。
例如:某次收视率调查中的部分数据如表1,则1号被访者和2号被访者的“距离”为:d(A,B)= (25?60)2?(16?6)2?(40?120)2?... 表1:原始数据
被访者 1 2 3 …… 600 年龄(岁) 文化程度(年) 日收看电视时间(分) …… X1 25 60 42 …… 34 X2 16 6 12 …… 14 X3 40 120 90 …… 150 X3=90,S3=40 …… …… …… …… …… …… X1=41,S1=20 X2=12,S2=5 上述测量的距离存在问题:(1)同一个变量单位不同会导致不同的距离;(2)不同变量的度量不一致,无法判断变量值大小和变量的重要程度,从而无法判断距离的意义。因而需要对原始数据进行标准化。
表2:标准化数据 被访者 1 2 年龄(岁) 文化程度(年) 日收看电视时间(分) …… X1 -0.8 0.95 X2 0.8 -1.2 X3 1.25 0.75 …… …… …… 学 海 无 涯
3 …… 600 0.05 …… -0.35 X1=0,S1=1 0.0 …… 0.4 X2=0,S2=1 0.00 …… 1.50 X3=0,S3=1 …… …… …… 2、SPSS聚类分析中提供的距离
(1)欧式距离(EUCLID),等于变量差2+变量差2+... (2)欧式距离的平方(SEUCLID),等于变量差2+变量差2+…… (3)曼哈顿距离(BLOCK),等于变量差的绝对值之和 (4)切比雪夫距离(CHEBYCHEV),等于变量差中绝对值最大者
(5)幂距离POWER(p,r),等于变量差的绝对值的p次方之和,再求r方根。 2、相似系数
(1)变量间的相关系数即皮尔逊相关系数;
(2)变量间的夹角余弦,即将两变量分别看成n维空间的向量时的夹角余弦值。
相关系数一般针对定距变量,对于定类变量特别是二项变量也可引入虚拟变量后计算相关系数。
例1:假定5个样本(人)具有如下指标:(1)请对个体进行分类;(2)对变量进行分类。
表3:五个人的六种身体特征指标
身高(cm) 体重(公斤) 眼睛形状 鼻子形状 习惯用手 性别 120 145 135 100 150 单 双 单 双 双 高 低 高 低 低 右 右 右 右 左 女 男 男 女 男 个体1 166 个体2 175 个体3 168 个体4 167 个体5 174 解:变量中包含定距和定类变量,可以全部变成虚拟变量(也可将后四个虚拟),
1,体重≥130 ;X3= 1,身高≥170 ;X2= 1,双眼皮 ; 令X1= 0,身高<170 1,高鼻梁
0,低鼻梁
0,体重<130
1,用左手 0,用右手
0,单眼皮
0,男
1,女 ,表3可转化为表4: X4= ;X5= ;X6= X1 0 1 0 0 X2 0 1 1 0 X3 0 1 0 1 X4 1 0 1 0 X5 0 0 0 0 X6 1 0 0 1 个体1 个体2 个体3 个体4 学 海 无 涯
个体5 1 1 1 0 1 0 (1)根据两个个体共同特征的多少来对个体分类,以欧式距离的平方来进行聚类,个体之间的距离越小越相似,可求得:
d2(1,2)=(0-1)2+(0-1)2+(0-1)2+(1-0)2+(0-0)2+(1-0)2=5; d2(1,3)=(0-0)2+(0-1)2+(0-0)2+(1-1)2+(0-0)2+(1-0)2=2; d2(1,4)=(0-0)2+(0-0)2+(0-1)2+(1-0)2+(0-0)2+(1-1)2=2;
d2(1,5)=(0-1)2+(0-1)2+(0-1)2+(1-0)2+(0-1)2+(1-0)2=6;同理计算其他距离,得到下表:
表5:5个体间距离
1 2 3 4 5 1 0 5 2 2 6 2 0 3 3 1 3 0 4 4 4 0 4 5 0 根据距离大小,判断相似程度。个体2和5距离最小,最相似。1和3,1和4距离较小,较相似。如果分两类,则可分为{1,5}和{ 1,3,4}。 (2)对特征变量进行分类,先计算两个变量间的相似系数: r12=
?(X?(X11?X1)(X2?X2)2?X1)?(X2?X2)2= ?(X?(X11?0.4)(X2?0.6)2?0.4)?(X2?0.6)2=0.6667
同理计算其它相关系数:
表6:六个变量间的相关系数
1 2 3 4 5 6 1 2 3 4 5 6 1.0000 0.6667 1.0000 0.6667 0.1667 1.0000 -0.6667 -0.1667 -1.0000 1.0000 0.6124 0.4082 0.4082 -0.4082 1.0000 -0.6667 -1.0000 -0.1667 0.1667 -0.4082 1.0000 表6中出现负相关系数,不予考虑符号,仅以绝对值来表示相关程度。X2
与X6,X3与X4两对变量最相似,同时X2和X3、X4,X6和X3、X4之间相关系数很小,所以{ X2,X6}和{ X3,X4}是几乎不相交的两类。X1、X5和其它5个变量的相关关系都适中,所以二者都不宜于其它变量合并,将X1和X5单独归为一类。
几个注意问题:(1)对个体进行聚类时,1-1匹配和0-0匹配是完全同等看待,实际上不太合理。如两个左撇子比两个同用右手的人更相似一些。因此有时