(2024年整理)第十二章聚类分析.doc

由天下分享时间：2025/1/18 8:17:08 加入收藏我要投稿点赞

学海无涯第十二章聚类分析

聚类分析（CLUSTER）是将样本或变量进行分类的一种方法。

通常用相似性指标“距离”和“相似系数”来衡量研究对象的联系紧密程度，从而进行合理分类。“距离”常用来对样本分类，即把每一个样本看作是m维空间（若样本被m个变量所描述）的一个点，把距离较近的点归为一类，距离较远的点归为不同的类。“相似系数”用来对变量分类，将变量间相似系数较大的归为一类，较小的归为不同类。

第一节距离和相似系数

一、距离

1、“欧几里得”距离

A和B两点由m个变量所描述，其坐标分别是(x1,x2,…,xm)和(y1,y2,…,ym)，那么d(A,B)= ?(x?y)iii?1m2。

例如：某次收视率调查中的部分数据如表1，则1号被访者和2号被访者的“距离”为：d(A,B)= (25?60)2?(16?6)2?(40?120)2?... 表1：原始数据

被访者 1 2 3 …… 600 年龄（岁）文化程度（年）日收看电视时间（分） …… X1 25 60 42 …… 34 X2 16 6 12 …… 14 X3 40 120 90 …… 150 X3=90，S3=40 …… …… …… …… …… …… X1=41，S1=20 X2=12，S2=5 上述测量的距离存在问题：（1）同一个变量单位不同会导致不同的距离；（2）不同变量的度量不一致，无法判断变量值大小和变量的重要程度，从而无法判断距离的意义。因而需要对原始数据进行标准化。

表2：标准化数据被访者 1 2 年龄（岁）文化程度（年）日收看电视时间（分） …… X1 -0.8 0.95 X2 0.8 -1.2 X3 1.25 0.75 …… …… …… 学海无涯

3 …… 600 0.05 …… -0.35 X1=0，S1=1 0.0 …… 0.4 X2=0，S2=1 0.00 …… 1.50 X3=0，S3=1 …… …… …… 2、SPSS聚类分析中提供的距离

（1）欧式距离（EUCLID），等于变量差2+变量差2+... （2）欧式距离的平方（SEUCLID），等于变量差2+变量差2+…… （3）曼哈顿距离（BLOCK），等于变量差的绝对值之和（4）切比雪夫距离（CHEBYCHEV），等于变量差中绝对值最大者

（5）幂距离POWER(p,r)，等于变量差的绝对值的p次方之和，再求r方根。 2、相似系数

（1）变量间的相关系数即皮尔逊相关系数；

（2）变量间的夹角余弦，即将两变量分别看成n维空间的向量时的夹角余弦值。

相关系数一般针对定距变量，对于定类变量特别是二项变量也可引入虚拟变量后计算相关系数。

例1：假定5个样本（人）具有如下指标：（1）请对个体进行分类；（2）对变量进行分类。

表3：五个人的六种身体特征指标

身高(cm) 体重(公斤) 眼睛形状鼻子形状习惯用手性别 120 145 135 100 150 单双单双双高低高低低右右右右左女男男女男个体1 166 个体2 175 个体3 168 个体4 167 个体5 174 解：变量中包含定距和定类变量，可以全部变成虚拟变量（也可将后四个虚拟），

1,体重≥130 ；X3= 1,身高≥170 ；X2= 1,双眼皮；令X1= 0,身高＜170 1,高鼻梁

0,低鼻梁

0,体重＜130

1,用左手 0,用右手

0,单眼皮

0,男

1,女，表3可转化为表4： X4= ；X5= ；X6= X1 0 1 0 0 X2 0 1 1 0 X3 0 1 0 1 X4 1 0 1 0 X5 0 0 0 0 X6 1 0 0 1 个体1 个体2 个体3 个体4 学海无涯

个体5 1 1 1 0 1 0 （1）根据两个个体共同特征的多少来对个体分类，以欧式距离的平方来进行聚类，个体之间的距离越小越相似，可求得：

d2(1,2)=(0-1)2+(0-1)2+(0-1)2+(1-0)2+(0-0)2+(1-0)2=5； d2(1,3)=(0-0)2+(0-1)2+(0-0)2+(1-1)2+(0-0)2+(1-0)2=2； d2(1,4)=(0-0)2+(0-0)2+(0-1)2+(1-0)2+(0-0)2+(1-1)2=2；

d2(1,5)=(0-1)2+(0-1)2+(0-1)2+(1-0)2+(0-1)2+(1-0)2=6；同理计算其他距离，得到下表：

表5：5个体间距离

1 2 3 4 5 1 0 5 2 2 6 2 0 3 3 1 3 0 4 4 4 0 4 5 0 根据距离大小，判断相似程度。个体2和5距离最小，最相似。1和3，1和4距离较小，较相似。如果分两类，则可分为{1,5}和{ 1,3,4}。（2）对特征变量进行分类，先计算两个变量间的相似系数： r12=

?(X?(X11?X1)(X2?X2)2?X1)?(X2?X2)2= ?(X?(X11?0.4)(X2?0.6)2?0.4)?(X2?0.6)2=0.6667

同理计算其它相关系数：

表6：六个变量间的相关系数

1 2 3 4 5 6 1 2 3 4 5 6 1.0000 0.6667 1.0000 0.6667 0.1667 1.0000 -0.6667 -0.1667 -1.0000 1.0000 0.6124 0.4082 0.4082 -0.4082 1.0000 -0.6667 -1.0000 -0.1667 0.1667 -0.4082 1.0000 表6中出现负相关系数，不予考虑符号，仅以绝对值来表示相关程度。X2

与X6，X3与X4两对变量最相似，同时X2和X3、X4，X6和X3、X4之间相关系数很小，所以{ X2,X6}和{ X3,X4}是几乎不相交的两类。X1、X5和其它5个变量的相关关系都适中，所以二者都不宜于其它变量合并，将X1和X5单独归为一类。

几个注意问题：（1）对个体进行聚类时，1-1匹配和0-0匹配是完全同等看待，实际上不太合理。如两个左撇子比两个同用右手的人更相似一些。因此有时