v1.0 可编辑可修改 实验指导之一
聚类分析的SPSS操作方法
系统聚类法
实验例 城镇居民消费水平通常用下表中的八项指标来描述。八项指标间存在一定的线性相关。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际上就是对指标聚类。
实验数据表 2001年30个省。市,自治区城镇居民月平均消费数据
x1 人均粮食支出(元/人) x5 人均衣着商品支出(元/人) x2 人均副食支出(元/人) x6 人均日用品支出(元/人) x3 人均烟、酒、茶支出(元/人) x7 人均燃料支出(元/人) x4 人均其他副食支出(元/人) x8 人均非商品支出(元/人)
北 京 天 津 河 北 山 西 内蒙古 辽 宁 吉 林 黑龙江 上 海 江 苏 浙 江 安 徽 福 建 x1 x2 x3 x4 x5 x6 x7 x8 11
v1.0 可编辑可修改 江 西 山 东 河 南 湖 北 湖 南 13.23 广 东 广 西 海 南 四 川 贵 州 云 南 西 藏 陕 西 甘 肃 青 海 宁 夏 新 疆 系统聚类法的SPSS操作:
1. 从数据编辑窗口点击Analyze →Classify →Hierachical Cluster , 图1)
22
(见v1.0 可编辑可修改
图1 系统聚类法 打开层次聚类法对话如图2。
图2 系统聚类法对话框
选择需要进行聚类分析的变量进入Variable框内后,在Cluster栏中选择聚类类型,SPSS有两种层次聚类方法:
Cases 对样品聚类(Q型;系统默认), Variable 对指标变量聚类(R型),本例选择。 在Display栏中选择默认的输出项。
33
v1.0 可编辑可修改 2. 点击Statistics按钮,打开对话框如图3.
图3 Statistics对话框
Agglomeration schedule输出凝聚状态表(聚类进度表);本例选择。 Ploximity matrix 输出个体间的距离矩阵,本例选择。 Cluster Membership栏中显示每个观测量被分派到的类。 None 不输出。本例选择。
Simple solution 指定分类数,并输出样本所属类,单一解。 Renge of solution 指定输出从m到n类的各样本所属类。多个解。 选好后返回主对话框。
3. 单击Method按钮,打开对话框如图4-1.
Cluster Method:选择聚类方法:
SPSS中提供7种聚类方法,分别是:类间平均,类内平均,最短距离,最长距离,重心法,中值法,最小平方和法。本例选择类间平均。
Measure栏:对距离的测度方法选择
SPSS中提供了三种类型:Interval等间距度量的变量(连续型), Counts计数型变量(离散型)和Binary二值变量。
44
v1.0 可编辑可修改 Interval等间隔测度的变量方法包括: Euclidean distance欧氏距离;
Squared Euclidean distance欧氏平方距离; Cosine夹角余弦(R 型聚类);
Pearson Correlation皮尔逊相关系数距离(R 型聚类),本例选择此项。 Chebychev契比雪夫距离; block距离;
Minkowski明氏距离;
Customized用户自定义距离--即变量绝对值的第p 次幂之和的第r 次根。p与r 由用户指定。
图4-1 Method对话框
Transform Values栏,选择消除数量级差的方法(见图4-2),依次是: None不作处理(系统默认);本例选择此项。
55