4 1 0
25 16 9 0 64 49 36 9 0 100 81 64 25 4 0
易知 记为
中最小元素是 于是将,,聚为一类,
计算距离阵 0
16 0 49 9 0 81 25 4 0
注:计算方法
中最小元素是计算样本距离阵 0 16 0 64 16 0
=4 于是将
,
,其他以此类推。
聚为一类,记为
中最小元素是 于是将因此,
,聚为一类,记为
5.8 下表是15个上市公司2001年的一些主要财务指标,使用系统聚类法和K-均值法分别对这些公司进行聚类,并对结果进行比较分析。
公司 编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 净资产收益率 11.09 11.96 0 11.58 -6.19 10 10.49 11.12 3.41 1.16 30.22 8.19 95.79 16.55 -24.18 每股净利润 0.21 0.59 0.03 0.13 -0.09 0.47 0.11 -1.69 0.04 0.01 0.16 0.22 -5.2 0.35 -1.16 总资产周转率 0.05 0.74 0.03 0.17 0.03 0.48 0.35 0.12 0.2 0.54 0.4 0.38 0.5 0.93 0.79 资产负债率 96.98 51.78 181.99 46.07 43.3 68.4 82.98 132.14 67.86 43.7 87.36 30.31 252.34 72.31 56.26 流动负债比率 70.53 90.73 100 92.18 82.24 86 99.87 100 98.51 100 94.88 100 99.34 84.05 97.8 每股净资产 1.86 4.95 -2.98 1.14 1.52 4.7 1.02 -0.66 1.25 1.03 0.53 2.73 -5.42 2.14 4.81 净利润增长率 -44.04 7.02 103.33 6.55 -1713.5 -11.56 100.23 -4454.39 -11.25 -87.18 729.41 -12.31 -9816.52 115.95 -533.89 总资产增长率 81.99 16.11 21.18 -56.32 -3.36 0.85 30.32 -62.75 -11.43 -7.41 -9.97 -2.77 -46.82 123.41 -27.74 解:令净资产收益率为X1,每股净利润X2,总资产周转率为X3,资产负债率为X4,流动负债比率为X5,每股净资产为X6,净利润增长率为X7,总资产增长率为X8,用spss对公司聚类分析的步骤如下:
a) 系统聚类法:
1. 在SPSS窗口中选择Analyze→Classify→Hierachical Cluster,调出
系统聚类分析主界面,并将变量X1-X8移入Variables框中。在Cluster栏中选择Cases单选按钮,即对样品进行聚类(若选择Variables,则对变量进行聚类)。在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。
图5.1 系统分析法主界面
2. 点击Statistics按钮,设置在结果输出窗口中给出的聚类分析统计量。
我们选择Agglomeration schedule与Cluster Membership中的Range of solution 2-4,如图5.2所示,点击Continue按钮,返回主界面。 (其中,Agglomeration schedule表示在结果中给出聚类过程表,显示系统聚类的详细步骤;Proximity matrix 表示输出各个体之间的距离矩阵;Cluster Membership 表示在结果中输出一个表,表中显示每个个体被分配到的类别,Range of solution 2-4即将所有个体分为2至4类。) 3. 点击Plots按钮,设置结果输出窗口中给出的聚类分析统计图。选中
Dendrogram复选框和Icicle栏中的None单选按钮,如图5.3,即只给出聚类树形图,而不给出冰柱图。单击Continue按钮,返回主界面。
图5.2 Statistics子对话框 图5.3 Plots子对话框
4. 点击Method按钮,设置系统聚类的方法选项。Cluster Method下拉列
表用于指定聚类的方法,这里选择Between-group inkage(组间平均数连接距离);Measure栏用于选择对距离和相似性的测度方法,选择Squared Euclidean distance(欧氏距离);单击Continue按钮,返回主界面。
图5.4 Method子对话框 图5.5 Save子对话框 5. 点击Save按钮,指定保存在数据文件中的用于表明聚类结果的新变量。
None表示不保存任何新变量;Single solution表示生成一个分类变量,在其后的矩形框中输入要分成的类数;Range of solutions表示生成多个分类变量。这里我们选择Range of solutions,并在后面的两个矩形框中分别输入2和4,即生成三个新的分类变量,分别表明将样品分为2类、3类和4类时的聚类结果,如图5.5。点击Continue,返回主界面。 6. 点击OK按钮,运行系统聚类过程。
聚类结果分析:
下面的群集成员表给出了把公司分为2类,3类,4类时各个样本所属类别的情况,另外,从右边的树形图也可以直观地看到,若将15个公司分为2类,则13独自为一类,其余的为一类;若分为3类,则公司8分离出来,自成一类。以此类推。 表5.1 各样品所属类别表
图5.6 聚类树形图
b) K均值法的步骤如下:
1. 在SPSS窗口中选择Analyze→Classify→K-Means Cluster,调出K均
值聚类分析主界面,并将变量X1-X8移入Variables框中。在Method框中选择Iterate classify,即使用K-means算法不断计算新的类中心,并替换旧的类中心(若选择Classify only,则根据初始类中心进行聚
类,在聚类过程中不改变类中心)。在Number of Cluster后面的矩形框中输入想要把样品聚成的类数,这里我们输入3,即将15个公司分为3类。
(Centers按钮,则用于设置迭代的初始类中心。如果不手工设置,则系统会自动设置初始类中心,这里我们不作设置。)
图5.7 K均值聚类分析主界面
2. 点击Iterate按钮,对迭代参数进行设置。Maximum Iterations参数框
用于设定K-means算法迭代的最大次数,输入10,Convergence Criterion参数框用于设定算法的收敛判据,输入0,只要在迭代的过程中先满足了其中的参数,则迭代过程就停止。单击Continue,返回主界面。
图5.8 Iterate子对话框
3. 点击Save按钮,设置保存在数据文件中的表明聚类结果的新变量。我们
将两个复选框都选中,其中Cluster membership选项用于建立一个代表聚类结果的变量,默认变量名为qcl_1;Distance from cluster center选项建立一个新变量,代表各观测量与其所属类中心的欧氏距离。单击Continue按钮返回。
图5.9 Save子对话框
4. 点击Options按钮,指定要计算的统计量。选中Initial cluster centers