好文档 - 专业文书写作范文服务资料分享网站

聚类分析实验

天下 分享 时间: 加入收藏 我要投稿 点赞

聿聚类分析

薅用数据文件World95.sav做实例分析。 例1:系统聚类法

为了研究亚洲国家或地区的经济发展和文化教育水平,以便对亚洲国家和地区进行分类研究,进行聚类分析。 第一步:首先要选出亚洲国家或地区,使用数据—>选择个案

—>选择如果条件满足—>输入region=3,之后确定就可以了,这样我们将亚洲国家或区域选择了出来。接下类就正式进行聚类分析。

芀第二步:选择在菜单选项中选择分析—>分类—>选择系统聚类分析

虿第三步:在系统聚类法中,我们看到在分群下有两个选项,个案(样品聚类或Q型分类)和变量(变量聚类或R型聚类)这里选择样品聚类(个案)。

蚆在输出下有统计量与图,这里都进行选择。

蚅第四步:在数据文件中,选择的变量有Urban,Lifeexpf,Lifeexpm,Literacy,Gdp-cap;

芃在标注个案中选择Country来标识本例中的17个亚洲国家或地区,并以其他5个变量进行Q型聚类分析,即对国家或地区进行聚类。

蝿第五步:在系统聚类中有四个按钮。

肇首先在方法中的聚类方法中选择组内联结法,在度量标准中选择平方欧氏距离,在转换值的标准化中选择Z得分。点击继续。

膃接下来选择统计量,选择合并进程表与相似性矩阵,继续。

肂之后在绘制中选择树状图,继续即可。

袈最后点击确定。

蒈第六步:输出分析

表1表示接近度矩阵,是反映样品之间相似性或者相异性的矩阵。本例中由于计算使用的是平方欧氏距离,所以样品间距越大,样品越相异,从矩阵中可以看出,孟加拉国(Bangladesh)与柬埔寨(Cambodia)的距离最小,那么他俩先聚为一类。

袁表1

袅 衿案例 羆3:Cambodia 肅4:China 蚃5:Hong Kong 膈6:India 莇7:Indonesia 袄1:Afghanistan 肈2:Bangladesh 莈1:Afghanistan 莅.000 莄1.586 羂.969 蒈15.500 螆38.743 肆5.032 10.875 2:Bangladesh 3:Cambodia 4:China 5:Hong Kong 6:India 7:Indonesia 8:Japan 9:Malaysia 10:N. Korea 11:Pakistan 12:Philippines 13:S. Korea 14:Singapore 15:Taiwan 16:Thailand 17:Vietnam 这是一个不相似矩阵 1.586 .969 15.500 38.743 5.032 10.875 46.572 17.161 23.368 3.843 15.768 26.247 39.898 30.028 18.419 14.616 .000 .146 7.777 28.022 1.211 5.054 34.838 9.276 14.806 .736 8.893 17.440 29.571 19.862 10.357 7.666 .146 .000 9.394 31.080 1.951 6.159 37.827 11.024 16.823 1.438 10.343 19.653 32.513 22.447 11.824 8.893 7.777 9.394 .000 12.675 2.975 .623 15.967 .617 2.259 5.298 .806 4.317 13.585 4.889 .554 .421 28.022 31.080 12.675 .000 19.389 14.578 1.854 8.222 8.137 20.958 11.357 3.734 .299 2.564 12.781 15.260 1.211 1.951 2.975 19.389 .000 1.424 25.088 3.875 7.636 .522 3.655 9.883 20.563 11.666 4.802 3.102 5.054 6.159 .623 14.578 1.424 .000 18.277 1.119 2.958 3.421 .637 5.058 15.091 6.514 1.119 .424 表2反映每一阶段聚类的结果,比如第一阶段时第二个样品(孟加拉国)与第三个样品(柬埔寨)聚为一类,注意这时有16类,因此某阶段的分类数等于总的样品数减去这个阶段的序号。接下来的分析可根据表4自行思考。 表2 聚类表 阶 群集组合 群集1 1 2 3 4 5 6 7 8 9 10 11 12 2 16 5 13 4 6 4 9 4 1 10 5 群集2 3 17 14 15 16 11 7 12 9 2 13 8 系数 .146 .294 .299 .390 .423 .522 .573 .595 .723 .901 1.039 1.262 首次出现阶群集 群集1 0 0 0 0 0 0 5 0 7 0 0 3 群集2 0 0 0 0 2 0 0 0 8 1 4 0 下一阶 10 5 12 11 7 13 9 9 14 13 14 15

13 14 15 16

1 4 4 1 6 10 5 4 1.744 2.141 5.694 10.000 10 9 14 13 6 11 12 15 16 15 16 0 表3是聚合系数随分类数变化的曲线,由图可以看出,当分类数为3或4时,曲线变得比较平缓,这个分类也符合我们的目的。 表3

表4是树状聚类图,从图中可以有分类个数得到分类情况,如果我们选择分类数为3,就从距离为10的地方往下切,得到分类如下:1类{2,3,1,6,11},2类{5,14,8},3类{16,17,4,7,9,12,13,15,10}我们可以从经济发展水平和文化教育水平来理解所做的分类,第2类所代表的国家应该是亚洲经济发达程度最高的国家或地区,第1类的经济水平和文化水平都比较低,第三类国家或地区的经济水平和文化水平居中。 表4 表5也是反映样品聚类情况的图,如果按照设定的分类,在那类的行上从左到右就可以找到各类所包含的样品。 表5 例2:快速聚类 还是用World95.sav的数据,从中筛选出亚洲国家或地区试图将亚洲国家或地区按经济和文化水平分为三类,使用快速聚类法。 第一步:与例1相同。 第二部:选择在菜单选项中选择分析—>分类—>选择K-均值聚类分析。 第三步:在数据文件中,选择的变量有Urban,Lifeexpf,Lifeexpm,Literacy,Gdp-cap; 在标注个案中选择Country来标识本例中的17个亚洲国家或地区,并以其他5个变量进行Q型聚类分析,即对国家或地区进行聚类。 将分类数指定为3,在选项中选择统计量中的:初始聚类中心,ANOVA表,每个个案的聚类信息。 输出分析: 表6表示最初各类的重心,也就是种子点, 表6 初始聚类中心 聚类 1 Peoplelivingincities(%) Averagefemalelifeexpectancy Averagemalelifeexpectancy Peoplewhoread(%) Grossdomesticproduct/capita 45 29 205 76 99 19860 72 91 7055 18 44 2 77 82 3 71 78 表7时样品的分类情况,我们看到快速聚类发将亚洲国家或地区分为三类, 1类{1,8,19,24,50,51,66,69,76,80,98,108}2类{47,57,89}3类{86,96},我们可以对分类结果进行分析,第一类国家或地区经济和文教卫生水平较低,第二类国家或地区时亚洲国家或地区的佼佼者,其经济和文教卫生水平都有很高,第三类国家或地区处于两者之间。我们可以结合表8来分析,可以看到,第二类的人均GDP比另外两组高。 表7

聚类成员

案例号 1 8 19 24 47 50 51 57 country Afghanistan Bangladesh Cambodia China Hong Kong India Indonesia Japan Malaysia N. Korea Pakistan Philippines S. Korea Singapore Taiwan Thailand Vietnam 聚类 1 1 1 1 2 1 1 2 1 1 1 1 3 2 3 1 1 距离 571.615 573.924 516.229 398.151 1856.036 500.047 94.543 3363.045 2220.274 230.069 370.165 96.542 214.034 1507.033 214.034 1025.608 545.396 66 69 76 80 86 89 96 98 108 表8 最终聚类中心 聚类 1 Peoplelivingincities(%) Averagefemalelifeexpectancy Averagemalelifeexpectancy Peoplewhoread(%) Grossdomesticproduct/capita 60 66 775 75 88 16497 70 94 6841 29 63 2 90 80 3 72 76 表9是方差分析表,通过方差分析可看出有4个变量对分类贡献显着。 表9 ANOVA 聚类 均方 Peoplelivingincities(%) Averagefemalelifeexpectancy Averagemalelifeexpectancy Peoplewhoread(%) Grossdomesticproduct/capita F检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显着性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。 321.326 1073.096 3.042E8 2 2 2 41.113 570.625 1780295.690 14 14 14 7.816 1.881 170.846 .005 .189 .000 5336.488 454.600 df 2 2 均方 169.577 70.494 误差 df 14 14 F 31.469 6.449 Sig. .000 .010

聚类分析实验

聿聚类分析薅用数据文件World95.sav做实例分析。例1:系统聚类法为了研究亚洲国家或地区的经济发展和文化教育水平,以便对亚洲国家和地区进行分类研究,进行聚类分析。第一步:首先要选出亚洲国家或地区,使用数据—>选择个案蒂蕿芅—>选择如果条件
推荐度:
点击下载文档文档为doc格式
0th8184nwb4n7xz5eecp3x5if1klf700b1y
领取福利

微信扫码领取福利

微信扫码分享