聚类分析实例分析题

由天下分享时间：2024/10/1 9:59:29 加入收藏我要投稿点赞

5.2酿酒葡萄的等级划分 5.2.1葡萄酒的质量分类

由问题1中我们得知，第二组评酒员的的评价结果更为可信，所以我们通过第二组评酒员对于酒的评分做出处理。我们通过excel计算出每位评酒员对每支酒的总分，然后计算出每支酒的10个分数的平均值，作为总的对于这支酒的等级评价。

通过国际酿酒工会对于葡萄酒的分级，以百分制标准评级，总共评出了六个级别（见表5）。

表5：葡萄酒等级表等级特优优优良良及格不及格分数 95-100 90-94 80-89 70-79 60-69 0-59 在问题2的计算中，我们求出了各支酒的分数，考虑到所有分数在区间[61.6，81.5]波动，以原等级表分级，结果将会很模糊，不能分得比较清晰。为此我们需要进一步细化等级。为此我们重新细化出5个等级，为了方便计算，我们还对等级进行降序数字等级（见表6）。

表6：细化后的葡萄酒等级表等级偏优偏优良良中及格分数 80-84 75-79 70-74 65-69 60-64 数字等级 5 4 3 2 1 通过对数据的预处理，我们得到了一个新的关于葡萄酒的分级表格（见表7）：

表7：各支葡萄酒的等级编号红酒原等级细化等级白酒原等级细化等级 1号 68.1 2 2 77.9 3 4 2号 74 3 3 75.8 3 4 3号 74.6 3 4 75.6 3 4 4号 71.2 3 3 76.9 3 4 5号 72.1 3 3 81.5 4 5 6号 66.3 2 2 75.5 3 4 7号 65.3 2 2 74.2 3 3 8号 66 2 2 72.3 3 3 9号 78.2 3 4 80.4 4 5 10号 68.8 2 2 79.8 3 4 11号 61.6 2 1 71.4 3 3 12号 68.3 2 2 72.4 3 3 13号 68.8 2 2 73.9 3 3 14号 72.6 3 3 77.1 3 4 15号 65.7 2 2 78.4 3 4 16号 69.9 2 3 67.3 2 2 17号 74.5 3 3 80.3 4 5 18号 65.4 2 2 76.7 3 4 19号 72.6 3 3 76.4 3 4 20号 75.8 3 4 76.6 3 4 21号 72.2 3 2 79.2 3 4 22号 71.6 3 3 79.4 3 4 23号 77.1 3 4 77.4 3 4 24号 71.5 3 3 76.1 3 4 25号 68.2 2 2 79.5 3 4 26号 72 3 3 74.3 3 3 27号 71.5 3 3 77 3 4 28号 79.6 3 4 经过整理，我们初步得到了对于葡萄酒的质量的分类的表格。考虑到葡萄酒的质量与酿酒葡萄间有比较之间的关系，我们将保留葡萄酒质量对于酿酒葡萄的影响，先单纯从酿酒葡萄的理化指标对酿酒葡萄进行分类，然后在通过葡萄酒质量对酿酒葡萄质量的优劣进一步进行划分。

5.2.2建立模型

在通过酿酒葡萄的理化指标对酿酒葡萄分类的过程，我们用到了聚类分析方法中的ward最小方差法，又叫做离差平方和法。

聚类分析是研究分类问题的一种多元统计方法。所谓类，通俗地说，就是指相似元素的集合。为了将样品进行分类，就需要研究样品之间关系。这里的最小方差法的基本思想就是将一个样品看作P维空间的一个点，并在空间的定义距离，距离较近的点归为一类；距离较远的点归为不同的类。面对现在的问题，我们不知道元素的分类，连要分成几类都不知道。现在我们将用SAS系统里面的stepdisc和cluster过程完成判别分析和聚类分析，最终确定元素对象的分类问题。

建立数据阵，具体数学表示为：

?X11...X1m?? （5.2.1）......... X?? ????Xn1...Xnm??式中，行向量Xi?(xi1,...,xim)表示第i个样品；

列向量Xj?(x1j,...,xnj)'’，表示第j项指标。(i=1,2,?,n;j=1,2,?m) 接下来我们将要对数据进行变化，以便于我们比较和消除纲量。在此我们用

了使用最广范的方法，ward最小方差法。其中用到了类间距离来进行比较，定义为：

Dkl?||Xk?Xl||2/(1/nk?1/nl) （5.2.2） Ward方法并类时总是使得并类导致的类内离差平方和增量最小。

系统聚类数的确定。在聚类分析中，系统聚类最终得到的一个聚类树，如何确定类的个数，这是一个十分困难但又必须解决的问题；因为分类本身就没有一定标准，人们可以从不同的角度给出不同的分类。在实际应用中常使用下面几种方法确定类的个数。由适当的阀值确定，此处阀值为Dkl。

根据样本的散点图直观的确定。当样本所含指标只有2个或3个时，可运用散点图直观观察。如果指标超过3个时，可用主成份法先综合指标。

根据统计量确定分类个数。在SAS中，提供了一些来自方差分析思想的统计量近似检验类个数如何选择更合适。

1) R2统计量:

2222/ST?SB/ST R2?1?SA （5.2.3）

2其中，SA为分类数为k个数时的总类内离差平方和，ST2为所有样品或变量

的总离差平方和。R2越大，说明类内的离差平方和在总离差平方和中比例较小，也就是分为k个类的效果越好。显然分类越多，每个类离差越小，R2越大，所以我们只能取k使得R2足够大，但k本身比较小，而且R2不再大幅度增加。

2)半偏R2统计量:在把类Ck和类Cl合并为下一水平的类Cm时，定义半偏相关：

半偏R2?Bkl/T （5.2.4）

其中Bkl?Sm?(Sk?Sl)为合并类引起的类内离差平方和的增量: ST为类CT的类内离差平方和。半偏R2用于评价单次合并效果，其值越大，说明上次合并效果越好。

3)伪F统计量:

伪F=(T-Pk)/(k-1) （5.2.5）

Pk/(n?k)伪统计量评价分为k个类的效果。伪F统计量越大，表达分为k个类越合理。通常取伪F统计量较大而类数小的聚类水平。

4) 伪t2统计量:

t2?Bkl/((Sk?Sl)/(nk?nl?2)) （5.2.6）用此统计量评价合并类Ck和类Cl的效果，该值大说明合并的两个类Ck和类

Cl是很分开的，这个合并不成功，而应该去合并前的水平。

通过使用sas软件的cluster过程和tree过程，可以求解分析出结果。

5.2.3模型的求解与分析

首先，我们利用附件2中白葡萄酒中酿酒葡萄的59个理化指标，通过聚类分析，把酿酒葡萄分成五类，得到初步的结果（见图3）：

从图中我们能够直观的看到把酿酒葡萄分为5大类，为了检验效果，我们通过判别分析检验原本的28种葡萄分类的结果，得到表8.

表8：误判概率表(具体表见附录) 组号 1 2 3 4 5 概率 0.2727 0.1250 0.3333 0.4000 1.000 在误差一栏我们看到，每一组的分类都存在或多或少的误差，我们觉得这个结果是不满意的。为了进一步优化方案以及简化分析过程，我们利用逐步判别法对参与分类的因素进行逐步剔除，以达到减少噪声干扰的目的，让得到的结果更加合理和完善。

通过逐步判别法，我们剔除了原本59个数据中的35个相关不大，造成干扰的因素，剩下了24个因素。经过剔除干扰项后，为了检验剔除后干扰项后的结果是否更加合理，我们重新对剩余的24个因素进行了聚类分析，做谱系聚类图和判别分析。得到了新的结果（见表9）：

表9：优化后的聚类分析部分结果 (详细见附录) 分类数样品数伪F统计R2 2伪t2统计量半偏R 量 6 4 0.0171 0.915 47.6 9.1 5 6 0.0500 0.865 37.0 6.1 4 11 0.0612 0.804 32.9 17.3 3 21 0.1032 0.701 29.3 17.9 2 7 0.1648 0.536 30.1 10.0 1 28 0.5362 0 . 30.1 综合个数据检验，把葡萄分为5个类别是比较合理的一种方案，为了检验与之前的差异我们得到了新的谱系聚类图（见图4）

图3：谱系聚类图图4：优化后的谱系聚类图

通过对比前后的两图，我们可以发现，分类的结果除了组间的类别有点波动

之外，整体的分组是没有改变的。所以，我们第一步得到了优化结果的可靠。但仅仅用图说明是不够的，为此我们通过判别分析法，通过具体数据来说明分析结果的可靠。

表10：优化后的判别分析表数据组号 1 2 3 4 5 概率 0 0 0.1667 0 1.000 我们不难发现，表中的错误只在第3组出现了0.1667的误差，其他组是没有存在误差的。这个结果是比较令人满意也令人信服的。由此，我们得到的结果是，我们此次对于白葡萄酒的酿酒葡萄进行的分类是合理可靠的。

具体分类结果为：

表11：白葡萄酒酿酒葡萄分类分类/组数组别 A/共组 P1,P8,P13,P16,P17,P18,P19,P22 B/共组 P14,P21,P23 C/共组 P2,P3,P4,P6,P7,P9,P11,P12 D/共组 P10,P20,P25,P26 E/共组 P3,P5,P15,P24,P27,P28 通过该组的成功检验，我们接下来将会对红葡萄酒的酿酒葡萄进行同算法的分类。由于用到的算法与检验方法一样，所以这里不再累赘，将直接输出最后分组结果。部分详细内容见附录。

表12：红葡萄酒酿酒葡萄的分类分类/组数组别 A/共组 P1,P4,P5,P8,P15,P17,P24 B/共组 P2,P7,P9,P11,P19,P20,P22,P23 C/共组 P10,P13,P14,P16,P25,P26,P27 D/共组 P6,P12,P18 E/共组 P3,P21 分类完毕，接下来我们将利用关于红酒质量的评分等级来对对应的葡萄进行评分，首先应该说明的是，烂葡萄是不能酿出好酒，根据这个，我们可以客观的说出一点，一般好的葡萄能酿出好的酒，可能酿酒过程会意外让酒变质导致酒变差，但好的酒由好的葡萄酿制出来是毫无疑问的。为此我们把对于酒的等级相当于对葡萄打分。每种葡萄分别得到分数Si，i表示第i种葡萄。通过将每组的葡萄总分除以组内总数得到的数据，对葡萄进行分类，

分类指标=?Si/组内数

通过指标的具体分数，我们就可以轻松对葡萄进行等级划分，结果见表13：

表13：对白葡萄酒和红葡萄酒的酿酒葡萄评价分类有：白葡萄酒酿酒葡萄得分等级 E 4.2 特优 B 4 优 C,D 3.75 良好 A 3.62 中红葡萄酒酿酒葡萄得分等级 B,E 3 良好 A,C 2.57 中等