第二十一篇 葡萄酒质量的影响因素分析
首先,做出每个指标的所有评酒员的平均评价值。设xi和yi(i?1,2,?,27)分别表示第一、二组各个葡萄酒样品,zj,j?1,2,?,9分别表示澄清度、色调等各个评价指标,用ui和vi(i?1,2,?,27)
mm分别表示第一、二组各葡萄酒样品的评价总分,xij和yij(m?1,2,?,10)分别表示一、二组第m个
评酒员对于第i个葡萄酒样品第j个评价指标的评价值,分别求出对于各个葡萄酒样品十个评酒员对于每个指标zj的平均评价值,即:
xij?210x1ij?xij???xij109,yij?210y1ij?yij???yij109
然后再对每个葡萄酒样品的平均值进行加总得到评价总分,即:
ui??xij,vi??yij
j?1j?1接着,以Xj??x1j,x2j,?,x27j?和Yj??y1j,y2j,?,y27j?(j?1,2,?,9)分别表示求平均后第j个指标的各葡萄酒样品组成的均值样本,U和V分别表示第一、二组各葡萄酒样品的评价均值总分样本,利用Excel软件对两组评酒员每个指标的均值样本以及均值总分样本进行平均值的成对二样本分析t检验。
④作出推断结论:是否接受假设
根据最后得出的结果P,判断其是否小于假设的??0.05。若小于则拒绝原假设,即存在显著性差异,否则两组评酒员的评价结果之间无显著性差异。
⑶模型的求解
根据t检验模型代入附件1表格中的具体值,得到第一、二组对红、白葡萄酒评分结果的平均总分。
利用Excel软件对两组评酒员每个指标的均值样本以及均值总分样本进行平均值的成对二样本分析T检验后得到红、白葡萄酒各指标和总分t检验:成对双样本均值分析(见表21-1)
表21-1 红、白葡萄酒各指标和总分t检验: 成对双样本均值分析 指标 红酒:P(T<=t) 双尾 白酒:P(T<=t) 双尾 0.92151314>0.05 0.193670987>0.05 澄清度 0.00000237<0.05 0.958507182>0.05 色调 0.151803908>0.05 0.536506513>0.05 香气纯正度 0.068604607>0.05 0.948220388>0.05 香气浓度 0.009566931<0.05 0.266391392>0.05 香气质量 0.181919655>0.05 0.000022387<0.05 口感纯正度 0.051120374>0.05 0.013634502<0.05 口感浓度 0.056217961>0.05 0.001807393<0.05 口感持久性 0.099382255>0.05 0.000044641<0.05 口感质量 0.002111269<0.05 平衡/整体评价 0.687487321>0.05 0.007157873<0.05 0.015073425<0.05 总分 由得出的结果分析红、白葡萄酒的总评价值均小于0.05,拒绝原假设,即两组评酒员的评价结果有显著性差异。 模型Ⅱ 方差分析模型 ⑴模型的准备 ①建模思路:
首先,针对红葡萄酒和白葡萄酒分别求出两组每个评酒员对每个葡萄酒样品的总评分值,以每个样品的所有评酒员的综合评分值为样本,求出每个样本的样本方差。然后,算出最后的平均样本
311
全国大学生数学建模竞赛优秀论文评析
方差。对于同一种葡萄酒,一般评酒员们最后品尝出的评价结果应该相差不是很大,即同一样品的葡萄酒不同评酒员的评价结果方差较小的一组评分结果较为可信。
②问题分析:
由于要分析两组是否有显著性差异,所以先要验证每组数据是否满足正态性分布。为了计算方便,现将每个评酒员所品的每一种酒总分作为研究对象,所以对于红酒有27?10?270个研究对象;对于白酒有28?10?280个研究对象。将每一组的研究对象看作一个矩阵,利用matlab来进行正态性检验。
判断正态性是否存在:
①通过频数分布直方图和正态概率图(normal probability plot)能够直观的反映出原数据是否满足正态分布,见图21-1和图21-2;
②若布尔变量h=0,表示不拒绝零假设,说明提出的假设是合理的; ③若95%的置信区间完全包括均值,则说明满足正态性; ④若sig>0.5,则不能拒绝零假设。 综上即可判断正态性存在。
对红葡萄进行正态性检验,在Matlab中得到正态性判断结果:
Normal Probability Plot0.9990.9970.99 0.98 0.95 0.90 0.75 10090807060504030201000102030405060708090100Probability0.50 0.25 0.10 0.05 0.02 0.01 0.0030.0011020304050Data60708090图21-1 正态概率图 图21-2 频数分布直方图
检验结果:①由频数分布直方图和正态概率图可以明显看出满足正态性分布;②布尔变量h=0,表示不拒绝零假设,说明提出的假设“均值70.6093”是合理的;③95%的置信区间为[68.6886,72.5301],它完全包括70.6093,且精度很高;④sig的值为1,远超过0.5,不能拒绝零假设。综上所述红葡萄理化指标数据存在正态性。
同样方法计算出红葡萄酒和白葡萄、白葡萄酒理化指标数据也都存在正态性。 ③定义2 可信度:指品酒员对葡萄酒质量的评分结果的准确度。 ⑵模型的建立
问题要求对两组评酒员的评价结果判断哪一组可信度更高,以红葡萄酒为例(白葡萄酒处理方法与其完全相同),将各评价指标的评价结果进行综合汇总得出评价的总得分,采用单因素方差分析对组间和组内的均方差进行比较,进而得出哪一组更为可信。
①对评价结果进行综合汇总
分别对一、二组第m个评酒员对于第i个葡萄酒样品所有评价指标的评价值汇总,即总得分为:
9Xi?mm?xj?19j?1mij,i?1,2,?,27;j?1,2,?,9;m?1,2,?,10; ,i?1,2,?,27;j?1,2,?,9;m?1,2,?,10
Yi??ymij②进行单因素方差分析,利用方差比较结果
利用Excel软件中数据分析工具中的“方差分析:单因素方差分析”进行数据处理,然后将各
312
第二十一篇 葡萄酒质量的影响因素分析
组的每个葡萄酒样本总方差求平均,即:(i?1,2,?,27)
i第一组:sx?每个葡萄酒样本总方差每个葡萄酒样本总方差;第二组:siy?
评酒员人数评酒员人数最后对每组求得的平均方差求和(注:其中红葡萄酒中第20个葡萄酒样品第四个评酒员的评价结果缺省,在计算其方差平均值时应减少一个评酒员人数),即:
Sx?2727?i?1isx,Sy??si?1iy
比较Sx和Sy的大小,较小的一组可信度更高。 ⑶模型的求解
根据方差分析模型,结合附件1表格中的具体值,得到综合汇总后的第一、二组每个评酒员对各红、白葡萄酒样品的评价总得分情况。
利用Excel软件中数据分析工具中的“方差分析:单因素方差分析”进行处理后,得到第一组红葡萄酒单因素方差分析(见表21-2、21-3),第二组红葡萄酒单因素方差分析(见表21-4、21-5)。
组 观测数 求和 平均 1 2 3 4 5 6 7 8 9 10 11 12 13 14 10 10 10 10 10 10 10 10 10 10 10 10 10 10 627 803 804 686 733 722 715 723 815 742 701 539 746 730 62.7 80.3 80.4 68.6 73.3 72.2 71.5 72.3 81.5 74.2 70.1 53.9 74.6 73 方差 92.9 39.78889 45.82222 108.0444 62.01111 59.73333 103.6111 44.01111 32.94444 30.4 70.76667 79.65556 44.93333 36 表21-2 第一组红葡萄酒单因素方差分析 方差平均值 组 观测数 求和 平均 19.29 10 587 58.7 5 13.978889 10 749 74.9 6 14.582222 10 793 79.3 7 110.80444 10 599 59.9 8 16.201111 10 786 78.6 9 279.77775.973333 9 718 0 8 210.36111 10 771 77.1 1 24.401111 10 772 77.2 2 23.294444 10 856 85.6 3 23.04 10 780 78 4 27.076667 10 692 69.2 5 27.965556 10 738 73.8 6 24.493333 10 730 73 7 3.6 方差和 方差 85.56667 18.1 88.01111 47.21111 47.37778 13.69444 116.1 50.62222 32.48889 74.88889 64.62222 31.28889 49.77778 1570.372 方差平均值 8.556667 1.81 8.801111 4.721111 4.737778 1.521605 11.61 5.062222 3.248889 7.488889 6.462222 3.128889 4.977778 157.1894 表21-3 第一组红葡萄酒方差分析 差异源 组间 组内 总计 SS 14116.86 14119.66 28236.51 df 26 242 268 MS 542.9561 58.34568 F 9.305848 P-value 3.95E-24 F crit 1.541507 方差 41.3444方差平均值 4.134444 313
组 观测数 求和 平均 1 10 681 68.1
表21-4 第二组红葡萄酒单因素方差分析 方差 方差平均值 组 观测数 求和 平均 81.87778.187778 110 657 65.7 全国大学生数学建模竞赛优秀论文评析
2 3 4 5 6 7 8 9 10 11 12 13 14 10 10 10 10 10 10 10 10 10 10 10 10 10 740 746 712 721 663 653 660 782 688 535 683 688 726 74 74.6 71.2 72.1 66.3 65.3 66 78.2 68.8 53.5 68.3 68.8 72.6 8 16.22222 30.71111 41.28889 13.65556 21.12222 62.67778 65.11111 25.73333 36.17778 33.38889 25.12222 15.28889 23.15556 1.622222 3.071111 4.128889 1.365556 2.112222 6.267778 6.511111 2.573333 3.617778 3.338889 2.512222 1.528889 2.315556 5 16 17 18 19 20 21 22 23 24 25 26 27 4 10 10 10 10 10 10 10 10 10 10 10 10 699 745 654 726 758 722 716 771 715 682 720 715 69.9 74.5 65.4 72.6 75.8 72.2 71.6 77.1 71.5 68.2 72 71.5 方差和 20.1 9.166667 50.26667 55.15556 39.06667 35.51111 24.26667 24.76667 10.72222 43.73333 41.55556 20.5 907.6889 2.01 0.916667 5.026667 5.515556 3.906667 3.551111 2.426667 2.476667 1.072222 4.373333 4.155556 2.05 90.76889 表21-5 第二组红葡萄酒方差分析 差异源 组间 组内 总计 SS 6190.341 8169.2 14359.54 df 26 243 269 MS 238.09 33.61811 F 7.082196 P-value 3.28E-18 F crit 1.541318 分析比较后发现红葡萄酒的第一组的平均方差和大于第二组的平均方差和,即:
Sx?157.1894 ?Sy?90.76889
所以对于红葡萄酒而言,第二组评价结果可信度更高。
同样再对第一、二组白葡萄酒进行单因素方差分析,分析比较后发现第一组的平均方差和大于第二组的平均方差和,即:
Sx?361.73 ?Sy?156.8544
所以对于白葡萄酒而言,第二组评价结果可信度更高。
综上所述,不论是红葡萄酒还是白葡萄酒,第二组评酒员的可信度都要明显高于第一组。所以,第二组评酒员的评价结果可信度更高。 21.5.2 问题二的分析与求解
1.对问题的分析
问题要求根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒的葡萄进行分级。由问题一得到结论:第二组评酒员的评价结果更可信,故选用第二组的评价指标进行问题的求解。首先,采用相关性分析法分析葡萄酒序号与酿酒的葡萄序号之间是否有一一对应的关系。经过检验,它们之间是一一对应的,即:1号白葡萄酒就对应着1号葡萄,2号白葡萄酒就对应着2号葡萄等等。然后,对各种葡萄酒样品的每个评价指标的所有评酒员的评价结果求平均,再对平均值求和分别得到红、白葡萄酒的评价总分,进而运用模糊C均值聚类分析法进行评价分级。由于每一种葡萄酒都对应不同的
314
第二十一篇 葡萄酒质量的影响因素分析
葡萄原料,故葡萄酒的分级可以进一步反推出葡萄的分级。将每个级别的葡萄的各个理化性质对应列出,得到红、白葡萄的量化分级标准。最终,为方便公司对提供的大量葡萄进行快速分级,分别为红、白葡萄建立了一个葡萄快速分类法。
2.对问题的求解 模型Ⅲ 相关性分析模型 ⑴建模思路
由于葡萄酒的评价指标有多个,故先利用变异系数法对葡萄和葡萄酒的理化指标计算权重。然后,利用加权求和法分别计算出葡萄和葡萄酒的理化指标总体评价值。最后,利用相关分析法,分别定量评估出红、白葡萄酒质量和酿酒葡萄理化指标之间的相关性。
⑵模型的建立
①变异系数法计算权重
n1先分别计算出第i项指标的平均值:xi?n然后计算出第i项指标的方差:si2?aj?1nj?1ij
1??n?1?(aij?xi)2
再计算出第i项指标的变异系数:vi?最后对vi进行归一化:wi?visi xi?vii?1m
就得到了第i项指标的权数。 ②加权求和计算理化指标总体评价值
在附件2中,带入求出的第i项指标的权重,分别求出红、白葡萄和葡萄酒的理化指标总体评价值。
③葡萄酒和酿酒葡萄间的相关性分析
n??x?x??y?y???n?1?r?j?1
??n?1???x?x?j?1n2??n?1???y?y?j?1n2最终得到红、白葡萄酒和酿酒葡萄之间的相关性分别为:0.58和0.62,都大于0.5。因此,葡萄酒序号与酿酒的葡萄序号之间有一一对应的关系,即:1号白葡萄酒就对应着1号葡萄,2号白葡萄酒就对应着2号葡萄,依此类推。
模型Ⅳ 葡萄理化指标分级模型 ⑴建模思路
由于葡萄酒的评价指标有多个,故先对各个葡萄酒样品的每个评价指标的评价结果求平均,然后对每个样品的平均值求和得到总分,然后采用模糊C均值聚类法分别对红、白葡萄酒进行分类,由葡萄酒的分类推得相应的酿酒葡萄的分类。最后,联系红、白葡萄的理化指标,建立葡萄理化指标分级标准。
⑵模型的建立
315