由于题目中给出的酿酒葡萄与葡萄酒的指标数过多,所以我们可以先用主成分分析法进行降维,所筛选出的主成分能反应出原始变量的大部分信息。然后在求解相关性的过程中我们采用典型相关系数法,计算协方差矩阵,然后计算特征方程求取特征值,最后对两组变量进行典型相关分析,求解得到典型相关变量以及典型变量系数和典型相关系数,最后进行分析。 4.4问题四分析
分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。我们结合问题二中给出的主成分分析结果和问题一中给出的葡萄酒质量,用SPSS做出多元线性回归分析,得出方程后,进行回归标准化残差的标准检验,观察拟合程度,判断变量与评分之间的关系。
接着我们对附件3给出的葡萄酒芳香物质进行聚类分析,加入上面给出的主成分,统一作为解释变量,将问题1中给出的葡萄酒样品质量的评分作为被解释变量,用SPSS进行多元线性回归分析,得出方程后,进行回归标准化残差的标准检验,观察哪个图拟合的更好,由此判断能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
五、模型建立与求解
5.1问题一
5.1.1问题一数据的预处理
首先根据附件1给出的Excel表格数据,求出品酒员i对酒样品j分类指标包括:外观分析、香气分析、口感分析、平衡/整体评价打分后的总分gij。然后针对酒样品j综
110合10个品酒员的分数求和算平均得出它的分数Gj,其中Gj??gij。由此就可以得
10i?1出第一、二两组对白葡萄酒和红葡萄酒各个样品的综合评价分数。
附件1错误数据的处理:
为了排除在登记表格数据时,工作人员的笔误或者测量偏差过大等情况,我们对附件1 的问题数据进行如下处理:
在第一组白葡萄酒的品尝得分里,有一位评审员的持久性打分为77,超过了满分8分,故我们用该组其他人评分的平均值近似为6代替77。
4
5.1.2问题一分析
本题是对两批完全相同的葡萄酒样本,交由两组不同的品酒员评鉴后得出两组不同的评鉴结果。假设红葡萄酒和白葡萄酒样本来自的总体服从正态分布。先将白葡萄酒和红葡萄酒的分别分为两个完全相同的整体,再在其中抽取四组样本,计算统计值,即样本方差、均值等。然后再根据配对样本t检验计算是否拒绝原假设。
而在判断哪一组结果更可信的时候我们采用了两种方法:第一种,我们先求取每个酒品员对每个酒样品的综合评价,求每个酒样品的方差,最后将该组所有酒样品的方差相加得最终结果,该种方法判定的是所有酒品员对酒样品评价的稳定度,我们暂且认为稳定度高,即所求方差小的更可靠。第二种,利用克朗巴哈系数计算公式
K????2YiK???1?i?12K?1??X?????,其中K为样本数即葡萄酒的样品总数,?2Yi为总样本的方差,?2Yi???为第i个样本的方差。通常Cronbach α系数的值在0和1之间,然后我们对两组人员的克朗巴哈系数进行比较,克朗巴哈系越大则其可信度越高。
5.1.3配对样本t检验模型的建立 1、配对两组本值服从正态分布的验证:
在SPSS中检测两组评价结果是否服从正态分布:求出峰度系数(Sk)和偏度系数(Ku),根据上述数值,可以判断出数据是否服从正态分布。当Sk=0,Ku=0时,分布呈正态,
Sk>0时,分布呈正偏态,Sk<0时,分布呈负偏态。当Ku>0时曲线比较陡峭,Ku<0时曲线比较平坦。
判断第一组评价结果是否服从正态分布:
描述
Zscore(第一组的评分) 均值
均值的 95% 置信区间
下限 上限
5% 修整均值 中值 方差 标准差 极小值
5
统计量 .0000000 -.3955868 .3955868 .0486477 .1013867 1.000 1.00000000 -2.60882 标准误 .19245009
极大值 范围 四分位距 偏度 峰度
1.70844 4.31726 1.15762 -.980 .944
.448 .872
由此可判断第一组评价结果的分布为负偏态,曲线较陡峭。
判断第二组评价结果是否服从正态分布:
描述
Zscore(第二组的评分) 均值
均值的 95% 置信区间
下限 上限
5% 修整均值 中值 方差 标准差 极小值 极大值 范围 四分位距 偏度 峰度
统计量 .0000000 -.3955868 .3955868 .0077587 .2476592 1.000 1.00000000 -2.24104 1.93193 4.17296 1.13123 -.142 -.283 标准误 .19245009
.448 .872
由此可判断第一组评价结果的分布为负偏态(朝左偏),曲线较平坦。
由于根据配对样本t检验和独立样本t检验的区别可以得知,独立样本t检验需要讨论两个样本的方差相等与不相等的两种情况,而配对样本t检验不需要考虑方差是否相等的情况,通常情况下,方差是不相等的。
?以红葡萄酒为例,将其分为两个完全相同的总体X1、X2。总体
X1服从正态分N布(?1,?1),总体X2服从正态分布N(?2,?2),分别从两个总体中抽取样本,第一组品酒员得到的27个评分记为:(x11,x12,?x1k)(k?27);第二组品酒员得到的27个评分记为(x21,x22?x2k)(k?27)并且两个样本相互配对。要求检验
22 6
?1和?2是否有显著差异。
第一步:引进一个新的随机变量Y?X1?X2,对应的样本值为:(y1,y2,?y27),其中yk?x1k?x2k(k?1,2,?27),这样,检验的问题就转化为单样本t检验问题。即转化为Y的均值是否与0有显著差异。
第二步:建立零假设:H0:?Y?0 第三步:构造t统计量:t?ySy/n?1~t(n?1)
第四步:SPSS自动计算t值和对应的P值
第五步:做出推断,若P值?显著水平?,则拒绝零假设,即认为两组品酒员的评价间存在显著性差异;
若P值?显著水平?,则不能拒绝零假设,即认为两组品酒员的评价间不存在显著性差异。
?方法一:假设在第一组红葡萄酒品尝评分中第i个酒样品第j个酒品员的综合评分为gij
然后求出第i个酒样品的平均综合得分为gi,则第i个酒样品的方差为
_?2Yi??(gij?gj),最后求出所用酒样品的总方差为??(gij?gj),同理,可以
i?1102K102j?1i?1求出第一组白葡萄酒,第二组红葡萄酒,第二组白葡萄酒的总方差,然后进行比较。
方法二:在求出第i个酒样品第j个酒品员的综合评分为gij之后,将第i个酒样品所用酒品员的综合评价相加得?gij,设所有酒样品的总评价的平均值为然后求该组所
i?1K?2??Yi?K1010K?21?i?12??(?gij??gij),将求出的值代入??K?1??Xi?1j?1j?1??10_有酒样品的方差得?2X???中,???比较各组?的大小。
5.1.4配对样本t检验模型的求解
7
?第一组品酒员得到的27个评分记为: 62.7 80.3 70.1 53.9
77.2 85.6
80.4 74.6
68.6 73.3 73 58.7
73.8
72.2
71.5
72.3
81.5
74.2
77.1
74.9 73
79.3 59.9 78.6 78.6
78 69.2
②第二组品酒员得到的27个评分记为:
68.1 74.0 74.6 71.2 72.1 66.3 65.3 66.0 78.2 68.8 61.6 68.3 68.8 72.6 65.7 69.9 74.5 65.4 72.6 75.8 72.2 71.6 77.1 71.5 68.2 72.0 71.5
由题目可知两个样本相互配对,要求检验?1和?2是否有显著差异。 首先引进一个新的随机变量Y?X1?X2,对应的样本值为:
-54 63 58 -26 12 59 62 63 33 54 85 -144 58 4 -70 50 48 -55 60 28 49 56 85 65 10 18 15
建立零假设:H0:?Y?0
构造t统计量:SPSS自动计算t值和对应的P值如下表1.1所示: 表1.1:成对样本统计量
成对样本统计量
均 均值 对 1 1 红2 红73.0556 70.5148 27 N 27 标准差 7.34262 3.97799 值的标准误 1.41309 .76556 由表1.1可以看出,第一组对红葡萄酒的平均评分为73.0556分,标准差为7.34262,标准误差为1.41309。而第二组对红葡萄酒的平均评分为70.5148分,标准差为3.97799,标准误差为0.76556. 表1.2:成对样本相关系数
成对样本相关系数
8