2012高教社杯全国大学生数学建模竞赛
承 诺 书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。
我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。
我们参赛选择的题号是(从A/B/C/D中选择一项填写): 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 参赛队员 (打印并签名) :1. 2. 3. 指导教师或指导教师组负责人 (打印并签名):
日期: 年 月 日 赛区评阅编号(由赛区组委会评阅前进行编号):
2012高教社杯全国大学生数学建模竞赛
编 号 专 用 页
评 阅 人 评 分 备 注 赛区评阅编号(由赛区组委会评阅前进行编号):
赛区评阅记录(可供赛区评阅时使用):
全国统一编号(由赛区组委会送交全国前编号):
全国评阅编号(由全国组委会评阅前进行编号)
葡萄酒评价模型研究
摘 要
本文运用统计学方法利用题中所给样本数据对葡萄酒质量与酿酒葡萄和葡
萄酒理化关系进行详细分析,建立模型解决葡萄酒质量评价的问题,确定酿酒葡萄的好坏与所酿葡萄酒有直接的关系,判定葡萄酒和酿酒葡萄的理化指标会在一定程度上反映葡萄酒的质量. 问题一,利用附件一中的两组评酒员的打分数据借助于Excel和SPSS软件采用配对样本的均值检验方法,分别对红,白葡萄酒的评酒员评分进行假设检验,得出红葡萄酒:n=27t==白萄酒n=28t== ,因此两组评酒员的评分存在显著性差异。其变异系数cv2明显小于cv1,故第二组评酒员的评分更可靠。
问题二,通过主成分分析法将酿酒葡萄的一级理化指标由m级缩减为n级,利用缩减后的主成分和问题一中得到的评分进行聚类分析,将酿酒葡萄分为j类,然后根据每一类酿酒葡萄的对应于第二组评分的平均值进行比较,划分出酿酒葡萄的等级都为四个等级。
问题三,运用双变量分析法,分别将红,白酿酒葡萄的等级和葡萄酒的理化指标进行双变量分析,求出酿酒葡萄等级与葡萄酒每一个理化指标的sig值来判断酿酒葡萄等级与葡萄酒的显著相关性。得出如下结论:
1,红葡萄酒理化指标中花色苷、总酚、酒总黄酮、DPPH半抑制体积、L*(D与红酿酒葡萄有显著性相关。
2,白葡萄酒理化指标中L*、b*与白酿酒葡萄有显著性相关。
问题四,利用逐步线性回归法和进步线性回归法,将葡萄酒的每一个指标和对应的酿酒葡萄等级作为自变量,将第二组评酒员对葡萄酒的评分作为因变量,进行线性回归运算。判断因变量与自变量的显著相关性,来判别哪几个自变量对因变量有影响,即判断葡萄酒质量受哪些因素影响。 其中红葡萄酒:回归平方和= 残差平方和= 总计平方和= F值为 sig值小于,所以线性回归方程Z=+++有效。
白葡萄酒:回归平方和= 残差平方和= 总计平方和= F值= sig值小于0、05,所以线性回归方程Z=有效。
红酿酒葡萄和白酿酒葡萄的显著性相关的解释率分别为%和%。 结论:分析出无论是白葡萄酒还是红葡萄酒,葡萄酒的质量都与酿酒葡萄的指标等级有显著性相关,并且红葡萄酒除了用红酿酒葡萄指标等级来评价,其次也可以用红葡萄酒的理化指标来评价红葡萄酒的质量。
关键词
主成分分析 聚类分析 多元线性回归 质量评价 理化指标 显著性相关
一, 问题的提出
葡萄酒作为体现时尚品味的元素,同雪茄,咖啡,名茶一样备受追捧.确定葡
萄酒质量是由一批有资质的评酒师进行品评,每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到总分,从而确定葡萄酒的质量. 酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量.附件一中给出了某一年份一些葡萄酒样本的评价结果,附件二和三分别给出了该年份这些葡萄酒和酿酒葡萄的理化指标与成分数据.尝试建立数学模型讨论如下问题:
1分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信? 2根据酿酒葡萄的理化指标和葡萄酒的质量对酿酒葡萄进行分级. 3分析酿酒葡萄和葡萄酒理化指标之间的联系
4分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
二,问题的分析
2—1第一个问题属于显著性差异分析的数学问题,要解决这个问题,我么用配对样品T检验分析,因为t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。通过计算出变异性系数(cv)判断这两组那组更合理。附件1 分别给出了两组的10位品酒员对27个酒样的各项进行打分,我们先每个品酒员对每个指标打分求和再求每组是个品酒员打分求平均值。为了检测两组是否有显著性差异我们建立了配对样品T检验的数学模型 2-2.第二个题目中通过对酿酒葡萄的分级我们能选择不同等级的葡萄去酿葡萄酒,这样保证我们酿出的酒的品质大致相同。这属于数据分类方面的数学问题,我们采用主成分分析法和聚类分析法解决这个问题。
2-3我们认为基于实际作用,问题三应该是酿酒葡萄的等级与葡萄酒理化指标的关系。所以我们认为这是一个双变量相关性问题。一个变量为第二题的数据结果分析出来的等级,另一个变量为葡萄酒的一级指标。
2-4我们将第四个问题理解为:酿酒葡萄等级和葡萄酒的理化指标对葡萄酒质量的影响。我们利用线性回归处理该问题。
三,模型的假设
1假设所有样本发酵条件相同
2假设所有品酒师的味觉分析能力正常
四,模型的建立与求解
4-1问题一属于显著性差异分析的数学问题,要解决这个问题,我们用配对样品T检验分析。
因为t检验是用t分布理论来推论差异发生的概率,从而利用配对T检验比较两个平均数的差异是否显著。通过计算出每组评分的变异性系数(cv)判断这两组中哪组更合理。
显著性差异是一种有量度的或然性评价,比如我们说A、B两数据在水平上具备显著性差异,这是说两组数据具备显著性差异的可能性为95%。两个数据所代表的样本还有5%的可能性是没有差异的。这5%的差异是由于随机误差造成的。
通常情况下,实验结果达到水平或水平,才可以说数据之间具备了差异显著或是极显著。在作结论时,应确实描述方向性(例如显著大于或显著小于)。sig值通常用 P> 表示差异性不显著;
建立模型:附件1 分别给出了两组的10位品酒员对27个红酒样的各项的评分,这里规定附件1中第M位品酒员对第N个酒品中的第K个指标分数为X(M N K),以此,先将每个品酒员对酒样品的各个指标打分求和,比如第一位品酒员对酒样品2的每个指标求和的计算公式为Y (1 2)=X(1 2 1)+X(1 2 2)+………+X(1 2 10),其中Y(1 2)表示第一位品酒员对酒样品2的总评分,再求每组中每一个酒品关于该组所有品酒员评分的平均值,所得结果即为该组品酒员对某一样品的综合评分,如某组对酒样品2的综合评分即为Z(2)=(Y(1 2)+Y(2 2)+Y(3 2)+…….Y(10 2))/10。
利用用EXCEL将数据整理好(详图见目录),然后用spss软件分别将两组对红葡萄酒样品和白葡萄酒样品的综合评分进行处理,具体步骤为:分析——比较均值——配对样本T检验。
T检验的数学公式如下:
t?d,df?n?1 Sd2SSd?d?n??d?d?n(n?1)??d2?(?d)2n(n?1)
其中dj?x1j?x2j,(j?1,2,?,n),d??djn
注:
式中:Sd为d的标准差;n为配对的对子数,即试验的重复数,
d为两样本各对数据之差, S
d? 为差异标准误。