方差分析与应用
摘要
方差分析是通过观察数值变量,从方差入手,利用数据分析不同因素、不同水平对实验指标影响的大小,将总的离差平方和分解成不同的成分,并利用显著性检验法进行分析判断和做出统计决策。本文通过方差分析的基本原理与步骤,构造相应的统计量,通过用SPPS软件分析具体实例中的数据,分析分类变量对因变量的影响,作出最终的统计决策。
关键词:单因素方差分析;无交互作用的方差分析;有交互作用的方差分析;F统计量;SPSS
Variance Analysis And Application Abstract
Variance analysis is done by observing numerical variables from
variance,it uses data to analyze the effects of different factors and levels on the experimental indicators. It breaks the sum of squares of total deviations into different components, and uses the significance test to analyze, judges and makes statistical decisions. In this paper, the corresponding statistics are constructed by the basic principle and procedure of variance analysis, by using SPPS software to analyze the data of specific instances, the influence of categorical variables on
dependent variables was analyzed. Making final statistical decisions. Key words:Single factor analysis of variance;No interaction analysis of variance;Analysis of variance with interaction;F statistic;SPSS 目录 摘要 I Abstract II 第1章绪论1
1.1方差分析的背景和意义1 1.2论文的研究思路1 1.3论文的研究内容1
第2章方差分析的基本思想2 2.1方差分析的概念2 2.2相关术语2 2.3误差分析2
2.4方差分析的基本假定3 2.5问题的一般提法3 第3章单因素方差分析4 3.1数据结构4 3.2分析步骤4 3.2.1提出假设4 3.2.2构造检验统计量5 3.2.3统计决策6
3.3用SPSS进行单因素方差分析6 第4章双因素方差分析9 4.1双因素方差分析及其分类9 4.2无交互作用的方差分析9 4.2.1数据结构9 4.2.2分析步骤9
4.2.3用SPSS进行无交互作用的方差分析11 4.3有交互作用的方差分析13 4.3.1数据结构13 4.3.2分析步骤14
4.3.3用SPSS进行有交互作用的方差分析15 第5章结论19
致谢21
第1章 绪 论
1.1方差分析的背景和意义
方差分析法是在20世纪20年代由英国生物统计学家、数学家费舍尔提出的,开始在农业、生物学、遗传学方面,取得了丰硕的成果。后来,这种方法逐步诸多领域,在工业、农业、经济、生物、医学、等领域的很多实际问题都可以用方差分析来解决,方差分析模型作为一种很重要的线性模型,具有巨大的研究意义。随着经济科学的迅速发展,方差分析一定能在各行各业扮演角色,解决实际问题。 1.2论文的研究思路
方差分析的研究思路一般是,将总的离差平方和分成若干部分,并求出各部分的误差平方和,再用各部分的误差平方和与随机误差平方和(组内误差)进行比较,得出统计量F值,最后得出P值,作出统计推断。 1.3论文的研究内容
本文主要研究了单因素方差分析和双因素方差分析,在双因素方差分析中又考虑了有无交互作用,分别对无交互作用的方差分析和有交互作用的方差分析做了具体的研究。利用统计软件SPSS对具体实例所提供的数据进行方差分析,并得出相应的结论。
第2章 方差分析的基本思想 2.1方差分析的概念
方差分析(ANOVA)又称变异数分析或者F检验,其功能就是推断两组或者多组资料的总体均数是否相同,检验两个或者多个样本均数的差异是否有统计学意义。从表面上看,方差分析是检验多个总体均值是否相等,主要是通过分析数据的误差判断。但实际上,它是研究分类型自变量对数值型因变量的影响。 单因素方差分析:涉及一个分类自变量。 双因素方差分析:涉及两个分类自变量。
例题1人造纤维的抗拉强度是否受搀入其中的棉花的百分比的影响是有疑问的。现确定棉花百分比的5个水平:15%,20%,25%,30%,35%。每个水平测五个抗拉强度的值,如下表1。问:抗拉强度是否受搀入棉花百分比的影响。 表2-1
棉花的百分比i/%抗拉强度观察值j 12345 Xi.
15771511949 20121712181877 25141818191988 301925221923108 3571011151154
分析五个不同棉花百分比之间的抗拉强度是否有显著性差异,也就是判断棉花百分比对抗拉强度是否有显著性影响。
作出这种判断最终归结为检验这五种棉花百分比下抗拉强度的均值是否相等。若它们的均值相等,则意味棉花百分比对抗拉强度是没有影响的;若均值不全相等,则意味着棉花百分比对抗拉强度是有影响的。 2.2相关术语
因素或因子:所要检验的对象。如例1-1中的棉花的百分比 水平:因素的不同表现。如例1-1中不同的棉花百分比,如15%
观察值:在每个样本水平下得到的实验观测值。如在棉花百分比为15%下,第2个测量值\就是观测值。 总体: 2.3误差分析
在进行方差时,我们虽然感兴趣的是均值,但在判断差异性时我们要借助方差,也就是说它是通过对数据误差来源的分析判断不同总体的均值是否相等。所以要分析数据误差的来源。
随机误差:因素的同一水平下,样本各观测值之间的误差,由于抽取的随机性,这种差异可以看成是随机因素的影响,称为随机误差。
系统误差:因素的不同水平下,各观测值之间的误差,这种差异可能是抽样的随机性引起的,也可能是系统本身形成的,称为系统误差。
回到例题1-1,如果棉花百分比对抗拉强度没有影响,那么组间误差中只包含随机误差,没有系统误差。这时,组间误差与组内误差经过平均后的数值应该很接近,它们的比值接近1。如果棉花百分比含量对抗拉强度有影响,组间误差平均后的数值就会大于组内误差平均后的数值,它们的比值就会大于1。 2.4方差分析的基本假定
(1)每个总体都应该服从正态分布,对于因素的每一个水平,其观测值都是来自服从正态分布总体的简单随机抽样。