多元统计分析在EXCEL中的实现
第三章 方差分析
在生产、研究等工作中经常要对在不同条件下进行观察或试验得到的数据进行分析,以判断不同条件对结果有无影响。这时,就需要进行方差分析。
第一节 方差分析的基本问题
一、方差分析研究的问题
方差分析是检验若干个具有相同方差的正态总体的均值是否相等的一种假设检验方法。例如,我们要研究不同化肥品种(甲种、乙种)与某农作物的关系,测定是否不同化肥的增产效果也不同。则通过比较不同品种组的平均数的差异来反映分组变量(如化肥)对因变量(如农作物产量)的影响和作用,这就是方差分析要解决的内容。在方差分析中,常常用到以下术语:
响应,是指观察指标的结果或试验结果为响应。如农作物的产量为响应。
因子(因素),是指在观察中或在试验中改变其状态时对响应产生影响的因素,也称为因子。如用来进行分组研究的变量化肥就是因素或因子。
水平,是指因子(因素)在观察或试验中所取的状态称为因子(因素)的水平。如化肥的种类甲种、乙种就是因素的水平。
方差分析主要有两种。如果方差分析只针对一个因素进行,称为单因素方差分析。如果同时对多个因素进行,称为多因素分析。在方差分析中,通常假定在同一条件下的试验结果是来自正态总体的一个样本;不同条件下的正态总体是相互独立的,它们的期望可能不同,但方差相同。要判断不同条件对响应有无影响就是要检验各个正态总体的均值是否相等。在实际应用时,一般应近似地符合上述要求。
二、方差分析的基本思想 从方差分析的目的看,是要检验各个正态总体的均值是否相等,而实现这个目的的手段是通过方差的比较。我们知道,观察值之间存在着差异,差异的产生来自于两个方面,一方面是由因素中的不同水平造成的,称为系统性差异;另一个方面是由于抽选样本的随机性而产生的差异。两个方面产生的差异可以用两个方差来计量,一个称为水平之间的方差,一个称为水平内部的方差。前者既包括系统性因素,也包括随机性因素。后者仅包括随机性因素。如果不同水平对结果没有影响,那么在水平之间的方差中,就仅仅有随机因素的差异,而没有系统性差异,它与水平内部方差就应该近似,两个方差的比值就会接近于1;反之,如果不同的水平对结果产生影响,在水平之间的方差中就不仅包括了随机性差异,也包括了系统性差异。这时该方差就会大于水平内方差,两个方差的比值就会显著地大于1,当这个比值大到某个程度,或者说达到某临界点,就可以作出判断,说不同水平之间存在着显著性差异。因此,方差分析就是通过不同方差的比较,作出接受原假设或拒绝原假设的判断。
另外,为了进行具体的检验,根据证明有,观察值的总离差有以下的分解关系式:
总离差=水平(组)间离差+水平(组)内离差
并且,根据水平间(也称组间)方差和水平内(也称组内)方差之比构造一个统计量,这个统计量服从F分布。
- 27 -
第三章 方差分析
F?组间方差
组内方差F分布有这样的几个特征:
(1)统计量F是大于零的正数;
(2)F分布曲线是正偏态,它的尾端以横轴为渐近线趋于无穷;
(3)F分布是一种连续的概率分布,不同的自由度组合有不同的F分布曲线。 方差分析要用F统计量来进行假设检验。
第二节 单因素方差分析
一、单因素方差分析的计算步骤
假定试验或观察中只有一个因素(因子)A,且A有m个水平,分别记为A1,A2,?Am,在每一种水平下,做n次试验,在每次试验后可得一试验值,记做xij,表示在第i个水平下的第j个试验值(i?1,2,?n;j?1,2,?m)。结果如下表3.1:
表3.1 单因素方差分析数据结构表
观察值 1 2 水平 A1 x11 x21 ? A2 x12 x22 ? ?? ?? ?? ?? Am x1m x2m ? xnm ? n xn1 xn2 为了考察因素A对试验结果是否有显著影响,我们把因素A的m个水平A1,A2,?Am看成是m个正态总体,而xij(i?1,2,?n;j?1,2,?m)看成是取自第j个总体的第i个
2样品,因此,可设xij~N(aj,?),i?1,2,?n;j?1,2,?m。
可以认为aj????j,因此检验因素A的?j是因素A的第j个水平Aj所引起的差异。各水平之间是否有显著的差异,就相当于检验:
H0:a1?a2???am??或者 H0:?1??2????m?0
具体的分析检验步骤是: (一)计算水平均值
令xj表示第j种水平的样本均值,
- 28 -
多元统计分析在EXCEL中的实现
xj??xi?1njijnj
式中,xij是第j种水平下的第i个观察值,nj表示第j种水平的观察值次数(注意,这里观察值次数可以是相等的,也可以是不相等的)。 (二)计算离差平方和
在单因素方差分析中,离差平方和有三个,它们分别是总离差平方和,组内离差平方和(或误差平方和)以及组间平方和(水平项离差平方和)。
首先,总离差平方和,用SST(Sum of Squares for Total)代表,则,
SST???(xij?x)2
其中x???xnij,它反映了离差平方和的总体情况。
其次,组内离差平方和(或误差平方和),用SSE(Sum of Squares for Error)表示,其计算公式为:
??SSE????(xij?xj)2?
j?i?其中xj的反映的是水平内部或组内观察值的离散状况。即反映了随机因素带来的影响。 最后,组间平方和(水平项离差平方和),用SSA(Sum of Squares for Factor A)
表示,SSA的计算公式为:
SSA???(xj?x)2??nj(xj?x)2
用各组均值减去总均值的离差的平方,乘以各组观察值个数,然后加总,即可得到SSA。可以看出,它所表现的是组间差异。其中既包括随机因素,也包括系统因素。
根据证明,SST,SSE,SSA之间存在着一定的联系,这种联系表现在:
SST?SSE?SSA
因为:
??(xij?x)2???[(xij?xj)?(xj?x)]2
???(xijij?xj)2???(xj?x)2?2??(xij?xj)(xj?x)
在各组同为正态分布,等方差的条件下,等式右边最后一项为零,故有,
??(x即
?x)2???(xij?xj)2???(xj?x)2
SST?SSE?SSA
(三)计算平均平方
用离差平方和除以各自自由度即可得到平均平方。对SST来说,其自由度为n?1,因
- 29 -
第三章 方差分析
为它只有一个约束条件,即
??(xij?x)?0。对SSA来说,其自由度是m?1,这里m表示水平的个数,SSA反映的是组间的差异,它也有一个约束条件,即要求:
?n(xjj?x)?0
对SSE来说,其自由度为n?m,因为对每一种水平而言,其观察值个数为nj,该水平下的自由度为nj?1,总共有m个水平,因此拥有自由度的个数为m(nj?1)?n?m。
与离差平方和一样,SST,SSA,SSE之间的自由度也存在着关系,即,
n?1?(m?1)?(n?m)
这样对SSA,其平均平方MSA为:
MSA?对于SSE,平均平方MSE为:
SSA m?1SSE n?mMSE?(四)方差分析表
由F分布知,F值的计算公式为:
F?组间方差MSA?
组内方差MSE为了将方差分析的主要过程表现的更加清楚,通常把有关计算结果列成方差分析表如下表3.2:
表3.2 方差分析表 方差来源 组间 组内 总差异 离差平方和(SS) 自由度(df) 平均平方(MS) F值 SSA SSE SST m?1 MSA MSE MSAMSE n?m n?1 (五)作出统计判断
对于给定的显著性水平?,由F分布表查出自由度为(n?1,n?m)的临界值F?,如果F?F?,则拒绝原假设,说明因素对指标起显著影响;如果F?F?,则接受原假设,说明因素的不同水平对试验结果影响不显著。
二、单因素方差分析中的其他问题
对于单因素方差分析还需要注意以下问题:
1、进行方差分析编制方差分析的数据表格时,可以把方差分析的因素放在列的位置也可以放在行的位置,但通常放在列的位置。
2、进行方差分析,各个水平下的样本容量可以相同,也可以不同。 3、方差分析可以对若干个平均值是否相等同时进行检验,这是此种方法的特点和长处。
- 30 -
多元统计分析在EXCEL中的实现
但如果检验结果拒绝原假设,接受备择假设,这仅表明进行检验的这几个均值不全相等。至于是哪一个或哪几个均值与其他均值不等,方差分析并不能给出结果。若要对此问题进一步分析,可采用多重比较方法。
三、 单因素方差分析在Excel中的实现 例1、单因素方差分析在经济中的应用 (一)问题及背景
某工厂的锻造零件由3个地区制造,该零件的重要特性是强度。若其质量差异大,对生产将有影响。因此,当不同地区制造的零件强度有较大差异时,应从中选择一个最合适的。从3个地区制造的零件中各随机抽取4个,由同一操作者在同一试验条件下,按随机的顺序进行强度试验(破坏性试验)所得的结果如下表3.3。
表3.3 零件强度数据
地区 A1 A2 A3 序号 1 2 115 116 103 107 73 89 3 98 118 85 4 83 116 97 试分析3个地区的零件强度是否有显著性差异。 (二)分析过程
根据题意,设立原假设:H0:a1?a2??3??(即三个地区的零件强度无显著差异)
第一步:录入原始数据,数据格式如下图3.1:
图3.1 原始数据
第二步:启动多元统计分析宏,选择“方差分析”
图3.2 选择项对话框
- 31 -