第六章 方差分析
第五章所介绍的t检验法适用于样本平均数与总体平均数及两样本平均数间的差异显著性检验,但在生产和科学研究中经常会遇到比较多个处理优劣的问题,即需进行多个平均数间的差异显著性检验。这时,若仍采用t检验法就不适宜了。这是因为:
21、检验过程烦琐 例如,一试验包含5个处理,采用t检验法要进行C5=10次两两
平均数的差异显著性检验;若有k个处理,则要作k(k-1)/2次类似的检验。
2、无统一的试验误差,误差估计的精确性和检验的灵敏性低 对同一试验的
多个处理进行比较时,应该有一个统一的试验误差的估计值。若用t检验法作两两比较,由于每次比较需计算一个Sx1?x2,故使得各次比较误差的估计不统一,同时没有充分利用资料所提供的信息而使误差估计的精确性降低,从而降低检验的灵敏性。例如,试验有5个处理,每个处理重复6次,共有30个观测值。进行t检验时,每次只能利用两个处理共12个观测值估计试验误差,误差自由度为2(6-1)=10;若利用整个试验的30个观测值估计试验误差,显然估计的精确性高,且误差自由度为5(6-1)=25。可见,在用t检法进行检验时,由于估计误差的精确性低,误差自由度小,使检验的灵敏性降低,容易掩盖差异的显著性。
3、推断的可靠性低,检验的I型错误率大 即使利用资料所提供的全部信息估
计了试验误差,若用t检验法进行多个处理平均数间的差异显著性检验,由于没有考虑相互比较的两个平均数的秩次问题,因而会增大犯I型错误的概率,降低推断的可靠性。
由于上述原因,多个平均数的差异显著性检验不宜用t检验,须采用方差分析法。 方差分析(analysis of variance)是由英国统计学家R.A.Fisher于1923年提出的。这种方法是将k个处理的观测值作为一个整体看待,把观测值总变异的平方和及自由度分解为相应于不同变异来源的平方和及自由度,进而获得不同变异来源总体方差估计值;通过计算这些总体方差的估计值的适当比值,就能检验各样本所属总体平均数是否相等。方差分析实质上是关于观测值变异原因的数量分析,它在科学研究中应用十分广泛。
本章在讨论方差分析基本原理的基础上,重点介绍单因素试验资料及两因素试验资料的方差分析法。在此之前,先介绍几个常用术语。
1、试验指标(experimental index) 为衡量试验结果的好坏或处理效应的高低,在
试验中具体测定的性状或观测的项目称为试验指标。由于试验目的不同,选择的试验指标也不相同。在畜禽、水产试验中常用的试验指标有:日增重、产仔数、产奶量、产蛋率、瘦肉率、某些生理生化和体型指标(如血糖含量、体高、体重)等。
2、试验因素(experimental factor) 试验中所研究的影响试验指标的因素叫试验因
素。如研究如何提高猪的日增重时,饲料的配方、猪的品种、饲养方式、环境温湿度等都对日增重有影响,均可作为试验因素来考虑。当试验中考察的因素只有一个时,称为单因素试验;若同时研究两个或两个以上的因素对试验指标的影响时,则称为两因素或多因素试验。试验因素常用大写字母A、B、C、…等表示。
3、因素水平(level of factor) 试验因素所处的某种特定状态或数量等级称为因素水
平,简称水平。如比较3个品种奶牛产奶量的高低,这3个品种就是奶牛品种这个试验因素
的3个水平;研究某种饲料中4种不同能量水平对肥育猪瘦肉率的影响,这4种特定的能量水平就是饲料能量这一试验因素的4个水平。因素水平用代表该因素的字母加添足标1,2,…,来表示。如A1、A2、…,B1、B2、…,等。
4、试验处理(treatment) 事先设计好的实施在试验单位上的具体项目叫试验处理,简
称处理。在单因素试验中,实施在试验单位上的具体项目就是试验因素的某一水平。例如进行饲料的比较试验时,实施在试验单位(某种畜禽)上的具体项目就是喂饲某一种饲料。所以进行单因素试验时,试验因素的一个水平就是一个处理。在多因素试验中,实施在试验单位上的具体项目是各因素的某一水平组合。例如进行3种饲料和3个品种对猪日增重影响的两因素试验,整个试验共有3×3=9个水平组合,实施在试验单位(试验猪)上的具体项目就是某品种与某种饲料的结合。所以,在多因素试验时,试验因素的一个水平组合就是一个处理。
5、试验单位(experimental unit) 在试验中能接受不同试验处理的独立的试验载体叫
试验单位。在畜禽、水产试验中,一只家禽、一头家畜、一只小白鼠、一尾鱼,即一个动物;或几只家禽、几头家畜、几只小白鼠、几尾鱼,即一组动物都可作为试验单位。试验单位往往也是观测数据的单位。
6、重复(repetition) 在试验中,将一个处理实施在两个或两个以上的试验单位上,
称为处理有重复;一处理实施的试验单位数称为处理的重复数。例如,用某种饲料喂4头猪,就说这个处理(饲料)有4次重复。
第一节 方差分析的基本原理与步骤
方差分析有很多类型,无论简单与否,其基本原理与步骤是相同的。本节结合单因素试验结果的方差分析介绍其原理与步骤。
一、线性模型与基本假定
假设某单因素试验有k个处理,每个处理有n次重复,共有nk个观测值。这类试验资料的数据模式如表6-1所示。
表6-1 k个处理每个处理有n个观测值的数据模式
合计xi. 平均xi. 处理 观 测 值
x1. x1. A1 x11 x12 … x1j … x1n
x2. x2. A2 x21 x22 … x2j … x2n
… … ???????xi. xi. Ai xi1 xi2 … xij … xin
… … ???????Ak 合计
xk1
xk2
…
xkj
…
xkn
xk.
x..
nxk.
x..
表中xij表示第i个处理的第j个观测值(i=1,2,…,k;j=1,2,…,n);xi.??xij表示第
j?1x..???xij??xi.表示全部观测值的总和;xi.??xij/n?xi./ni个处理n个观测值的和;
i?1j?1ki?1j?1nknkn表示第i个处理的平均数;x..???xij/kn?x../kn表示全部观测值的总平均数;xij可以分
i?1j?1解为
xij??i??ij
(6-1)
?i表示第i个处理观测值总体的平均数。为了看出各处理的影响大小,将?i再进行分解,令
1k????i (6-2)
ki?1?i??i?? (6-3)
则
xij????i??ij (6-4)
其中μ表示全试验观测值总体的平均数,?i是第i个处理的效应(treatment effects)表示处理i对试验结果产生的影响。显然有
k??i?1i?0 (6-5)
2
εij是试验误差,相互独立,且服从正态分布N(0,σ)。
(6-4)式叫做单因素试验的线性模型(linear model)亦称数学模型。在这个模型中xij表示为总平均数μ、处理效应αi、试验误差εij之和。由εij相互独立且服从正态分布N(0,σ),可知各处理Ai(i=1,2,…,k)所属总体亦应具正态性,即服从正态分布N(μi,σ)。尽管各总体的均数?i可以不等或相等,σ则必须是相等的。所以,单因素试验的数学模型可归纳为:效应的可加性(additivity)、分布的正态性(normality)、方差的同质性(homogeneity)。这也是进行其它类型方差分析的前提或基本假定。
若将表(6-1)中的观测值xij(i=1,2,…,k;j=1,2,…,n)的数据结构(模型)用样本符号来表示,则
xij?x..?(xi.?x..)?(xij?xi.)?x..?ti?eij (6-6)
2
2
2
与(6-4)式比较可知,x..、(xi.?x..)?ti、(xij?xi.)?eij分别是μ、(μi-μ)=?i、(xij-?i)=?ij的估计值。
(6-4)、(6-6)两式告诉我们:每个观测值都包含处理效应(μi-μ或xi.?x..),与误差(xij??i或xij?xi.),故kn个观测值的总变异可分解为处理间的变异和处理内的变异两部分。
二、平方和与自由度的剖分
我们知道,方差与标准差都可以用来度量样本的变异程度。因为方差在统计分析上有许多优点,而且不用开方,所以在方差分析中是用样本方差即均方(mean squares)来度量资料的变异程度的。表6-1中全部观测值的总变异可以用总均方来度量。将总变异分解为处理间变异和处理内变异,就是要将总均方分解为处理间均方和处理内均方。但这种分解是通过将总均方的分子──称为总离均差平方和,简称为总平方和,剖分成处理间平方和与处理内平方和两部分;将总均方的分母──称为总自由度,剖分成处理间自由度与处理内自由度两部分来实现的。
(一)总平方和的剖分 在表6-1中,反映全部观测值总变异的总平方和是各观测值xij与总平均数x..的离均差平方和,记为SST。即
SST???(xij?x..)2i?1j?1kn
因为
??(xi?1j?1knknij?x..)???(xi.?x..)?(xij?xi.)2i?1j?12ikn??2 ????(x.?x..)i?1j?1k2i?1n?2(xi.?x..)(xij?xi.)?(xij?xi.)2knkn?
?n?(xi.?x..)?2?[(xi.?x..)?(xij?xi.)]???(xij?xi.)2i?1j?1i?1j?1其中 ?(xij?xi.)?0
j?1knkkn所以 ??(xij?x..)?n?(xi.?x..)???(xij?xi.)2 (6-7)
22i?1j?1i?1i?1j?1k(6-7)式中,n?(xi.?x..)2为各处理平均数xi.与总平均数x..的离均差平方和与重复
i?1数n的乘积,反映了重复n次的处理间变异,称为处理间平方和,记为SSt,即
SSt?n?(xi.?x..)2
i?1k(6-7)式中,??(xij?xi.)2为各处理内离均差平方和之和,反映了各处理内的变异即
i?1j?1kn误差,称为处理内平方和或误差平方和,记为SSe,即
SSe???(xij?xi.)2
i?1j?1kn于是有
SST =SSt+SSe (6-8)
(6-7),(6-8)两式是单因素试验结果总平方和、处理间平方和、处理内平方和的关系
式。这个关系式中三种平方和的简便计算公式如下:
2SST???xij?Ci?1j?1kknSSt?12xi.?C?ni?1 (6-9)
SSe?SST?SSt
其中,C=x2··/kn称为矫正数。
(二)总自由度的剖分 在计算总平方和时,资料中的各个观测值要受
??(xi?1j?1knij?x..)?0这一条件的约束,故总自由度等于资料中观测值的总个数减一,即kn-1。
总自由度记为dfT,即dfT=kn-1。
在计算处理间平方和时,各处理均数xi.要受?(xi.?x..)?0这一条件的约束,故处理间
i?1k自由度为处理数减一,即k-1。处理间自由度记为dft,即dft=k-1。
在计算处理内平方和时,要受k个条件的约束,即
?(xj?1nij?xi.)?0(i=1,2,…,k)。故
处理内自由度为资料中观测值的总个数减k,即kn-k 。处理内自由度记为dfe,即
dfe=kn-k=k(n-1)。
因为
nk?1?(k?1)?(nk?k)?(k?1)?k(n?1)
所以
dfT?dft?dfe (6-10)
综合以上各式得:
dfT?kn?1dft?k?1dfe?dfT?dft各部分平方和除以各自的自由度便得到总均方、处理间均方和处理内均方,分别记为
2(MST或ST)、MSt(或St2)和MSe(或Se2)。即
22MST?ST?SST/dfT MSt?St2?SSt/dft MSe?Se?SSe/dfe (6-12)
(6-11)
总均方一般不等于处理间均方加处理内均方。
【例6.1】 某水产研究所为了比较四种不同配合饲料对鱼的饲喂效果,选取了条件基本相同的鱼20尾,随机分成四组,投喂不同饲料,经一个月试验以后,各组鱼的增重结果列于下表。
表6-2 饲喂不同饲料的鱼的增重 (单位:10g)
饲料
鱼的增重(xij)
合计xi.
平均xi.