第五章 方差分析
一、教学大纲要求
(一)掌握内容 1.方差分析基本思想
(1) 多组计量资料总变异的分解,组间变异和组内变异的概念。 (2) 多组均数比较的检验假设与F值的意义。 (3) 方差分析的应用条件。 2.常见实验设计资料的方差分析
(1)完全随机设计的单因素方差分析:适用的资料类型、总变异分解(包括自由度的分解)、方差分析的计算、方差分析表。
(2)随机区组设计资料的两因素方差分析:适用的资料类型、总变异分解(包括自由度的分解)、方差分析的计算、方差分析表。
(3)多个样本均数间的多重比较方法: LSD-t检验法;Dunnett-t检验法;SNK-q检验法。 (二)熟悉内容
多组资料的方差齐性检验、变量变换方法。 (三)了解内容
两因素析因设计方差分析、重复测量设计资料的方差分析。
二、教学内容精要
(一) 方差分析的基本思想 1. 基本思想
方差分析(analysis of variance,ANOVA)的基本思想就是根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和(sum of squares of deviations from mean,SS)和自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释,如各组均数的变异SS组间可由处理因素的作用加以解释。通过各变异来源的均方与误差均方比值的大小,借助F分布作出统计推断,判断各因素对各组均数有无影响。
2.分析三种变异
(1)组间变异:各处理组均数之间不尽相同,这种变异叫做组间变异(variation among groups),组间变异反映了处理因素的作用(处理确有作用时 ),也包括了随机误差( 包括个体差异及测定误差 ), 其大小可用组间均方(MS组
间
)表示,即MS组间= SS组间/?组间,其中,SS组间=
?n(xii?1ki?x)2,?组间=k-1为组间自由度。k表示处理组数。
(2)组内变异:各处理组内部观察值之间不尽相同,这种变异叫做组内变异(variation within groups),组内变异反映了随机误差的作用,其大小可用组内均方 (MS组内) 表示,MS组内?SS组内/?组内 ,其中SS组内?ni?????(xij?xi)2?, i?1?j?1?k?组内?N?k,为组内均方自由度。
(3)总变异:所有观察值之间的变异(不分组),这种变异叫做总变异(total variation)。其大小可用全体数据的方差表示, 也称总均方(MS总)。按方差的计算方法,MS总= SS总/?总,其中SS总=第i组例数,?总=N-1为总的自由度,N表示总例数。
(二)方差分析的应用条件
(1) 各样本是相互独立的随机样本,且来自正态分布总体。 (2) 各样本的总体方差相等,即方差齐性(homoscedasticity)。 (三)不同设计资料的方差分析 1.完全随机设计的单因素方差分析
??(xi?1j?1kniij?x)2, k为处理组数,ni为
(1)资料类型:完全随机设计(completely random design)是将受试对象完全随机地分配到各个处理组。设计因素中只考虑一个处理因素,目的是比较各组平均值之间的差别是否由处理因素造成。
(2) 方差分析表:见表5-1。F?F?时,拒绝H0: ?1??2?LL??k。 来源
组间
SS SS组间
表5-1 完全随机设计方差分析计算表
MS F值 ?
?组间?k?1
MS组间=
SS组间
?组间SS组内F=
MS组间MS组内
组内 (误差) 总计
SS组内=SS总- SS组间
?组内=?总-?组内=N-k
MS组内=
?组内 SS总
?总= N -1
2.随机区组设计的两因素方差分析
(1)资料类型:随机区组设计(randomized block design)是将受试对象按自然属性(如实验动物的窝别、体重,病人的性别、年龄及病情等)相同或相近者组成单位组(区组),然后把每个组中的受试对象随机地分配给不同处理。设计中有两个因素,一个是处理因素,另一个是按自然属性形成的单位组。单位组的选择原则是“单位组间差别越大越好,单位组内差别越小越好”。
(2)方差分析表:见表5-2。F处理?F?时,拒绝H0: ?1??2?LL??k。
表5-2 随机区组设计方差分析计算表
变异来源
SS ?
MS MS处理=
F值
处理组间
SS处理
?处理= k-1 ?单位= b-1
SS处理?处理
F处理 =MS处理MS误差MS单位MS误差
单位组间 SS单位
SS误差= SS总- SS处理- SS单位 SS总
MS单位=
SS单位?单位F单位 =
误差 总计
?误差=?总-?处理-?单位
=N-k-n+1
MS误差=
SS误差?误差
?总= N-1
3.多个样本均数的多重比较
如果方差分析结果表明各组间有显著差别,则需要进一步进行两两比较,也称均数间的多重比较(multiple comparison)。进行两两比较的方法主要有:
(1) LSD-t检验:称为最小显著差异t检验。适用于k组中某一对或某几对在专业上有特殊意义的均数间差异的比较。检验统计量为t值,自由度为方差分析表中的误差自由度,查t界值表。
t?(2)
XA?XB 其中 SdABSdAB?MS误差(n1?n1) (5-1)
ABDunnett-t检验:它适用于k-1个试验组与一个对照组均数差别的多重比较,检验统计量为t值,自由
度为方差分析表中的误差自由度,查Dunnet-t界值表。
xi?x0t?Sx?xi0,其中Sxi?x0=MS误差(11?) (5-2) nin0 (3)SNK-q检验:在方差分析结果拒绝H0时采用。适用于所有组均数的两两比较。检验统计量为q,自由度为比较组数a和方差分析表中的误差自由度,查q界值表。
q?4.多组资料方差起行检验
(XA?XB)Sd 其中,Sd?MS误差2(n1A?n1B) (5-3) 当各组标准差相差较大(如1.5倍)时,需检验资料是否满足方差齐性的条件。 5. 变量变换
当资料不能满足方差分析的条件时,如果进行方差分析,可能造成错误的判断。因此对于明显偏离上述应用条件的资料,可以通过变量变换的方法来加以改善。常用的变量变换方法有:
(1)对数变换 对数变换不仅可以将对数正态分布的数据正态化,还能使数据方差达到齐性,特别是各样本的标准差与均数成比例或变异系数接近于一个常数时。变换公式为:
X??lgX(5-4)
当原始数据中有小值或零时,可用X??lg(X?1)
(2)平方根变换 常用于使服从Possion分布的计数资料或轻度偏态的资料正态化;当各样本的方差与均数呈正相关时,可使资料达到方差齐性。变换公式为:
X??当原始数据中有小值或零时,可用X??X(5-5)
X?0.5
(3)倒数变换 常用于数据两端波动较大的资料,可使极端值的影响减小。变换公式为:
X??1/X(5-6)
(4)平方根反正弦变换 常用于服从二项分布的率或百分比资料。一般地,当总体率较小(<30%)或较大(>70%)时,通过平方根反正弦变换,可使资料接近正态,且达到方差齐性的要求。变换公式为:
X??sin?1X(5-7)
(5)秩转换后,采用秩和检验比较组间差别(祥见第九章)。 6.两因素析因设计方差分析
处理含有两因素两水平的全面组合。例如治疗肿瘤术后病人,可采用4种方法:既不放疗也不化疗(a0b0);放疗不化疗(a1b0);不放疗化疗(a0b1);既放疗又化疗(a1b1)。设放疗为A因素(两水平),化疗为B因素(两水平),则构成2?2析因设计,目的是分析A的主效应,B的主效应及AB的交互作用。
7.重复测量资料的方差分析
受试对象随机分组后,多次测量某一观察指标,以比较处理效应在不同时间点有无变化。如试验组和对照组的轻度高血压病人入院前、治疗后1天、2天、3天、4天的血压变化。设处理分组为A因素,重复测量的时间点为B因素,目的是分析A的主效应和AB的交互作用。
三、典型试题分析
1.完全随机设计资料的方差分析中,必然有( )
A.SS组内 C.MS总=MS组间+MS组内 D.SS总=SS组间+SS组内 答案:D [评析] 本题考点:方差分析过程中离均差平方和的分解、离均差平方和与均方的关系。 方差分析时总变异的来源有:组间变异和组内变异,总离均差平方和等于组间离均差平方和与组内离均差平方差之和,因此,等式SS总=SS组间+SS组内是成立的。离均差平方和除以自由度之后的均方就不再有等式关系,因此C选项不成立。A、B选项不一定成立。D选项为正确答案。 2.单因素方差分析中,当P<0.05时,可认为( )。 A.各样本均数都不相等 B.各总体均数不等或不全相等 C.各总体均数都不相等 D.各总体均数相等 答案:B [评析] 本题考点:方差分析的检验假设及统计推断。 方差分析用于多个样本均数的比较,它的备择假设(H1)是各总体均数不等或不全相等,当P<0.05时,接受H1,即认为总体均数不等或不全相等。因此答案选B。 3.以下说法中不正确的是( ) A.方差除以其自由度就是均方 B.方差分析时要求各样本来自相互独立的正态总体 C.方差分析时要求各样本所在总体的方差相等 D.完全随机设计的方差分析时,组内均方就是误差均方 答案:A [评析] 本题考点:方差分析的应用条件及均方的概念。 方差就是标准差的平方,也就是均方,因此选项A是错误的。选项B、C是方差分析对资料的要求,因此选项B和C都是正确的。在完全随机设计的方差分析中,组内均方就是误差均方,D选项也是正确的。 4.当组数等于2时,对于同一资料,方差分析结果与t检验结果( ) 。 A.完全等价且F=tB.方差分析结果更准确 C.t检验结果更准确 D.完全等价且t? 答案:D [评析]本题考点:方差分析与t检验的区别与联系。 对于同一资料,当处理组数为2时,t检验和方差分析的结果一致且t? 5. 完全随机设计与随机单位组设计相比较( )。 A.两种设计试验效率一样 B.随机单位组设计的误差一定小于完全随机设计 C.随机单位组设计的变异来源比完全随机设计分得更细 D.以上说法都不对 答案:C。 [评析]:本题考点:两种设计及其方差分析的区别。 两种设计不同,随机区组设计除处理因素外,还考虑了单位组因素。进行方差分析时,变异来源多分解出一项:单位组间变异。因此C选项为正确答案。 F F,因此,正确答案为D。 四、习 题 (一) 名词解释 1.均方 2.方差分析基本思想 3.总变异 4.组间变异 5.组内变异 6.完全随机设计 7.随机区组设计 (二) 单项选择题 1. 两样本均数的比较,可用( )。 A.方差分析 B.t检验 C.两者均可 D.方差齐性检验 2.配伍组设计的方差分析中,?配伍等于( )。 A.?总-?误差 B.?总-?处理 C.?总-?处理+?误差 D.?总-?处理-?误差 3.在均数为μ,标准差为σ的正态总体中随机抽样,|A.1.96σ B.1.96? C.t0.052,?s D. x X??|?( )的概率为5%。 t0.052,?sx 4.当自由度(?1,?2)及显著性水准?都相同时,方差分析的界值比方差齐性检验的界值( )。 A.大 B.小 C.相等 D.不一定 5.方差分析中变量变换的目的是( )。 A.方差齐性化 B.曲线直线化 C.变量正态化 D.以上都对 6.下面说法中不正确的是( )。 A.方差分析可以用于两个样本均数的比较 B.完全随机设计更适合实验对象变异不太大的资料 C.在随机区组设计中,每一个区组内的例数都等于处理数 D.在随机区组设计中,区组内及区组间的差异都是越小越好 7.随机单位设计要求( )。 A.单位组内个体差异小,单位组间差异大 B.单位组内没有个体差异,单位组间差异大 C.单位组内个体差异大,单位组间差异小 D.单位组内没有个体差异,单位组间差异小 8.完全随机设计方差分析的检验假设是( )。 A.各对比组样本均数相等 B.各对比组总体均数相等 C.各对比组样本均数不相等 D.各对比组总体均数不相等 9.完全随机设计、随机区组设计的SS和及自由度各分解为几部分( )。 A.2,2 B.2,3 C.2,4 D.3,3 10.配对t检验可用哪种设计类型的方差分析来替代( )。 A.完全随机设计 B.随机区组设计 C.两种设计都可以 D.AB都不行 (三)简答题 1.t检验和方差分析的应用条件? 2.如何合理选择检验水准?? 3.以t检验为例,说明检验假设中?和P的区别。 (四)计算题 1.某湖水在不同季节氯化物含量测定值如表5-3所示。问不同季节氯化物含量有无差别?若有差别,进行32个水平的两两比较。 表5-3 某湖水不同季节氯化物含量(mg/L) 春 22.6 22.8 21.0 16.9 20.0 21.9 21.5 21.2 ij夏 19.1 22.8 24.5 18.0 15.2 18.4 20.1 21.2 159.3 8 19.91 8.56 秋 18.9 13.6 17.2 15.1 16.6 14.2 16.7 19.6 131.9 8 16.49 2206.27 4.51 冬 19.0 16.9 17.6 14.8 13.1 16.9 16.2 14.8 129.3 8 16.16 2114.11 3.47 588.40 32 18.39 11100.84 ?Xni 167.9 8 20.99 Xi ?X 2ij 3548.51 3231.95 3.53 s2i 2.根据表5-4资料说明大白鼠感染脊髓灰质炎病毒后,再做伤寒或百日咳接种是否影响生存日数?若结论为“有