好文档 - 专业文书写作范文服务资料分享网站

第十一讲方差分析ANOVA

天下 分享 时间: 加入收藏 我要投稿 点赞

第十一讲 方差分析ANOVA

方差分析从它的内容上来讲,是分析或检验因变量(与自变量交互作用时)各个组的均值是否有所不同,而不是方差是否有所不同,就检验所用的方法或手段来说,是通过方差分析、比较方差而得到来进行。ANOVA分析要求因变量必须是定距变量,随机样本,各个组的总体是正态分布;子总体的方差相等。 这里主要分析的是one way analysis of variance, 一个定类变量与一个定距变量之间的关系―――进行两组及多组样本均值的比较

一.定类变量-----定距变量之间关系的检验 观察总数N;均值为X,方差:

检验不同教育程度的人其收入均值是否相同?

教育可以分成6个组,分别为: n1,x1,s1;n2,x2,s2;n3x3,s3;n4,x4,s4;n5,x5,s5;n6,x6,s6

用F检验

E2/(m?1)组间平方和/(m?1)F== 组内平方和/(n?m)(1?E2)/(n?m)m 为自变量分成的类别数,分子是被自变量解释掉的误差除于m-1,分母是总的剩余平方和(没有被解释掉的误差除于 n-m

总方差=

?(Xi?X)2

组间差为

n1(x1?x)2?n2(x2?x)2?n3(x3?x)2?n4(x4?x)2?n5(x5?x)2?n6(x6?x)2

组内差=

?(Xi?Xi)2

方差分析的原假设是各个组的均值都相等;

研究假设是至少有一个以上的类别,它的均值是不相等的

方差分析表 来源 自由度 df m-1 n- m n - 1 平方和 sum of square Between Group Within Group TSS 均方和 mean square 组间/K 组内/(n-m) F值 F 组间/(m-1)// 组内/(n-m) 显著水平 Sig F 组间 组内 总 ?

二.定类变量---定距变量之间关系的强度

测量相关的系数是eta2 ,也称为E2,它是以一个定类变量X为自变量,以一个定序变量Y为因变量,根据自变量的每一个值来预测或估计因变量的均值,它的取值是(0,1),具有消减误差比例的意义。计算公式是:

E2?(Y?Y)??(Y?Yi)??(Y?Yi)222

分子:消减的误差,如果知道 Xi,用对应于X值的各个Y的均值Yi(是在每个自变量Xi上的各个因变量的均值)来预测产生的误差。 分母:不知道X,以因变量的均值Y来预测产生的误差。

举例

教育与收入:这个在compare means T-TEST里也可以做,但T-TEST只能对两个组进行检验,而且检验的方式少,而在ANOVA分析中,可以对多个组之间的均值是否相等进行检验 怎么做?

1.SPSS-----Compare means-----one way ANOVA----出现对话框----点选文化程度到FACTOR框——点选收入到DEPENDENT框------ 2.Contrast---在一元方差分析的时候不做要求 1. options—

[1]Descriptives描述性统计,提供均值、标准偏差等

[2]Homogeneity of Variance 同方差性检验,用Levence检验,检查方差是否相等,如果显著性 sig小于0.05,那么就认为方差是不相等的,如果显著性SIG大于0.05,那么就认为方差是相等的 [2]MEANS PLOT----可以画出均值图

当Levence检验发现方差相等时,可以点选POST HOC中的Equal variance assumed

假设。设计中各组的方差是一致的,这个假设称为方差齐性假设。为什么方差检验要求各个组的方差一致? 方差分析的基本出发点是总方差(

?(Xi?X)2)可以分解为组间

方差:

n1(x1?x)2?n2(x2?x)2?n3(x3?x)2?n4(x4?x)2?n5(x5?x)2?n6(x6?x)2 与

组内方差:

?(X2 ?X)ii需要考察的是各个组的均值是否有差异,对于是否有差异的判断是看F值,

F=

组间平方和/(m?1)

组内平方和/(n?m)假设各个组的方差相等,这意味着这样一种情况:不管各个组的均值是多少,但是每个组内产生的误差是一样的,在每个组误差相等的情况下,组之间的方差就反应了每

个组的均值与总体均值比会产生的误差。 在方差不相等的情况下,我们对组内的方差进行相加是不合适的。因为方差不相等意味着各个组内产生的误差对于总误差的贡献是不一样的,也就是随机因素(或不能解释的因素)对于各个组来讲产生的误差是不一样的,在这种情况下,我们如果试图通过组之间的方差来判断均值是否有差异,就会出现这样的情况:也就是均值的差异到底是由于组内方差贡献不同引起的,还是由于组间方差引起的,因此也就不能很好地区分均值到底是否有差异。

4.POST HOC------进行是否是等方差性的检验 [1]Equal variance assumed

● LSD 最小二乘法,实际上是T检验的变形,只是在变异与自由度计算上利用了整个样本信息,而不仅仅是所比较的两个组的信息。它的敏感都最高,如果LSD都没有办法检验出差别,那恐怕就是真的没有差别。

● Bonferroni,由LSD修正而来,通过设置每个检验的a水准来控制总的a水准,这个方法的敏感都介于LSD和Scheffe之间

● Scheffe―――当各个组人数不相等,或者想进行复杂的比较时,用这个方法比较好,它检验的是各个均数的线性组合,而不是只检验某一对均数之间的差异,并控制整体a水平等于0.05.因此,这种方法比较保守,有的时候方差分析时F值有显著性,但用这个方法却找不出差异来. ● LSDMOD 通过设置每个检验的误差率来控制整个误差率,看到的显著值是多重比较后的调整值―――不常用

● Sidak ―――也是从t检验修正而来,和Bonferroni非常相似,但比Bonferroni保守 ● R-E-G-WF---不常用 ● R-E-G-WQ---不常用

● S-N-K---即Student Newman Keuls法,是运用非常广泛的一种两两比较法,它采用student range分布进行所有各个组均值之间的配对比较.这个方法保证了在零假设真正成立时总的a水准等于实际设定值,即控制了第一类错误. ● TUKEY---即Turkey’s honestly significant difference, 同样采用

student range分布进行所有各个组均值之间的配对比较,但与S-N-K不同的是,它控制的是所有比较中最大的一类错误的概率值不超过a水准.

● Dunnett 将所有的处理组均数分别与指定的对照组均数进行比较,并控制所有比较中最大的一类错误的概率值不超过a水准,这个方法不太适用完全两两比较的情况.

● TUKEY’s-b---不常用 ● Duncan---不常用

● Hochberg’s GT2不常用 ● Gabriel---不常用

● Wall-Duncan----不常用 ● ?

以上各种检验方法都可以检验出每一个组之间的差异情况,这些检验出来的结果,解释方法基本上是一样的,在统计量的计算上有一定的差异,我们不要去追究这些统计量是怎么算出来的,关键是对输出结果要会看,在实际的操作时,一般不选择那么多,经常选择的是LSD(注意:比较各种检验有什么差别),一般不用TUKEY’s-b,因为读起来非常费劲/

当Levence检验发现方差不相等时,可以点选Dunnett’s, Games-Howell 和Dunnetts’s C

均值有差异,往往不是所有的均值都有差异,可以发现往往是某写组之间有差异

在明白了各种对话框的含义的基础是,我们做ANOVA分析时,可以把输出的结果搞得小一点。F检验,检验的是组间的均值是否相等

如何选择两两比较方法(参考意见):如果存在明确的对照组,要进行的是验证性研究,即计划好的某两个组或几个组之间(和对照组)的比较,宜用

Bonferroni/LSD, 如果需要进行的是多个均数之间的两两比较,进行探索性研究,而且各个组的人数不相等,则用TUKEY比较好; 其它情况可以用Scheffe法。

一般分析程序:

Analyze----one way ANOVA—options-----Homogeneity of variance------做Homogeneity of variance------看是否是等方差或者方差不相等----选择相应的检验

分析思路:看大表(很多类的),根据显著性状况对均值相似的进行合并,看*进行合并,在社会科学中,一元方差分析用得比较少,但在医学与生物学中用得比较多。

为什么不能用t检验取代方差分析

(1)问题的提出:在对均值进行假设检验时,一般有两种参数检验方法,即t检验与方差分析。t检验仅用在单因素两水平设计(包括配对设计和成组设计)和单组设计(给出一组数据和一个标准值的资料)的定量资料的均值检验场合;而方差分析用在单因素k水平设计(k≥3)和多因素设计的定量资料的均值检验场合。应当进一步说明的是,方差分析有十几种,不同的方差分析取决于不同的设计类型。值得指出的是有一种不好的倾向,即大多数医学科研工作者习惯于用t检验取代一切方差分析。有些人的辩解是,若方差分析得到差别有显著性意义的结论,不还需要用t检验进行两两比较吗?不如一开始就进行多次t检验更方便。其实,这种认识是不妥当的。现分两种情形讨论如下。

(2)不能用t检验取代方差分析的理由

①单因素k(k≥3)水平设计时的情形。为了便于读者理解,从分析具体问题入手。 [实例]研究单味中药对小鼠细胞免疫机能的影响,把40只小鼠随机均分为4组,每组10只,雌雄各半,用药15d后测定E-玫瑰结成率(%),结果如下,试比较各组总体均值之间的差别有无显著性意义?

对照组: 14 10 12 16 13 14 12 10 13 9 党参组: 21 24 18 17 22 19 18 23 20 18 黄芪组: 24 20 22 18 17 21 18 22 19 23

淫羊藿组: 35 27 23 29 31 40 35 30 28 36

由于测定指标是“率”,一般不符合“正态性”要求,故常作“平方根反正弦变换”,将其转变成近似服从正态分布的“弧度值”。此处仅为了说明t检验与方差分析的区别,姑且将数据看作定量的观测值,并直接检验资料的前提条件,得知该资料满足正态性和方差齐性,故直接进行有关的假设检验。

处理本例资料,通常人们错误的做法是,重复运用成组设计资料的t检验对4个组的均值进行6次两两比较;而正确的做法是,先进行单因素4水平设计资料的方差分析,若4个总体均值之间的差别有显著性意义,再用q检验等方法进行多个均值之间的两两比较。下面将从多个方面来说明上述两种分析方法之间的差异(表1)。

表1 用t检验与方差分析处理[实例]资料的区别

比较的内容 资料的利用率

对原实验设计的影响 犯假阳性错误的概率 结论的可靠性

t检验

低:每次仅用两组 残:割裂了整体设计 大:1-(1-0.05)6 = 0.265 低:统计量的自由度小(υ

=18)

方差分析加q检验 高:每次要用全部数据 全:与原实验设计相呼应 小:0.05(假定α=0.05) 高:统计量的自由度大(υ

=36)

注:自由度大,所对应的统计量的可靠性就高,它相当于“权重”,也类似于产生“代表”的基数,基数越大,所选出的“代表”就越具有权威性。

②多因素设计时的情形。为了便于读者理解,仍从分析具体问题入手(表2)。

表2 注射氯化锂或烟碱后不同时间大鼠体温的下降值

使用氯化锂与否 - + - +

使用烟碱

与否 时间: 0.7 - - + +

0.0±0.4 0.7±0.5 1.2±0.8 1.7±0.6

第二次注射后不同时间体温下降值(摄氏度)

3

5 0.3±0.5 0.2±0.5 0.4±0.3 0.1±0.5

1.5 0.2±0.5 0.1±0.5 0.1±0.6 0.7±0.6

0.1±0.4 0.1±0.6 0.4±0.5 0.3±0.6

显然,表2中涉及到的3个实验因素(即”使用氯化锂与否”、“使用烟碱与否”、“药物在体内作用时间”)。这些因素之间一般都存在不同程度的交互作用,应当选用与设计类型(本例为具有一个重复测量的三因素设计)相对应的方差分析方法。然而,对于处置复杂的实验设计问题,人们常犯的错误是在;其一,将多因素各水平的不同组合(本例中共有16种不同的组合,相当于16种不同的实验

第十一讲方差分析ANOVA

第十一讲方差分析ANOVA方差分析从它的内容上来讲,是分析或检验因变量(与自变量交互作用时)各个组的均值是否有所不同,而不是方差是否有所不同,就检验所用的方法或手段来说,是通过方差分析、比较方差而得到来进行。ANOVA分析要求因变量必须是定距变量,随机样本,各个组的总体是正态分布;子总体的方差相等。这里主要分析的是onewayanalysisofv
推荐度:
点击下载文档文档为doc格式
7yjho0p7d1555jd3wyj3
领取福利

微信扫码领取福利

微信扫码分享