方差分析和协方差分析,协变量和控制变量
方差分析
方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。 方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。 假定条件和假设检验?
1. 方差分析的假定条件为: (1)各处理条件下的样本是随机的。 (2)各处理条件下的样本是相互独立的,否则可能出现无法解析的输出结果。 (3)各处理条件下的样本分别来自正态分布总体,否则使用非参数分析。 (4)各处理条件下的样本方差相同,即具有齐效性。 2. 方差分析的假设检验 假设有K个样本,如果原假设H0样本均数都相同,K个样本有共同的方差σ ,则K个样本来自具有共同方差σ和相同均值的总体。 如果经过计算,组间均方远远大于组内均方,则推翻原假设,说明样本来自不同的正态总体,说明处理造成均值的差异有统计意义。否则承认原假设,样本来自相同总体,处理间无差异。 作用
一个复杂的事物,其中往往有许多因素互相制约又互相依存。方差分析的目的是通过数据分析找出对该事物有显著影响的因素,各因素之间的交互作用,以及显著影响因素的最佳水平等。方差分析是在可比较的数组中,把数据间的总的“变差”按各指定的变差来源进行分解的一种技术。对变差的度量,采用离差平方和。方差分析方法就是从总离差平方和分解出可追溯到指定来源的部分离差平方和,这是一个很重要的思想。 经过方差分析若拒绝了检验假设,只能说
明多个样本总体均值不相等或不全相等。若要得到各组均值间更详细的信息,应在方差分析的基础上进行多个样本均值的两两比较。 多个样本均值间两两比较 多个样本均值间两两比较常用q检验的方法,即Newman-kueuls法,其基本步骤为:建立检验假设-->样本均值排序-->计算q值-->查q界值表判断结果。 多个实验组与一个对照组均值间两两比较 多个实验组与一个对照组均值间两两比较,若目的是减小第II类错误,最好选用最小显著差法(LSD法);若目的是减小第I类错误,最好选用新复极差法,前者查t界值表,后者查q'界值表。 基本思想 基本思想
通过分析研究中不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。 举例分析
下面我们用一个简单的例子来说明方差分析的基本思想: 如某克山病区测得11例克山病患者和13名健康人的血磷值(mmol/L)如下: 患者:0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11 健康人:0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87 问该地克山病患者与健康人的血磷值是否不同? 从以上资料可以看出,24个患者与健康人的血磷值各不相同,如果用离均差平方和(SS)描述其围绕总均值的变异情况,则总变异有以下两个来源: 组内变异,即由于随机误差的原因使得各组内部的血磷值各不相等; 组间变异,即由于克山病的影响使得患者与健康人组的血磷值均值大小不等。 而且:SS总=SS组间+SS组内 v总=v组间+v组内 如果用均方(离差平方和除以自由度)代替离差平方和以消除各组样本数不同的影响,则方差分析就是用组间均方去除组内均方的商(即F值)与1相比较,若F值接近1,则说明各组均值间的差异没有统计学意义,若F值远大于1,则说明各组均值间的差异有统计学意义。实际应用中检验假设成立条件下F值大于特定值的概率可通过查阅F界值表(方差分析用)获得。 利用
统计学软件分析结果如下: data a; input type num @@; cards; 1 0.84 1 1.05 1 1.20 1 1.20 1 1.39 1 1.53 1 1.67 1 1.80 1 1.87 1 2.07 1 2.11 2 0.54 2 0.64 2 0.64 2 0.75 2 0.76 2 0.81 2 1.16 2 1.20 2 1.34 2 1.35 2 1.48 2 1.56 2 1.87 ; run; proc anova; class type; model num=type; means type; run; 自由 度 SS组间(处理因素) 1 SS组内(抽样误差) 22 总和 23 分类及举例 单因素方差分析
(一)单因素方差分析概念理解步骤 是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。 例如,分析不同施肥量是否给农作物产量带来显著影响,考察地区差异是否影响妇女的生育率,研究学历对工资收入的影响等。这些问题都可以通过单因素方差分析得到答案。 单因素方差分析的第一步是明确观测变量和控制变量。例如,上述问题中的观测变量分别是农作物产量、妇女生育率、工资收入;控制变量分别为施肥量、地区、学历。 单因素方差分析的第二步是剖析观测变量的方差。方差分析认为:观测变量值得变动会受控制变量和随机变量两方面的影响。据此,单因素方差分析将观测变量总的离差平方和分解为组间离差平方和和组内离差平方和两部分,用数学形式表述为:SST=SSA+SSE。 单因素方差分析的第三步是通过比较观测变量总离差平方和各部分所占的比例,推断控制变量是否给观测变量带来了显著影响。 (二)单因素方差分析原理总结 容易理解:在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方和所占比例小,则说明观测变量的变动不是主要由控制变量引起的,不可以主要由控制变量来解释,控制变量的不同水平没有给观测变量带来
离差平方和 均方
F 值 P值
1.13418185 1.13418185 6.37 0.0193(有统计学意义)
3.91761399 0.17807336
5.05179583
显著影响,观测变量值的变动是由随机变量因素引起的。 (三)单因素方差分析基本步骤 1、提出原假设:H0——无差异;H1——有显著差异 2、选择检验统计量:方差分析采用的检验统计量是F统计量,即F值检验。 3、计算检验统计量的观测值和概率P值:该步骤的目的就是计算检验统计量的观测值和相应的概率P值。 4、给定显著性水平,并作出决策 (四)单因素方差分析的进一步分析 在完成上述单因素方差分析的基本分析后,可得到关于控制变量是否对观测变量造成显著影响的结论,接下来还应做其他几个重要分析,主要包括方差齐性检验、多重比较检验。 1、方差齐性检验 是对控制变量不同水平下各观测变量总体方差是否相等进行检验。 前面提到,控制变量不同各水平下观测变量总体方差无显著差异是方差分析的前提要求。如果没有满足这个前提要求,就不能认为各总体分布相同。因此,有必要对方差是否齐性进行检验。 SPSS单因素方差分析中,方差齐性检验采用了方差同质性(homogeneity of variance)检验方法,其原假设是:各水平下观测变量总体的方差无显著差异。 2、多重比较检验 单因素方差分析的基本分析只能判断控制变量是否对观测变量产生了显著影响。如果控制变量确实对观测变量产生了显著影响,进一步还应确定控制变量的不同水平对观测变量的影响程度如何,其中哪个水平的作用明显区别于其他水平,哪个水平的作用是不显著的,等等。 例如,如果确定了不同施肥量对农作物的产量有显著影响,那么还需要了解10公斤、20公斤、30公斤肥料对农作物产量的影响幅度是否有差异,其中哪种施肥量水平对提高农作物产量的作用不明显,哪种施肥量水平最有利于提高产量等。掌握了这些重要的信息就能够帮助人们制定合理的施肥方案,实现低投入高产出。 多重比较检验利用了全部观测变量值,实现对各个水平下观测变量总体均值的逐对比较。由于多重比较检验问题也是假设检验问题,因此也遵循假设检验的基本步骤。 检验统计量的构造方法
(1)LSD方法 LSD方法称为最小显著性差异(Least Significant Difference)法。最小显著性差异法的字画就体现了其检验敏感性高的特点,即水平间的均值只要存在一定程度的微小差异就可能被检验出来。 正是如此,
它利用全部观测变量值,而非仅使用某两组的数据。LSD方法适用于各总体方差相等的情况,但它并没有对犯一类错误的概率问题加以有效控制。 (2)S-N-K方法 S-N-K方法是一种有效划分相似性子集的方法。该方法适合于各水平观测值个数相等的情况, 3、其他检验 (1)先验对比检验 在多重比较检验中,如果发现某些水平与另外一些水平的均值差距显著,如有五个水平,其中x1、x2、x3与x4、x5的均值有显著差异,就可以进一步分析比较这两组总的均值是否存在显著差异,即1/3(x1+x2+x3)与1/2(x4+x5)是否有显著差异。这种事先指定各均值的系数,再对其线性组合进行检验的分析方法称为先验对比检验。通过先验对比检验能够更精确地掌握各水平间或各相似性子集间均值的差异程度。 (2)趋势检验 当控制变量为定序变量时,趋势检验能够分析随着控制变量水平的变化,观测变量值变化的总体趋势是怎样的,是呈现线性变化趋势,还是呈二次、三次等多项式变化。通过趋势检验,能够帮助人们从另一个角度把握控制变量不同水平对观测变量总体作用的程度。 多因素方差分析
(一)多因素方差分析基本思想 多因素方差分析用来研究两个及两个以上控制变量是否对观测变量产生显著影响。这里,由于研究多个因素对观测变量的影响,因此称为多因素方差分析。多因素方差分析不仅能够分析多个因素对观测变量的独立影响,更能够分析多个控制因素的交互作用能否对观测变量的分布产生显著影响,进而最终找到利于观测变量的最优组合。 例如: 分析不同品种、不同施肥量对农作物产量的影响时,可将农作物产量作为观测变量,品种和施肥量作为控制变量。利用多因素方差分析方法,研究不同品种、不同施肥量是如何影响农作物产量的,并进一步研究哪种品种与哪种水平的施肥量是提高农作物产量的最优组合。 (二)多因素方差分析的其他功能 1、均值检验 在SPSS中,利用多因素方差分析功能还能够对各控制变量不同水平下观测变量的均值是否存在显著差异进行比较,实现方式有两种,即多重比较检验和对比检验。多重比较检验的方法与单因素方差分析类似。对比检验采用的是单样本t检验的方法,它将控制变量不同水平下的观测变量值看做来自不同总体的样本,并依次检验这些总体的均值是否与某个指定的检验值存在显著差异。其