好文档 - 专业文书写作范文服务资料分享网站

统计学 贾俊平 考研 知识点总结

天下 分享 时间: 加入收藏 我要投稿 点赞

(4)如果组间误差只包括随机误差,而没有系统误差,这时,组间误差与组内误差经过平均后的数值就应该很接近,他们的比值就会接近1;

(5)反之,如果组间误差既包括随机误差又包括系统误差,这时,组间误差与组内误差经过平均后的数值,他们的比值就会大于1;

(6)当这个比值大到某种程度时,我们就可以说因素的不同水平之间存在着显著的差异,也就是自变量对因变量有影响。

四、方差分析中的基本假定

(1)每个总体都应服从正态分布。也就是说,对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本

(2)各个总体的方差必须相同。也就是说,各组观察数据是从具有相同方差的总体中抽取的

(3)观察值是独立的

在上述假定成立的前提下,要分析自变量对因变量是否有影响,实际上也就是要检验自变量的各个水平(总体)的均值是否相等。

五、方差分析和总体均值的t检验或z检验有何不同?优势是什么

(1)不同:总体均值的t检验或z检验,只能研究两个样本,若要检验多个总体

均值是否相等。那么作这样的两两比较将 十分繁琐,共需进行 次不同的检验,如果

=0.05,那么每次检验犯第Ⅰ类错误的概率都是0.05,做多次检验会使第Ⅰ类错误的概率相应增加。而方差分析方法则同时考虑所有的样本,因此除了错误累计的概率,从而避免了拒绝一个真是的原假设。

(2)优势:方差分析不仅可以提高检验的概率,同时由于他是将所有的样本信息结合在一起,也增加了分析的可靠性。

六、要检验多个总体均值是否相等时,为什么不做两两比较,而用方差分析方法?

方差分析不仅可以提高检验的概率,同时由于他是将所有的样本信息结合在一起,也增加了分析的可靠性。

检验多个总体均值是否相等时,如果做两两比较,需要进行多次的t检验。随着增加个体显著性检验的次数,偶然因素导致的差别的可能性会增加(并非均值真的存

在差别),而方差分析则是同时考虑所有的样本,因此排除了错误累积的概率,从而避免拒绝一个真实的原假设。

七、方差分析的步骤

(1)提出假设,按要求检验的k个水平的均值是否相等,提出原假设和备择假设。 (2)构造检验的统计量,计算各样本均值 ,样本总均值 ,误差平方和SST、SSA、SSE F= (3)统计决策,比较统计量F和 (k-1,n-k)的值,若F> ,则拒绝原假设,反之不拒绝原假设

八、解释水平项误差平方和与误差平方和

(1)水平项误差平方和,简称SSA,是各组平均值与总平均值的误差平方和,反映各总体的样本均值之间的差异程度,因此又称为组间平方和,其计算公式为

SSA????xii?x???nii?xi?x?22ii??11jj??11ii??11kknniikk2(2)误差项平方和,简称为SSE,它是每个水平或组的各样本数据与其组平均值误差的平方和,反映了每个样本个观测值的离散状况,因此又称为组内平方和或残差平方和,该平方和实际上反映的是随机误差的大小,其计算公式为

SSE????xij?xii?2ij2ii?11?1jj??1kknnii九、解释组内方差和组间方差的含义

SSA的均方(组间均方)记为MSA,也称组间方差,其计算公式为 MSA?SSA

k?1SSEMSE的均方(组内均方)记为MSE,也称组内方差,其计算公式为 MSE?SSEnn??kk十、方差分析中效应的意义

SSA是对随机误差和系统误差的大小的度量,它反映了自变量对因变量的影响,也称自变量效应或因子效应。 SSA?2????x?x?nx?x???iiii?1j?1i?122iiii?1j?1i?1kknniikk2 SSE是对随机误差的大小的度量,它反映了除自变量对因变量的影响之外,其他因素对因变量的总影响,因此SSE也称为残差变量,它所引起的误差也称为残差效应。 SSE????xii?11?1jj??1kknniiijij?xii?22 SST是全部数据总误差程度的度量,它反映了自变量和残差变量的共同影响,因此他等于自变量效应加残差效应。

SST = SSA + SSE SST????xij?x?ijii??11jj??11kknnii22十一、多重比较方法的作用:

它是通过对总体均值之间的配对比较来进一步检验到底哪些均值之间存在差异。

十二、交互作用:

是一因素对另一因素的不同水平有不同的效果,如对于双因素方差分析,有交互作用就是两个因素搭配在一起,对应变量产生的一种新的效应。

十三、解释无交互作用和有交互作用的双因素方差分析

在双因素方差分析中,由于有两个影响因素,若这两个因素是相互独立的,我们分别判断这两个因素对因变量的影响,这时的双因素方差分析称为无交互作用的双因素方差分析,或称为无重复因素分析。如果出了两个因素的单独影响外,两因素的搭配还会对因变量产生一种新的效应,这时的双因素方差分析就是有交互作用的双因素方差分析。

十四、R2的含义和作用

(1)单因素方差分析中,R2 表示自变量平方和(SSA)及残差平方和(SSE)占总平方和(SST)的比例大小,其平方根R就可以用来测量两个变量之间的关系强度

2 R2?SSA(组间平方和组间平方和))SST(总平方和总平方和))(2)无交互作用的双因素方差分析中,行自变量平方(SSR)和和列自变量的平方和(SSC) 加在一起则度量了两个自变量对因变量的联合效应,联合效应与总平方和的比值定义为R2,其平方根R反映了这两个自变量合起来与因变量之间的关系强度

联合效应联合效应SSR?SSCR??总效应SST总效应

22(3)有交互作用的方差分析:R2 =

十四、为什么双因素方差分析中,误差平方和与P值明显小于

单因素方差分析中的任何一个平方和?

是因为在双因素方差分析中,误差平方和不包括两个自变量中的任何一个,因而减少了残差效应。而在分别作单因素方差分析时,将行因素作为自变量时,列变量被

包含在残差中,同样,将列因素作为自变量是,行变量被包含在残差中。因此,对于两个自变量而言,进行双因素方差分析要优于分别对两个因素进行单因素方差分析

十五、完全随机化设计、随机化区组设计、因子设计

(1)完全随机化设计指“处理”被随机地指派给试验单元的一种设计、对完全随机化设计的数据采用单因素方差分析 (2)随机化区组设计是指先按一定规则将试验单元划分为若干同质组,称为“区组。分组后再将每个品种(处理)随机地指派给每一个区组的设计就是随机化区组设计。试验数据采用无重复双因素方差分析 (3)因子设计指考虑两个因素(可推广到多个因素)的搭配试验设计称为因子设计。该设计主要用于分析两个因素及其交互作用对试验结果的影响。试验数据采用可重复双因素方差分析

第十章 一元线性回归

一、简述相关系数的性质

相关系数是指根据数据计算的对两个变量之间线性关系强度的度量值。若相关系数是根据总体全部数据计算的,称为总体相关系数,记为? ;若是根据样本数据计算的,则称为样本相关系数,记为 r,样本相关系数的计算公式:

性质:

(1)r 的取值范围是 [-1,1] ; |r|=1,为完全相关,r =1,表明x与y之间为完全正线性相关关系,r =-1,表明x与y之间为完全负线性相关关系; r = 0,表明x与y之间不存在线性相关关系相关, -1?r <0,表明x与y之间为负线性相关, 0

(2)r具有对称性,x与y之间的相关系数 和y和x之间的相关系数 相等,即 =

(3)r的大小与x和y的原点及尺度无关。改变x和y的数据原点和计量尺度,并不改变r的大小

(4)r仅仅是x和y之间的线性关系的度量,不用于描述非线性关系,这意味着,r=0指标是两个变量之间不存在线性相关关系,但并说明变量之间没有任何关系,如

r?22n?x2???x??n?y2???yy?n?xy??x?y2222可能存在非线性相关关系。变量之间的非线性相关程度较大时,就可能会导致r=0.因此当r=0或很小时,不能轻易得出两个变量之间不存在相关关系的结论,而应结合散点图作出合理的解释。

(5)r虽是两变量之间线性关系的度量,却并不意味着x和y之间一定有因果关系。

二、利用相关关系如何判断变量之间相关的方向和相关的密切程度?

(1)r 的取值范围是 [-1,1] ; |r|=1,为完全相关,r =1,表明x与y之间为完全正线性相关关系,r =-1,表明x与y之间为完全负线性相关关系; r = 0,表明x与y之间不存在线性相关关系相关, -1?r <0,表明x与y之间为负线性相关, 0

(2)根据实际数据计算出的r,|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切。相关程度分为以下几种情况:当|r| 0.8时,可视为高度相关;

0.5?|r|<0.8时,可视为中度相关;当0.3?|r|<0.5时,视为低度相关;|r|<0.3时,说明两变量之间的相关程度极弱,可视为不线性相关。但这种解释必须建立在对相关系数的显著性进行检验的基础之上

三、为什么对相关系数进行显著性检验?

一般情况下,总体相关系数?是未知的,我们通常是根据样本相关系数r作为?的近似估计值。但由于r是根据样本数据计算出来的,他受到抽样波动的影响。由于抽取的样本不同,r的取值也不同,因此r是一个随机变量。能否根据样本相关系数说明总体的相关程度?这就需要考察样本相关系数的可靠性,即进行显著性检验。

四、样本容量对r的影响及r与?的关系

当样本数据来自正态总体时,随着n的增大,r的抽样分布趋于正态分布,尤其是在总体相关系数?更小或接近0时,趋于正态分布的趋势就非常明显,而当?远离0时,除非n非常大,否则r的抽样分布呈现一定的偏态。因为当r是围绕?的周围分布的,当?的数值接近1或-1时,如?=0.96时,两个方向变化的全距不等,因此r的抽样分布也不可能对称。但当?=0时,两个方向的变化的全距接近相等,所以r的抽样分布就接近对称了。总之,当?为较大的正值时,r呈现左偏分布;当?为较小的负值时,r呈现右偏分布。只有当?接近0,而样本容量n很大时,才能认为r是接近于正态分布的随机变量。

五、r的显著性检验的步骤

1. 提出假设:H0:? ? ? ;H1: ? ? 0

统计学 贾俊平 考研 知识点总结

(4)如果组间误差只包括随机误差,而没有系统误差,这时,组间误差与组内误差经过平均后的数值就应该很接近,他们的比值就会接近1;(5)反之,如果组间误差既包括随机误差又包括系统误差,这时,组间误差与组内误差经过平均后的数值,他们的比值就会大于1;(6)当这个比值大到某种程度时,我们就可以说因素的不同水平之间存在着显著的差异,也就是自变量对因变量有影响。
推荐度:
点击下载文档文档为doc格式
6qq1m8wyx33gyk618jsm0fvam2gyzr007ee
领取福利

微信扫码领取福利

微信扫码分享