2. 计算检验的统计量
t?rn?2~t(n?2)21?r
3、进行决策。确定显著性水平?,并作出决策。若?t?>t???,拒绝H0 ,表明总体的两个变量之间存在显著的线性关系; 若?t? 六、概述相关分析和回归分析的区别和联系 (1)联系:两者都是研究非确定性变量间的统计依赖关系,并能测度线性依赖程度的大小。他们有共同的研究对象,都是对变量间的相关关系的分析,二者可以相互补充,相关分析可以表明变量间的相关关系的性质和程度,只有当变量间存在相当程度的相关分析时,进行回归分析,寻求变量间相关的具体数学形式才有意义。同时,在相关分析时,如果要具体确定变量间相关的具体数学形式,又要依赖于回归分析,而且在多个变量的相关分析中,相关系数的确定也是建立在回归分析的基础上的。 (2)区别:a、相关分析中变量的地位在相关分析中是对称的,不考虑二者的因果关系,而且都是随机变量;回归分析中变量的地位是不对称的,有自变量和因变量之分,而且自变量也往往被假设为非随机变量。b、相关分析只关注变量间的联系程度,不关注具体的依赖关系;而回归分析则更加关注变量间的具体依赖关系。c、从研究的目的上看,相关分析时用一定的数量指标(相关系数)度量相互联系的方向和程度;而回归分析却是寻求变量间联系的具体数学形式,是要根据自变量的固定值去估计和预测因变量的平均值。 七、回归分析主要解决的问题: (1)从一组数据出发,确定出变量之间的数学关系式 (2)对这些关系是的可信程度进行各种统计检验,并不影响某一特定变量的诸多变量中找出哪些变量的影响是显著的,哪些是不显著的 (3)利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的置信度 八、一元线性回归模型的基本假定 (1)误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的 x 值, y 的期望值为E ( y ) =? 0+ ? 1 x (2)对于所有的 x 值,ε的方差σ2 都相同 (3)误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N( 0 ,σ2 )独立性意味着对于一个特定的 x 值,它所对应的ε与其他 x 值所对应的ε不相关。因此,对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关 (4)因变量y与自变量x之间具有线性关系 (5)在重复抽样中,自变量x的取值是固定的,即假定x是非随机的 注:前三项也即在回归分析中的误差序列ε的基本假定 九、参数的最小二乘估计的基本原理 对于第i个x值,估计的回归方程可表示为: ????x???y0101对于x和y的n对观察值,用于描述其关系的直线有多条,究竟用哪条直线来代表 两个变量之间的关系,需要有一个明确的原则。我们自然会想到距离各观测点最近的一条直线,用最小化观察值与估计值的离差平方和来估计参数 ?0和?1的方法称为 ??0最小二乘法,是使得因变量的观察值与估计值之间的离差平方和达到最小来求得 ??和1的方法。 ????0十、回归分析中模型参数的最小二乘估计和1具有哪些统 计特性?若参数用于预测,影响预测精度的因素有哪些? (1)统计特性: ????0a、线性,即估计量和1为随机变量的y的线性函数 ????0和1分别是?0和?1的无偏估计 b、无偏性, ????0 c、有效性,和1是所有线性无偏估计量中具有最小方差的估计量 (2)影响预测精度的因素: a、预测的信度要求,同样的情况下,要求预测的把握度越高,则相应的预测区间就越宽,精度就越低 b、总体y分布的离散程度σ2。σ2越大,预测区间越宽,预测精度越低 c、样本观测点的多少n。n越大,预测区间越窄,预测精度越高。 d、样本观测点中,解释变量x 分布的离散程度,x分布越分散,越策精度越高 e、预测点x0离样本分布中心x?的距离。距离越远,预测区间越宽,预测精度越低,反之越高。 十一、解释总平方和SST、回归平方和SSR、残差平方和SSE的含义,并说明它们之间的关系 (1)用实际观测值y与其均值y?的离差平方和表示总平方和(SST),反映因变量的 n 个观察值与其均值的总离差 (2)回归平方和(SSR) 是回归值y?与均值y?的离差平方和,反映是由于 x 与 y 之间的线性关系引起的 y 的取值变化部分,它是可以由回归直线来解释的y的变差部分 (3)残差平方和(SSE) 是各实际观测点与回归值的残差y-y?的平方和,反映除 x 以外的其他因素对 y变差的作用,也称为不可由回归直线来解释的y变差部分 三个平方和的关系为:SST=SSR+SSE 十二、判定系数????的含义和作用 (1)判定系数R2指回归平方和占总离差平方和的比例,公式为 (2)反映回归直线对观测数据的拟合程度 (3)如果所有观测点都落在直线上,残差平方和SSE=0,R2=1,拟合是完全的;如果y的变化与x无关,x无助于解释y的变差,此时y?=y?,则R2=0。可见,R2的取值范围在 [ 0 , 1 ] 之间 (4)R2 ?1,说明回归平方和占总平方和的比例越大,回归直线与各观测点越接近,用x的变化来解释y值变差的部分就越多,回归方程拟合的越好;R2?0,说明回归方程拟合的越差 (5)判定系数等于相关系数的平方,即R2=(r)2 2R2?SSR?SST???yii?1?1nnii?1?1nnii?y?222??y?y?ii2?1???yii?1?1nnii?1?1nnii??2?y22???y?y?ii2十三、回归分析结果的评价 ??(1)所估计的回归系数1的符号 与事先预期的一致。 (2)如果理论认为y与x之间的关系不仅是正的,而且是统计上显著的,那么所建立的回归方程也应该如此。 (3)回归模型在多大程度上解释了因变量y取值的差异?可用判定系数来回答 (4)考察关系误差项ε 的正态性假定是否成立,因为在对线性关系进行F检验和对回归系数进行t检验时,都要求误差项ε服从正太分布,否则,所用的检验程度将是无效的,检验ε正态性的简单方法是画出残差直方图。 十四、估计标准误差 估计标准误差是指均方残差(MSE)的平方根。估计标准误差是对各观察点在直线周围分散程度的一个度量值,它是对误差项ε的标准差??的估计,计算公式为 2???y?y?iiii2ii??11nnsyy?n?2?SSE?MSEn?2估计标准误差sy可以看做是在排除了x对y的线性影响后,y随机波动大小的一个估计量。从估计标准误差的实际意义看,它反映了用估计的回归方差预测因变量y时预测误差的大小。若各观测点 越靠近直线,sy越小,回归直线对各观测点的代表性就越好,根据估计的回归方程进行预测也就越准确;若各观测点全部落在直线上则sy=0。此时用自变量来预测因变量时是没有误差的。回归直线是对n个观测点拟合的所有直线中,估计标准误差最小的一条直线。 十五、回归分析中,F检验和t检验各有什么作用 (1)一元回归中,F检验的作用:线性关系的检验是检验自变量x和因变量y之间的线性关系是否显著,或者说,他们之间能否用一个线性模型 y = β 0+ β1 x + ε来表示。t检验的作用:回归系数的显著性检验是要检验自变量对因变量的影响是否显著的问题。 (2)一元线性回归中,自变量只有一个,F检验和t检验是等价的,也就是说,如果H0:β1=0被t检验拒绝,他也将被F检验拒绝。但在多元回归分析中,这两种检验的意义是不同的,F检验只是用来检验总体回归系数的显著性,而t检验则是检验各个回归系数的显著性 十六、线性关系的检验步骤和回归系数的检验步骤 (1)线性关系的检验步骤: 第一步:提出假设,H0:?1=0 线性关系不显著 第二步:计算检验统计量F F?SSR1MSR?~F(1,n?2)SSEn?2MSE第三步:作出决策:确定显著性水平?,并根据分子自由度1和分母自由度n-2找出临界值F ? 若F>F ?,拒绝H0;若F ? H0: b1 = 0 (没有线性关系) ? H1: b1 ? 0 (有线性关系) 第二步:计算检验的统计量 t???11s???1?1~t(n?2)第三步:确定显著性水平?,并进行决策 ? ? t?>t???,拒绝H0;? t? 十七、置信区间和预测区间的含义?二者的区别 (1)置信区间指利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间 (confidence interval) E(y0) 在1-?置信水平下的置信区间为 ?0?t?2(n?2)syy1?n?x0?x?2??xi?1ni?x?2(2)预测区间指利用估计的回归方程,对于自变量 x 的一个给定值x0 ,求出因变量 y 的一个个别值的估计区间 (prediction interval) y0在1-?置信水平下的预测区间为 ?0?t?2(n?2)Syy11??n?x0?x?2??xi?1ni?x?2(3)二者的区别:置信区间估计是求y的平均值的估计区间,而预测区间的估计是求y的一个个别值的区间估计;对同一个x0,这两个区间的宽度也是不一样的。预测区间要比置信区间宽一些。