t?2(n?2)?t0.052(8?2)?2.447。
(2)销售收入95%的置信区间为:
?0?t?2sey(x0?x)21?nn?(xi?x)2i?11(40?24.9375)2?563.299?2.447?108.7575?
82692.11875?563.299?121.745即(270.65,685.04)。
441.54?E(y40)?685.04。
11.14.回归1残差图:
回归1 残差32.521.510.50-0.50-1-1.5510152025回归1 残差
回归2残差图:
回归2 残差21.510.50-0.5-1-1.505101520回归2 残差
结论:回归1的残差基本上位于一条水平带中间,说明变量之间的线性假设以及对误差项正态假设是成立,用一元线性回归方程描述变量间的关系是合适的。
回归2的残差表示,变量之间用一元线性回归模型不合理,应考虑曲线回归或多元回归。
??29.399?1.547x 11.15.(1) 估计的回归方程为:y(2)由于Significance F=0.020?0.05,表明广告费支出与销售额之间的线性关系显著。
(3) 残差图
X Variable 1 Residual Plot10残差0-10-20X Variable 10510152025
从图上看,关于误差项?的假定不满足。 (4)广告费支出x与销售额y关系的散点图:
销售额y60504030201000510152025销售额y
从广告费支出x与销售额y关系的散点图上看,用二次函数或其它曲线模型会更好。
第十二章 多元线性回归
12.1
解释多元回归模型、多元回归方程、估计的多元回归方程的含义。
答:设因变量为y,k个自变量分别为x1,x2,…,xk,描述因变量y如何依赖于自变量x1,x2,…,xk和误差项?的方程y??0??1x1??2x2????kxk??称为多元回归模型。其中,?0,?1,…,?k是模型的参数;?为误差项。
在多元回归模型的基本假定下,因变量y的期望E(y)??0??1x1??2x2????kxk,该式被称为多元回归方程。
回归方程中的参数?0,?1,…,?k是未知的,需要利用样本数据去估计它们。当用
?,…,??,??去估计回归方程中的未知参数?0,?1,…,?k时,就得到样本统计量?10k????x???x?????x。 ???了估计的多元回归方程y01122kk12.2 多元线性回归模型中有哪些基本假定?
答:(1)误差项?是一个期望值为0的随机变量,即E(?)?0。 (2)对于自变量x1,x2,…,xk的所有值,?的方差?都相同。
(3)误差项?是一个服从正态分布的随机变量,且相互独立,即?~N(0,?)。 12.3 解释多重判定系数和调整的多重判定系数的含义和作用。
答:多重判定系数R2是多元回归中的回归平方和占总平方和的比例,它是度量多元回归方程拟合程度的一个统计量,反映了在因变量的变差中被估计的回归方程所解释的比例。
为避免增加自变量而高估R2,统计学家提出用样本量n和自变量的个数k去调整R2,计算出调整的多重判定系数Ra?1?(1?R)(2222n?1),其意义与R2类似,表示在用样本
n?k?1量和模型中自变量的个数进行调整后,在因变量的变差中被估计的回归方程所解释的比例。
12.4 解释多重共线性的含义。
答:当回归模型中两个或两个以上的自变量彼此相关时,则称回归模型中存在多重共线性。
12.5 多重共线性对回归分析有哪些影响?
答:首先,变量之间高度相关时,可能会使回归的结果混乱,甚至会把分析引入歧途;其次,多重共线性可能对参数估计值的正负号产生影响,特别是?i的正负号有可能同预期的正负号相反。
12.6 多重共线性的判别方法主要有哪些? 答:(1)模型中各对自变量之间显著相关。
(2)当模型的线性关系检验(F检验)显著时,几乎所有回归系数?i的t检验却不
显著。
(3)回归系数的正负号与预期的相反。
(4)容忍度越小,也即方差扩大因子VIF越大,多重共线性越严重。通常容忍度小
于0.1,也即VIF大于10时,存在严重的多重共线性。
12.7 多重共线性的处理方法有哪些?
答:(1)将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关。 (2)如果要在模型中保留所有的自变量,那就应该:避免根据t统计量对单个参数
?进行检验;对因变量y值的推断(估计或预测)限定在自变量样本值的范围内。
12.8 在多元线性回归中,选择自变量的方法有哪些? 答:向前选择、向后剔除、逐步回归、最优子集等。 二、练习题
12.1
??25.028701?0.049714x1?1.928169x2yt(1.123440)(?0.469037)(1.309755)R2?0.210896F?0.9354102Ra??0.014562
n?10???0.049714表示,在x不变的条件下,x每增加1个单位,会使y平均减少?1120.049714个单位;
??1.928169表示,在x不变的条件下,x每增加1个单位,会使y平均增加?2121.928169个单位。
多重判定系数R和调整的多重判定系数Ra显示:该多元回归方程的拟合效果较差,在因变量y的变差中,能被估计的回归方程所解释的比例很少。
22F检验表明,y与x1、x2之间的线性关系不显著。
t检验表明,自变量x1、x2对因变量y的影响均不显著。
12.2
模型中涉及3个自变量,15个观测值。
??657.0534?5.710311x1?0.416917x2?3.471481x3yt(3.923655)(3.186849)(?1.293998)(?2.405847)R?0.709650F?8.96175922R?0.630463n?1522a
多重判定系数R和调整的多重判定系数Ra显示:该多元回归方程的拟合效果较好,在用样本量和模型中自变量的个数进行调整后,在因变量y的变差中,能被估计的回归方程所解释的比例为63.0463%。
F检验表明,y与x1、x2、x3之间的线性关系显著。
t检验表明,自变量x1、x3对因变量y的影响均显著,但x2对因变量y的影响不显著。12.3 (1)F?SSR/k6216.375/2??42.85044?F0.05(2,7)?4.737
SSE/(n?k?1)(6724.125?6216.375)/(10?2?1)故y与x1、x2、之间的线性关系显著。
(2)t1???1s????2s??21?2.01?24.723?t0.025(7)?2.3646,故?1显著。
0.08134.74?83.598?t0.025(7)?2.3646,故?2显著。
0.0567(3)t2??12.4 (1)
??88.637681?1.603865x1yt(56.015876)(3.356905)R2?0.652553F?11.268811(2)
2Ra?0.594645
n?8??83.230092?2.290184x1?1.300989x2yt(52.882479)(7.531899)(4.056697)R?0.919036F?28.377768值大小不同。其中,
2R?0.886650n?82a
(3)上述(1)和(2)所建立的估计的回归方程,电视广告费用的系数符号相同但数
??1.603865表示,电视广告费用x每增加1万元,会使月销售收入y平均(1)中?11增加1.603865万元;
??2.290184表示,在报纸广告费用x不变的条件下,电视广告费用x每增(2)中?112加1万元,会使月销售收入y平均增加2.290184万元。
(4)根据问题(2)所建立的估计的回归方程,在月销售收入的总变差中,被估计的回归方程所解释的比例是88.6650%。
(5)根据问题(2)所建立的估计的回归方程,
t1?7.531899?t0.025(5)?2.5706,故?1显著。 t2?4.056697?t0.025(5)?2.5706,故?2显著。
12.5 (1)
???0.590996?22.386461x1?327.671713x2yt(?0.001170)(2.331791)(3.316585)R2?0.991321F?228.4444622Ra?0.986982
n?7??22.386461表示,春季降雨量x每增加1mm,会使早稻收获量y平均增加(2)?1122.386461kg/hm;
2