《使用回归分析》部分课后习题答案
第一章 回归分析概述
1.1 变量间统计关系和函数关系的区别是什么? 答:变量间的统计关系是指变量间具有密切关联而又不能由某一个或某一些变量唯一确定另外一个变量的关系,而变量间的函数关系是指由一个变量唯一确定另外一个变量的确定关系。
1.2 回归分析和相关分析的联系和区别是什么?
答:联系有回归分析和相关分析都是研究变量间关系的统计学课题。区别有a.在回归分析中,变量y称为因变量,处在被解释的特殊地位。在相关分析中,变量x和变量y处于平等的地位,即研究变量y和变量x的密切程度和研究变量x和变量y的密切程度是一回事。b.相关分析中所涉及的变量y和变量x全是随机变量。而在回归分析中,因变量y是随机变量,自变量x可以是随机变量也可以是非随机的确定变量。C.相关分析的研究主要是为了刻画两类变量间线性相关的密切程度。而回归分析不仅可以揭示变量x对变量y的影响大小,还可以由回归方程进行预测和控制。
1.3 回归模型中随机误差项ε的意义是什么?
答:ε为随机误差项,正是由于随机误差项的引入,才将变量间的关系描述为一个随机方程,使得我们可以借助随机数学方法研究y和x1,x2…..xp的关系,由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。
1.4 线性回归模型的基本假设是什么?
答:线性回归模型的基本假设有:1.解释变量x1.x2….xp是非随机的,观测值
xi1.xi2…..xip是常数。2.等方差及不相关的假定条件为{E(εi)=0 i=1,2…. Cov(εi,εj)={σ^2
3.正态分布的假定条件为相互独立。4.样本容量的个数要多于解释变量的个数,即n>p.
1.5 回归变量的设置理论根据是什么?在回归变量设置时应注意哪些问题? 答:理论判断某个变量应该作为解释变量,即便是不显著的,如果理论上无法判断那么可以采用统计方法来判断,解释变量和被解释变量存在统计关系。应注意的问题有:在选择变量时要注意和一些专门领域的专家合作,不要认为一个回归模型所涉及的变量越多越好,回归变量的确定工作并不能一次完成,需要反复试算,最终找出最合适的一些变量。 1.6 收集,整理数据包括哪些内容?
答;常用的样本数据分为时间序列数据和横截面数据,因而数据收集的方法主要有按时间顺序统计数据和在同一时间截面上统计数据,在数据的收集中,样本容量的多少一般要和设置的解释变量数目相配套。而数据的整理不仅要把一些变量数据进行折算差分甚至把数据对数化,标准化等有时还需注意剔除个别特别大或特别小的“野值”。
1.7 构造回归理论模型的基本依据是什么? 答:选择模型的数学形式的主要依据是经济行为理论,根据变量的样本数据作出解释变量和被解释变量之间关系的散点图,并将由散点图显示的变量间的函数关
系作为理论模型的数学形式。对同一问题我们可以采用不同的形式进行计算机模拟,对不同的模拟结果,选择较好的一个作为理论模型。 1.8 为什么要对回归模型进行检验? 答:我们建立回归模型的目的是为了使用它来研究经济问题,但如果马上就用这个模型去预测,控制,分析,显然是不够慎重的,所以我们必须通过检验才能确定这个模型是否真正揭示了被解释变量和解释变量之间的关系。 1.9 回归模型有那几个方面的使用?
答:回归模型的使用方面主要有:经济变量的因素分析和进行经济预测。 1.10 为什么强调运用回归分析研究经济问题要定性分析和定量分析相结合? 答:在回归模型的运用中,我们还强调定性分析和定量分析相结合。这是因为数理统计方法只是从事物外在的数量表面上去研究问题,不涉及事物质的规定性,单纯的表面上的数量关系是否反映事物的本质?这本质究竟如何?必须依靠专门的学科研究才能下定论,所以,在经济问题的研究中,我们不能仅凭样本数据估计的结果就不加分析地说长道短,必须把参数估计的结果和具体经济问题以及现实情况紧密结合,这样才能保证回归模型在经济问题研究中的正确使用。
第二章 一元线性回归
2.14 解答:(1)散点图为:
(2)x和y之间大致呈线性关系。 (3)设回归方程为y??0??1x
???? ?1=
?xy?nxyiin???xi?1i?1n2i?n(x)2??7
????0?y??1x?20?7?3??1
?可得回归方程为y??1?7x
?1n(4)??(yi?yi) ?n-2i=1??1n ??(yi?(?0??1x))
n-2i=1222?10-(-1+7?1))??(10-(-1+7?2))?(20-(-1+7?3))1( =?? 223??(20-(-1+7?4))?(40-(-1+7?5))???2221?16?9?0?49?36?
3?110/3?1 ?? 1330?6.3?(5)由于?1??N(?1,?2Lxx?)
t??1??1?/Lxx2?(?1??)Lxx??
服从自由度为n-2的t分布。因而
???(???)L1xxP?||?t?/2(n?2)??1?? ??????也即:p(?1?t?/2???Lxx???1??1?t?/2??Lxx?)=1??
11 33,7+2.353?33)33可得?1的置信度为95%的置信区间为(7-2.353?即为:(2.49,11.5)
?0?1(x)22N(?0,(?)?)
nLxx?t??0??01(x)2?2(?)?nLxx????0??0???1(x)2?nLxx?
服从自由度为n-2的t分布。因而
????????0??0P?||?t?/2(n?2)??1??
???1(x)2?????nLxx????即p(?0?????1(x)?t?/2??0??0??nLxx???21(x)2?t?/2)?1?? nLxx?可得?1的置信度为95%的置信区间为(?7.77,5.77)
(6)x和y的决定系数r?2?(y?y)ii?1n?ii?1n??2?490/600?0.817
2?(y?y)(7) ANOVA x 组间 (组合) 线性项 加权的 偏差 组内 总数 平方和 9.000 8.167 .833 1.000 10.000 df 2 1 1 2 4 均方 4.500 8.167 .833 .500 F 9.000 16.333 1.667 显著性 .100 .056 .326 由于F?F?(1,3),拒绝H0,说明回归方程显著,x和y有显著的线性关系。
(8)t??1?/Lxx?2???1Lxx????1n21n 其中??ei?(yi?yi) ??n?2i?1n?2i?1?22 ?7?1021??3.6 61333303t?/2?2.353 t?3.66?t?/2
?接受原假设H0:?1?0,认为?1显著不为0,因变量y对自变量x的一元线性回归成立。
n??(9)相关系数 r??(x?x)(y?y)iii?1?(x?x)?(y?y)2iii?1i?1n?n??LxyLxxLyy
=707??0.904
10?60060r小于表中??1%的相应值同时大于表中??5%的相应值,?x和y有显著的线性关系.
(10) 序号 1 2 3 4 5 残差图为: x 1 2 3 4 5 y 10 10 20 20 40 y ?e 4 -3 0 -7 6 6 13 20 27 34 从图上看,残差是围绕e=0随机波动,从而模型的基本假定是满足的。
置信度为95%的置信区间 (11)当广告费x0=4.2万元时,销售收入y0?28.4万元,近似为y?2?,即(17.1,39.7)
2.15 解答:
(1) 散点图为:
??