第三章、经典单方程计量经济学模型:多元线性回归模型
一、内容提要
本章将一元回归模型拓展到了多元回归模型,其基本的建模思想与建模方法与一元的情形相同。主要内容仍然包括模型的基本假定、模型的估计、模型的检验以及模型在预测方面的应用等方面。只不过为了多元建模的需要,在基本假设方面以及检验方面有所扩充。
本章仍重点介绍了多元线性回归模型的基本假设、估计方法以及检验程序。与一元回归分析相比,多元回归分析的基本假设中引入了多个解释变量间不存在(完全)多重共线性这一假设;在检验部分,一方面引入了修正的可决系数,另一方面引入了对多个解释变量是否对被解释变量有显著线性影响关系的联合性F检验,并讨论了F检验与拟合优度检验的内在联系。
本章的另一个重点是将线性回归模型拓展到非线性回归模型,主要学习非线性模型如何转化为线性回归模型的常见类型与方法。这里需要注意各回归参数的具体经济含义。
本章第三个学习重点是关于模型的约束性检验问题,包括参数的线性约束与非线性约束检验。参数的线性约束检验包括对参数线性约束的检验、对模型增加或减少解释变量的检验以及参数的稳定性检验三方面的内容,其中参数稳定性检验又包括邹氏参数稳定性检验与邹氏预测检验两种类型的检验。检验都是以F检验为主要检验工具,以受约束模型与无约束模型是否有显著差异为检验基点。参数的非线性约束检验主要包括最大似然比检验、沃尔德检验与拉格朗日乘数检验。它们仍以估计无约束模型与受约束模型为基础,但以最大似然
2?原理进行估计,且都适用于大样本情形,都以约束条件个数为自由度的分布为检验统计
量的分布特征。非线性约束检验中的拉格朗日乘数检验在后面的章节中多次使用。
二、典型例题分析
例1.某地区通过一个样本容量为722的调查数据得到劳动力受教育的一个回归方程为
edu?10.36?0.094sibs?0.131medu?0.210fedu
R2=0.214
式中,edu为劳动力受教育年数,sibs为该劳动力家庭中兄弟姐妹的个数,medu与fedu分别为母亲与父亲受到教育的年数。问
(1)sibs是否具有预期的影响?为什么?若medu与fedu保持不变,为了使预测的受教育水平减少一年,需要sibs增加多少?
(2)请对medu的系数给予适当的解释。
(3)如果两个劳动力都没有兄弟姐妹,但其中一个的父母受教育的年数为12年,另一个的父母受教育的年数为16年,则两人受教育的年数预期相差多少? 解答:
(1)预期sibs对劳动者受教育的年数有影响。因此在收入及支出预算约束一定的条件下,子女越多的家庭,每个孩子接受教育的时间会越短。
根据多元回归模型偏回归系数的含义,sibs前的参数估计值-0.094表明,在其他条件不变的情况下,每增加1个兄弟姐妹,受教育年数会减少0.094年,因此,要减少1年受教育的时间,兄弟姐妹需增加1/0.094=10.6个。
(2)medu的系数表示当兄弟姐妹数与父亲受教育的年数保持不变时,母亲每增加1
年受教育的机会,其子女作为劳动者就会预期增加0.131年的教育机会。
(3)首先计算两人受教育的年数分别为 10.36+0.131?12+0.210?12=14.452 10.36+0.131?16+0.210?16=15.816
因此,两人的受教育年限的差别为15.816-14.452=1.364
例2.以企业研发支出(R&D)占销售额的比重为被解释变量(Y),以企业销售额(X1)与利润占销售额的比重(X2)为解释变量,一个有32容量的样本企业的估计结果如下:
Y?0.472?0.32log(X1)?0.05X2(1.37)(0.22)(0.046)
R2?0.099其中括号中为系数估计值的标准差。
(1)解释log(X1)的系数。如果X1增加10%,估计Y会变化多少个百分点?这在经济上是一个很大的影响吗?
(2)针对R&D强度随销售额的增加而提高这一备择假设,检验它不随X1而变化的假设。分别在5%和10%的显著性水平上进行这个检验。
(3)利润占销售额的比重X2对R&D强度Y是否在统计上有显著的影响? 解答:
(1)log(x1)的系数表明在其他条件不变时,log(x1)变化1个单位,Y变化的单位数,即?Y=0.32?log(X1)?0.32(?X1/X1)=0.32?100%,换言之,当企业销售X1增长100%时,企业研发支出占销售额的比重Y会增加0.32个百分点。由此,如果X1增加10%,Y会增加0.032个百分点。这在经济上不是一个较大的影响。
(2)针对备择假设H1:?1?0,检验原假设H0:?1?0。易知计算的t统计量的值为t=0.32/0.22=1.468。在5%的显著性水平下,自由度为32-3=29的t 分布的临界值为1.699(单侧),计算的t值小于该临界值,所以不拒绝原假设。意味着R&D强度不随销售额的增加而变化。在10%的显著性水平下,t分布的临界值为1.311,计算的t 值小于该值,拒绝原假设,意味着R&D强度随销售额的增加而增加。
(3)对X2,参数估计值的t统计值为0.05/0.046=1.087,它比在10%的显著性水平下的临界值还小,因此可以认为它对Y在统计上没有显著的影响。
例3、假设要求你建立一个计量经济模型来说明在学校跑道上慢跑一英里或一英里以上的人数,以便决定是否修建第二条跑道以满足所有的锻炼者。你通过整个学年收集数据,得到两个可能的解释性方程:
??125.0?15.0X1?1.0X2?1.5X3 R?0.75 方程A:Y2??123.0?14.0X1?5.5X2?3.7X4 R?0.73 方程B:Y2其中:Y——某天慢跑者的人数 X1——该天降雨的英寸数 X2——该天日照的小时数
X3——该天的最高温度(按华氏温度) X4——第二天需交学期论文的班级数
请回答下列问题:(1)这两个方程你认为哪个更合理些,为什么?(2)为什么用相同的数据去估计相同变量的系数得到不同的符号?
答:方程B更合理些。原因是:方程B中的参数估计值的符号与现实更接近些,如与日照的小时数同向变化,天长则慢跑的人会多些;与第二天需交学期论文的班级数成反向变化,这一点在学校的跑道模型中是一个合理的解释变量。
⑵解释变量的系数表明该变量的单位变化在方程中其他解释变量不变的条件下对被解释变量的影响,在方程A和方程B中由于选择了不同的解释变量,如方程A选择的是“该天的最高温度”而方程B选择的是“第二天需交学期论文的班级数”,由此造成X2与这两个变量之间的关系不同,所以用相同的数据估计相同的变量得到不同的符号。 例4、.有如下生产函数:lnX?1.37?0.632lnK?0.452lnL
(0.257) (0.219)
R2?0.98 Cov(bK,bL)?0.055
其中括号内数值为参数标准差。请检验以下零假设: (1)产出量的资本弹性和劳动弹性是等同的; (2)存在不变规模收益,即????1 。
例5、假定以校园内食堂每天卖出的盒饭数量作为被解释变量,盒饭价格、气温、附近餐厅的盒饭价格、学校当日的学生数量(单位:千人)作为解释变量,进行回归分析;假设不管是否有假期,食堂都营业。不幸食堂内的计算机被一次病毒侵犯,所有的存储丢失,无法恢复,你不能说出独立变量分别代表着哪一项!下面是回归结果(括号内为标准差):
??10.6?28.4X?12.7X?0.61X?5.9XYi1i2i3i4i¨ (2.6) (6.3) (0.61) (5.9) 括号内表示t值; R?0.63 ,n?35。要求: (1)试判定每项结果对应着哪一个变量? (2)对你的判定结论做出说明。
2
答案并不唯一,猜测为:X1为学生数量,X2为附近餐厅的盒饭价格,X3为气温,X4为校园内食堂的盒饭价格;
⑵理由是被解释变量应与学生数量成正比,并且应该影响显著;与本食堂盒饭价格成反比,这与需求理论相吻合;与附近餐厅的盒饭价格成正比,因为彼此是替代品;与气温的变化关系不是十分显著,因为大多数学生不会因为气温升高不吃饭。 例5、考虑以下方程(括号内为估计标准差):
??8.562?0.364P?0.004P?2.560WUitt?1t (0.080) ,,,(0.072) (0.658) 2括号内为对应参数的估计标准差值 ;n?19 , R?0.873
其中:W——t年的每位雇员的工资和薪水
P——t年的物价水平 U——t年的失业率 要求:(1)对个人收入估计的斜率系数进行假设检验;(尽量在做本题之前不参考结果)
(2)讨论Pt?1在理论上的正确性,对本模型的正确性进行讨论;Pt?1是否应从方程中删除?为什么?
答:各参数的t值:
tpt?0.364/0.080?4.55,,tpt?1?0.004/0.072?0.056;,,tut??2.56/0.658??3.89在5%的显著性水平下,自由度为19-3-1=15的t分布临界值t0.025(15)?2.131,比较t值与临界值,可知Pt和Ut参数显著不为零,但是不能拒绝pt-1=0的假设,pt-1的影响不显著。
2)回归式表明影响工资水平的数要是当期物价水平,前期的物价水平pt-1对它的影响不大,而事业领域工资工资水平的反省变动也符合经济理论,故可以将pt-1从模型中删除。
三、教材部分习题
1.多元线性回归模型的基本假设有哪些?
2.在多元线性回归分析中,t检验和F检验有何不同?在一元线性回归分析中二者是否有等价作用?
答:在多元线性回归分析中,t检验长被用作检验回归方程中各个参数的显著性,而F检验则被用作检验整个回归关系(联合关系)的显著性。各个解释变量联合起来对解释变量有显著的线性关系,并不意味着每一个解释变量分别对被解释变量有显著的线性关系。在一元线性回归中,二者具有等佳作用,因为二者都是对共同假设——解释变量的参数为0——进行检验。
4.在一项大学生一学期平均成绩Y和每周在学习X1、睡觉X2、娱乐X3与其他活动X4所用的时间关系研究中,建立四元回归模型。如果这些活动所用的时间总和为一周的总小时数168.。问:1).“保持其他变量不变而改变其中一个变量”的说话有无意义?2).该模型是否违背基本假设?如何修改模型以使其更合理?
答:1).无意义。由于X1+X2+X3+X4=168其中一个变量变化时,至少有一个其他变量也得变化。2).四个变量之间存在完全共线性,违背了基本假设。可以去掉其中的一个变量,如去掉代表其他活动时间的X4。另外三个变量之间不存在明显的共线性问题,这时X1前的参系数就测度了当其他两个变量不变时,每周增加1小时的学习时间所带来的成绩的平均变化。
9.下表给出了三变量的模型的回归结果。
方差来源
平方和SS
自由度d.f
平方和的均值MSS
来自回归ESS 65965 —— —— 来自残差RSS —— —— —— 来自总离差TSS 66042 14 1).求样本容量n,残差平方和RSS,回归平方和ESS以及他们的自由度; 2)求拟合优度以调整的拟合优度;
3)检验假设:X2和X3对Y无影响。应采用什么假设检验?为什么? 4)根据以上信息,你能否确定X2和X3各自对Y的影响?
答:1)样本容量n=d.f+1=15, RSS=TSS-ESS=66042-65965=77, ESS的自由度d.f=n-k-1=15-3=12,RSS的d.f=k=2
2)拟合度R2=ESS/TSS=0.9988, 修正拟合度=1-(1-R2)(n-1)/(n-k-1)=1-0.0012*14/12=0.9986
3)应该采用联合假设检验,即F检验。才能判断X2和X3一起是否对Y有影响。 4)不能。二者X2、X3的变化解释了Y变化的99.8%。但未知回归模型X2、X3前的参数估计值。
10、在一项对某社区家庭对某种消费品的需求调查中。得到表中资料(略)
222R,R??1)估计回归方程的参数及随机扰动项的方差,并计算;
2)对方程进行F检验,对参数进行t检验,并构造参数95%的置信区间;
3)如果商品单价变为35原,则某一月搜如为20000元的家庭对其消费的支出的估计是多少?并构造该估计值95%的置信区间。 答:回归方程为
Y?626.5093?9.79057X1?0.028618X2括号内为对应参数的t值.
,
2(15.61195)(?3.061617)(4.902030)R?0.874281R2?0.90221822??随即扰动项的方差=Sum square resid/(n-k-1)=?ei(10?2?1)=2116.85/7=302.41
2)5%显著性水平下的F分布临界值F0.05(2,7)?4.74;方程F值=32.39>4.74,表明方程总体线性关系显著成立。5%显著性水平下的t分布临界值t0.025(8)?2.306;各个变量的(参数区间t值>2.306,表明常数项及X1、X2的总体参数值均显著不为零,变量影响显著。计算见公式,略)
3)Y的点预测值:将X1=35,X2=20000代入回归方程得Y=856.20(元)
Y均值的预测区间856.20?2.306*37.05,个值的预测区间856.20?2.306*40.93