第八章 虚拟变量模型
1. 回归模型中引入虚拟变量的作用是什么
答: 在模型中引入虚拟变量,主要是为了寻找某(些)定性因素对解释变量的影响。加法方式与乘法方式是最主要的引入方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
2. 虚拟变量有哪几种基本的引入方式 它们各适用于什么情况 答: 在模型中引入虚拟变量的主要方式有加法方式与乘法方式,前者主要适用于定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。
3.什么是虚拟变量陷阱
答:根据虚拟变量的设置原则,一般情况下,如果定性变量有m个类别,则需在模型中引入m-1个变量。如果引入了m个变量,就会导致模型解释变量出现完全的共线性问题,从而导致模型无法估计。这种由于引入虚拟变量个数与类别个数相等导致的模型无法估计的问题,称为“虚拟变量陷阱”。
4.在一项对北京某大学学生月消费支出的研究中,认为学生的消费支出除受其家庭的每月收入水平外,还受在学校中是否得到奖学金,来自农村还是城市,是经济发达地区还是欠发达地区,以及性别等因素的影响。试设定适当的模型,并导出如下情形下学生消费支出的平均水平:
(1) 来自欠发达农村地区的女生,未得到奖学金; (2) 来自欠发达城市地区的男生,得到奖学金; (3) 来自发达地区的农村女生,得到奖学金;
(4) 来自发达地区的城市男生,未得到奖学金。
解答: 记学生月消费支出为Y,其家庭月收入水平为X,则在不考虑其他因素的影响时,有如下基本回归模型:
Yi=β0+β1Xi+μi
其他定性因素可用如下虚拟变量表示: 1 有奖学金 1 来自城市
D1= D2= 0 无奖学金 0 来自农村 1 来自发达地区 1 男性
D3= D4= 0 来自欠发达地区 0 女性
则引入各虚拟变量后的回归模型如下:
Yi=β0+β1Xi+
?1D1i+
?2D2i+
?3D3i+
?4D4i+μi
由此回归模型,可得如下各种情形下学生的平均消费支出:
(1) 来自欠发达农村地区的女生,未得到奖学金时的月消费支出:
E(Yi|= Xi, D1i=D2i=D3i=D4i=0)=β0+β1Xi
(2) 来自欠发达城市地区的男生,得到奖学金时的月消费支出:
E(Yi|= Xi, D1i=D4i=1,D2i=D3i=0)=(β0+
?+?14)+β1Xi
(3) 来自发达地区的农村女生,得到奖学金时的月消费支出:
E(Yi|= Xi, D1i=D3i=1,D2i=D4i=0)=(β0+
?+?123)+β1Xi
(4) 来自发达地区的城市男生,未得到奖学金时的月消费支出:
E(Yi|= Xi,D2i=D3i=D4i=1, D1i=0)= (β0+
?+?+?34)+β1Xi
5. 研究进口消费品的数量Y与国民收入X的模型关系时,由数据散点图显示1979年前后Y对X的回归关系明显不同,进口消费函数发生了结构性变化:基本消费部分下降了,而边际消费倾向变大了。
(1) 试向模型中加入适当的变量反映经济体制变迁的影响。 (2) 写出模型的设定形式。
答:(1) 在经济发展发生转折时期,可以通过引入虚拟变量方法来表示这种变化。设虚拟变量为:
1 1979年以前 D1979= 0 1979年以后 (2) 模型设定为:
Yt=β0+β1Xt+β2D1979+β3D1979 Xt +μt 6.根据美国1961年第一季度至1977年第二季度的季度数据,我们得到了如下的咖啡需求函数的回归方程:
?t=P? lnQ R2=
其中:Q—人均咖啡消费量;P—咖啡的价格(以1967年价格为不变价格);I—人均收入;P?—茶叶的价格(以1967年价格为不变价格);T—时间趋势变量(1961年第一季度为1,……,1977年第二季度为66);
1 第一季度 1 第二季度 1 第三季度
D1t= 0 其他 D 2t = 0 其他 D 3t = 0 其他
= = = 试回答下列问题:
(1) 模型中P、I和P?系数的经济含义是什么 (2) 咖啡的价格需求是否很有弹性 (3) 咖啡和茶是互补品还是替代品 (4) 如何解释时间变量T的系数 (5) 如何解释模型中虚拟变量的作用 (6) 哪一个虚拟变量在统计上是显着的 (7) 咖啡的需求是否存在季节效应
解答:(1) 从回归模型来看,P的系数表示当咖啡的价格增加1%时,咖啡的需求量减少%,是咖啡需求的价格弹性系数;I的系数表示的是咖啡需求量对收入的弹性,即当收入增加1%时,咖啡需求量将增加%;P?的系数表示的是咖啡需求量对茶叶的交叉价格弹性系数,即当茶叶的价格增加1%时,咖啡需求量将增加%。
(2) 咖啡需求的价格弹性为小于l,属于缺乏弹性。 (3) 由于交叉价格弹性为正,表明两者是替代品。 (4) 时间T的系数, 表示咖啡的需求量在逐年递减。
(5) 虚拟变量的引入反映了季节因素对咖啡需求量的影响。
(6) 在5%的显着性水平下,t统计量的临界值为(70-8)=,D1与D2系数的t统计量绝对值大于临界值,在统计上是显着的。
(7) 咖啡需求量存在季节效应,第一阶段和第二季度的销售量要少于其他季度。 7.一个由容量为209的样本估计的解释CEO薪水的方程为:
ln(sal?ary)=+(sales)+++
其中,salary表示年薪水(万元)、sales表示年收入(万元)、roe表示公司股票收益(万元);finance、consprod和utility均为虚拟变量,分别表示金融业、消费品工业和公用事业,对比产业为交通运输业。
(1) 解释三个虚拟变量参数的经济含义;
(2) 保持sales和roe不变,计算公用事业和交通运输业之间估计薪水的近似百分比差 异。这个差异在1%的显着水平上是统计显着的吗
(3) 消费品工业和金融业之间估计薪水的近似百分比差异是多少 写出一个使你能直接检验这个差异在统计上是否显着的方程。
解答:(1) finance的参数的经济含义为:当销售收入与公司股票收益保持不变时,金融业的CEO要比交通运输业的CEO多获薪水个百分点。其他两个可类似解释。
(2) 公用事业和交通运输业之间估计薪水的近似百分比差异就是以百分数解释utility的参数,即为%。由于参数的t统计值为,它大于1%显着性水平下自由度为203的t分布的临界值,因此这种差异是统计上显着的。
(3) 由于消费品工业和金融业相对于交通运输业的薪水百分比差异分别为%与%,因此它们间的差异为%%=%。一个能直接检验这一差异是否显着的方程为
ln(salary)= β0+β11n(salse)+β2 roe +β3+
?1consprod+
?2utilty+
?3trans+μ
其中,trans为交通运输业虚拟变量。这里对比基准为金融业,因此工业与金融业薪水的百分数差异,其t统计值可用来进行显着性检验。
?1表示了消费品