浙江工商大学金融学院姚耀军讲义系列
第六讲 多重共线
一、 FWL定理及其应用
考虑模型:
yi?a?b1x1i?b2x2i?b3x3i??i (1)
假如我们只关注
第1步:把
?b1,则通过如下步骤可以获得之。
,即有: x1对其他解释变量进行回归(请注意,截距所对应的解释变量为1)
????x???x?vx1i???i (2)
012i23i第2步:把
y也对(2)中的解释变量进行回归,即有:
?0???1x2i???2x3i?wyi???i (3)
w?对v?进行回归(不含截距,当然你可以包含截距,但你会发现,截距
的估计结果是零,这是因为w,即有模型: ?与v?其均值都为零)
第3步:把
w?i?ei (4) ?i??vw?iv?i??,且残差e??则有:?,可以验证,??b?i等于初始的残差??i。此?12v??i即著名的FWL定理(Frisch-Waugh-Lovell theorem)。关于FWL定理的一个简单证明见附录1。思考题:
利用关于“偏导数”的直觉,你能够理解
?吗? ??b?1w?iv?i????0???1x2i???2x3i代入,现在分子考察?,把w?i?yi??2v??i是:
?0???1x2i???2x3i)v?i?iv?i??(yi???w?0?v?1?v?2?v?ix2i???i????yiv?i???ix3i
1
浙江工商大学金融学院姚耀军讲义系列
应该注意到,在进行第一步回归时,OLS法保证了
?ix2i??v?i??v?ix3i?0 ?vw?iv?i?yiv?i?因此,? ???22vv???i?i显然,如果把
y对v?直接进行无截距回归:
y??*v???ii我们也可以得到:
i (5)
?*?yivwiv?i?i?????????b1。
22?i?i?v?v因此,如果只关注如何获得直接进行无截距回归。
思考题:
?,我们可以把FWL定理中第二步与第三步合并为把yb1对
v???与e?i相等吗?提示:
i??i?yi???v?i注意到,
?ve?i?w?i ?i??2是(2)中的残差平方和,对(2)v,有: ??i2?2?2(x?x)(x?x)v?????i1i11i1?TSS?ESS?RSS
2
浙江工商大学金融学院姚耀军讲义系列
2?2?2v(x?x)(x?x)???i??1i11i1?[?(x?x)2](1?1i11i12(x?x)??2(x?x)?1i1(2)1i1)
?[?(x?x)2](1?R2)其中
R2(2)是根据(2)计算的决定系数。
?????因此,b1
练习: 对
?i?yiv[?(x1i?x1)2](1?2)R(2)。
yi?a?b1x1i?b2x2i??i进行OLS估计,利用前述知识证明:
Cov(y,x)?rrVar(y)?b1?Var(x)(1?r)1x1x21yx22x1x2Var(x1)
在这里,
rx1x2、ryx分别是x2与x1、y的样本相关系数。
2 笔记:
??在上述练习题中,当rxx?0时,则b112Cov(y,x)。现在考虑另外一个
Var(x)1111回归模型:
Var(x)总结:尽管y?a?bx?bx??与y??0??x?e是不同的
iiii1i11i22i1yi??0??1x?ei,在OLS法下,有:??1?Cov(y,x)。
1i?模型,但当x2与x1样本不相关时,在OLS法下,?1
?。 ?b1 3
浙江工商大学金融学院姚耀军讲义系列
?的方差是多少呢? b1??2b1?i?iyiv(a?b1x1i?b2x2i?b3x3i??i)v???Var()?Var()22?i?i?v?v
?i??b1x1iv?i??b2x2iv?i??b3x3iv?i???iv?iav??Var()2?i?v OLS法保证了
?i??x3iv?i??x2iv?i?0,因此 ?v??2b1?i???iv?ib1x1iv??Var()
2?i?v由于我们假定x是非随机的,进而v?i也是非随机的,因此在?i是同方差且序列无关的假
1i定下,有:
?2??b1其中
?22v??i??22)[?(x1i?x1)2](1?R(2)
?2???2。
i在上式中,
11?R2通常被称为方差膨胀因子(VIF),而
1?R2(2)被称为容忍
(2)度(Tolerence)。另外,由于
1N2为x的样本方差Var(x),因此,
(x?x) ?1i1112/N?2 ? (6) ?2)?Var(x)(1?Rb(2)11就上述例子,根据(6)式,初步的总结是,(1)随着样本容量的增加而减少; (2)随着
?))?的方差(或者标准差sd(b: b11x1样本方差的增加而减少;
(3)随着
R2(2)增加而增加; (4)随着误差项方差的增加而增加;
4
浙江工商大学金融学院姚耀军讲义系列
笔记:
样本容量越大则信息越多,x样本方差越大意味着样本覆盖面广,故信息越
1多。信息越多将提高估计精度。R2越大表示解释变量所蕴含信息的重叠度高,
(2)因此有效信息较少,故降低估计精度。误差项方差大意味着估计时所面临的不确定性程度高,因此估计精度下降。
?的标准误为: ?2一般是未知的,需要估计。b1?)?se(b1??22)[?(x1i?x1)2](1?R(2) 2e??2???i。因此, 其中?N?4N?42???i?)?se(b1考虑初始模型(1),显然有:
2/N(N?4)???i2)Var(x)(1?R(2)
2?[(y?y)2](1?R2)?NVar(y)(1?R2)
???i?i因此,有:
?)? se(b1Var(y)1?R2?Var(x)1?R2?(2)1N?4 (7)
特别要注意,
?)是随机的(在(7)式中,R2是随机的,其随机性来源于y的随se(b1机性)。既然
?)是随机的,那么我们再也不能像对(6)式那样总结了!然而在大样
se(b1本下,由于标准误在概率上收敛于标准差,故此时有关标准差的一些结论可以应用于标准误。
5