. . . .
第1章 受限因变量模型
这一章讨论响应变量仅仅被部分观测到的情况。引入被部分观测到的潜在随机变量y*,y*的实际观测变量为yi。引入二元指示变量Di,如果ai< y* ?ai,????如果yi*?ai?yi??yi*,????如果ai?yi*?bi。 (1) ?*b,????如果y?biii?如果只有当Di = 1时实际观测变量yi才有观测数据,即:当Di = 1时,潜在变量与实际观测变量相等,而当Di = 0时,yi没有观测值,这时称数据被截断(truncated),即小于ai的数据和大于ai的数据被截断了。因此截断数据与归并数据的区别在于,对于观测区间外的数据,归并数据将将其都归并为一点,而截断数据没有观测值。 将潜在随机变量y*的基本模型设定为: yi*??i??vi。 (2) 其中?i为位置参数,?为刻度参数;vi为独立于xi的连续随机扰动项,均值为0,方差为1,其分布函数、密度函数分别为F、f 。在这些假定条件下,yi*的均值为?i,方差为?2,分布函数为F(。ai < yi* < bi等价于ci?)/?(证明请参见附录1) yi*??i?), 概率密度函数为f(yi*??iai??i???vi?bi??i??di, 那么yi*被观测到的概率为: Pr(ai?yi*?bi)?Pr(Di?1)?F(di)?F(ci) (3) 下面对截断数据模型和归并数据模型分别进行介绍 1.1 截断数据模型 如果样本数据是从总体的一部分抽取得到,我们把这类数据称为截断数据。比如,研究高收入阶层(月收入x ? 10000)的消费与收入的关系,所采集的数据只是位于收入总体分布的一个区间里。假设所有居民的收入服从正态分布,那么高收入阶层的收入只是在x ? 10000的区间里观测得到的。下面介绍截断数据的分布特征和模型估计。 ... . ... . . . . . 1.1.1 截断数据的分布特征 如前面所述,截断数据只包括Di = 1情况下的数据。截断分布是指变量高于(低于)某个设定值的未截断部分的分布。如果变量只有在高于某一门限值a时才被观测到(x > a),称之为从下面截断(truncation from below)或者是从左边截断(truncation from left);如果变量只有在低于某一门限值b时才被观测到(x < b),称之为从上面截断(truncation from above)或者是从右边截断(truncation from right)。如图所示。 .5.5.4.4.3.3.2.2.1.1.0-4-3-2-101234.0 -4-3-2-101234 图一 截断分布图(上面截断(左图)、下面截断(右图)) 下面分析截断数据的分布函数、密度函数、均值和方差。 1. 截断变量的分布函数和密度函数 给定模型(1)及相应的观测概率(2),那么第i个观测变量yi的条件分布函数为(证明请参见附录2): ?0,???????????????????????????????????????????如果yi*?ai??F?(yi??i)/???F?ci?Fy(yi)??,????如果ai?yi*?bi (4) F?di??F?ci???1,???????????????????????????????????????????如果y*?bii?(注:此处及后面的ai,bi,ci,di的定义均与前面相同) 密度函数为: ?1f?(yi??i)/??,????如果ai?yi*?bi? (5) fy(yi)???F?di??F?ci??0,????????????????????????????????其他?从截断数据的密度函数(4)式我们可以推出从下面截断或从上面截断的各种不同分布的变量的密度函数。读者可以参阅下面介绍的几个例子。 例1 截断均匀分布的密度函数和分布函数 如果x*在区间[a,b]上服从均匀分布(uniform distribution),那么 f(x)?1,b?aF(x)?x?a???(a?x?b), (6) b?a如果在x*= c处截断,即实际观测值x= x*,如果x*? c;x= c,如果x*< c。 这是左截断的例子,即右截断点=b。根据(5)式,在x = c处截断的随机变量x的截断分布的密 ... . ... . . . . . 度函数为: f(x*)f(x*)1/(b?a)1f(x)???? (7) P(Di?1)F(b)?F(c)1?(c?a)/(b?a)b?c分布函数为: F(x)?F(x)?F(c)(x?a)/(b?a)?(c?a)/(b?a)x?c (8) ??Pr(Di?1)1?(c?a)/(b?a)b?c例2 截断正态分布的密度函数 模型设定为: yi*??i??vi, yi = yi*,如果ai?yi*?bi (9) yi = ai,如果yi*?ai yi = bi,如果yi*?bi 其中vi ~N(0, 1)。即 yi* ~N(?i, ?2),其中?i、?分布表示yi的均值和标准差。以?、?分别表示标准正态分布密度函数和分布函数。那么: Pr(ai?yi?bi)?Pr(ai??i???b??ia??i????????????????????????(i)??(i)???????????????????????????(di)??(ci)?yi??i?bi??i) (10) 其中,di?bi??i?,??ci?ai??i???。 根据截断正态分布的密度函数公式: ?1f?(yi??i)/??,????如果ai?yi*?bi? fy(yi)???F?di??F?ci??0,????????????????????????????????其他?可直接得到ai?yi*?bi时yi的密度函数: 1fy(yi)???(yi??i?)?(di)??(ci)yi??i??()?1????????if???a??? (11) ?i???(di)??????????????y??i??(i)?1????????if???b????i??1??(c)i?根据截断正态分布的分布函数公式: ... . ... . . . . . ?0,???????????????????????????????????????????如果yi*?ai??F?(yi??i)/???F?ci?Fy(yi)??,????如果ai?yi*?bi F?di??F?ci???1,???????????????????????????????????????????如果y*?bii?可直接得到ai?yi*?bi时yi的分布函数: ?(Fy(yi)?yi??i?)??(ai)?(?yi??i?)??(ci)?(di)??(ci)?(di)??(ci)?yi??i??(?) (12) ?????????????????????if???a????i??(di)???????????????y??i??(i)??(ci)???????????if???bi????1??(ci)? 图二 截断正态分布变量的累积分布函数图 (设潜变量y*~N(0, 1),图中虚线表示标准正态分布函数,实线表示截断正态分布函数,截断点为-1、1) 2. 截断变量的均值和方差 截断随机变量的均值和方差称之为截断均值(truncated mean)和截断方差(truncated variance),由下面的(5)、(6)式可以推出各种不同截断分布的均值和方差。给定模型(9), yi的均值为: E[yi]??i???i (13) 其中,?i?E[vi|ci?vi?di]??vcidif(v)dv F(di)?F(ci)yi的方差为: Var[yi|Di?1]??2Var[vi|ci?vi?di] (14) 其中,Var[vi|ci?vi?di]??v2cidif(v)dv??i2。 F(di)?F(ci)(证明请参见附录3)。 例3:均匀分布的截断均值和截断方差 给定模型(6),截断变量x的均值和方差分别为: ... . ... . . . . . bbE(x)??xf(x|x?c)dx??xccbc11dx?(b?c)b?c2 (15) Var(x)??[x?E(x|x?c)]2f(x|x?c)dx11?????????????[x?(b?c)]2dxc2b?c1????????????[b2?c2?(c?a)(b?c)2]2b例4:正态分布的截断均值和截断方差 给定模型(9),那么yi的均值和方差分别为: E[yi]??i???i (16) 其中,?i?E[vi|ci?vi?di]??yi的方差为: ?(di)??(ci)?(di)??(ci) Var[yi|Di?1]??2Var[vi|ci?vi?di] (17) 其中,Var[vi|ci?vi?di]?1?di?(di)?ci?(ci)?(di)??(ci)2?[]。 ?(di)??(ci)?(di)??(ci)其中,?、?分别表示正态分布的密度函数和分布函数。 (1) 如果ci ?-?,即数据只是在右边截断,这时?( ci) = 0、?( ci) = 0,因此: ?i?E[vi|vi?di]???(di)?(di)??(di)<0 (17a) Var[vi|vi?di]?1?di?(di)-?(di)2 (17b) (2) 如果di ?+?,即数据只是在左边截断,这时?( di) = 0、?( di) = 1,因此: ?i?E[vi|vi?ci]??(ci)1??(ci)??(ci)>0 (18a) Var[vi|vi?ci]?1?ci?(ci)-?(ci)2 (18b) (17a)式中?(di)=-?(di)?(di)称之为Inverse Mills Ratio,将(18a)式中?(ci)=?(ci)1??(ci)称之为风险 函数(Hazard Function)。 结论1 E(y|y?b)?E(y)?E(y|y?a)。即,如果变量为从上面截断,则截断变量的均值小于初始 变量的均值;如果变量为从下面截断,则截断变量的均值大于初始变量的均值。 结论2 截断变量的方差低于初始变量的方差。 ... . ... .