精品文档
第15章 分位数回归模型
15.1 总体分位数和总体中位数 15.2 总体中位数的估计 15.3 分位数回归
15.4 分位数回归模型的估计 15.5 分位数回归模型的检验
15.6 分位数的计算与分位数回归的EViews操作 15.7 分位数回归的案例分析
以往介绍的回归模型实际上是研究被解释变量的条件期望。人们当然也关心解释变量与被解释变量分布的中位数,分位数呈何种关系。这就是分位数回归,它最早由Koenker和Bassett(1978)提出,是估计一组回归变量X与被解释变量Y的分位数之间线性关系的建模方法。
正如普通最小二乘OLS回归估计量的计算是基于最小化残差平方和一样,分位数回归估计量的计算也是基于一种非对称形式的绝对值残差最小化,其中,中位数回归运用的是最小绝对值离差估计(LAD,least absolute deviations estimator)。它和OLS主要区别在于回归系数的估计方法和其渐近分布的估计。在残差检验、回归系数检验、模型设定、预测等方面则基本相同。 分位数回归的优点是,(1)能够更加全面的描述被解释变量条件分布的全貌,而不是仅仅分析被解释变量的条件期望(均值),也可以分析解释变量如何影响被解释变量的中位数、分位数等。不同分位数下的回归系数估计量常常不同,即解释变量对不同水平被解释变量的影响不同。 另外,中位数回归的估计方法与最小二乘法相比,估计结果对离群值则表现的更加稳健,而且,分位数回归对误差项并不要求很强的假设条件,因此对于非正态分布而言,分位数回归系数估计量则更加稳健。
15.1 总体分位数和总体中位数
在介绍分位数回归之前先介绍分位数和中位数概念。
对于一个连续随机变量y,其总体第τ分位数是y(τ)的定义是:y小于等于y(τ)的概率是τ,即 τ = P( y ≤ y(τ)) = F(y(τ))
其中P(?)表示概率,F(y(τ)) 表示y的累积(概率)分布函数(cdf)。 比如y(0.25) = 3,则意味着y ≤ 3的概率是0.25。且有 y(τ) = F-1(y(τ))
即F(y(τ))的反函数是y(τ)。当τ=0.5时,y(τ) 是y的中位数。τ= 0.75时,y(τ) 是y的第3/4分位数,τ= 0.25时,y(τ) 是y的第1/4分位数。若y服从标准正态分布,y(0.5) = 0,y(0.95) =1.645,y(0.975) =1.960。
另外,如果随机变量y的分布是对称的,那么其均值与中位数是相同的。当其中位数小于均值时,分布是右偏的。反之,分布是左偏的。
对于回归模型,被解释变量yt对以X为条件的第τ分位数用函数y(τ)t?X表示,其含义是:以X为条件的yt小于等于y(τ)t?X的概率是τ。这里的概率是用yt对X的条件分布计算的。且有 y(τ)t?X = F-1(y(τ)t?X)
其中F(y(τ)t?X) 是yt在给定X条件下的累积概率分布函数(cdf)。则y(τ)t?X称作被解释变量yt对X的条件分位数函数。而F '(y(τ)t?X)= f (y(τ)t?X)则称作分位数概率密度函数。其中F'(y(τ)t?X)表示F(y(τ)t?X)精品文档
精品文档
对y(τ)t?X求导。
15.2 总体中位数的估计
在介绍分位数回归之前,先来看中位数的估计和中位数回归。下面以连续变量为例介绍定理15.1。
定理15.1
连续变量用y表示,其概率密度函数用f(y)表示,累计概率密度函数用F(y)表示,y的中位数用y(0.5)表示,则y与任一值?的离差绝对值的期望E(y??)以? = y(0.5) 时为最小。 证明: E(y??)=-?-?(y??)f(y)dy???(y??)f(y)dy ?-???? =-(y??)dF(y)???(y??)dF(y) (15.1) ?ab? 根据莱布尼兹公式,若F(?)?有F?(?)?f(y,?)dy,则有F?(?)??ab?f(y,?)dy。令f(y,?)?y-?,则???ab?(y-?)??dy?-,得 ?ady。运用于式(15.1)
???b
?E(yt??)???=-?-??(y??)f(y)dy????(y??)f(y)dy=
????-?dF(y)-??dF(y)
?? = F(?)-[1-?-?dF(y)]?F(?)-(1-F(?))?2F(?)-1
?E(yt??)?? 式(15.1)求极小的一阶条件是于中位数y(0.5)。 ? = y(0.5)
与定理15.1等价的表述是
= 0,即2F(?)-1=0,F(?)?0.5。这意味着?等
?y??以? = y
(0.5)(中位数)时为最小。因此,中位数回归估计
量可以通过最小绝对离差法(least absolute deviation, LAD)估计。其中X和?分别为(k?1)阶列向
量。
同理,对于线性回归模型yt = X ?? + ut,通过求
?(0.5)最小,估计?的中位数回归系?yt?X?β???(0.5)tX)?Xβ数估计量β(0.5)。 (0.5),从而得到yt的中位数回归估计量(y
15.3 分位数回归
?(?)t表示yt的分位数回归估计量,则对于以检查函数 Koenker和Bassett(1978)证明,若用y(check function)w?为权数,yt 对任意值?的加权离差绝对值和得最小值。其中
?(?)t时取?w?yt??只有在? =y?w?yt?? = ??(1??)(yt??)???(yt??) (15.2)
i:yi??t:yi??TT精品文档
精品文档
??(0, 1)。据此,分位数回归可以通过加权的最小绝对离差和法(weighted least absolute deviation,
WLAD)进行估计。
?的 根据式(15.2),对于线性回归模型yt = X ?? + ut, 求第?分位数回归方程系数的估计量β(?)
方法是求下式(目标函数)最小, Q???(?)t?0uT?(1??)u?(?)t???u?(?)t
?(?)t?0uTT ??t:yt?X??(?)?)??) (15.3) (yt?X?β(?)(?)??(1??)(yt?X?β???t:yt?X??(?)T?(?)t表示第?分位数回归方程对应的残差。??(0, 1)。第?分位数的回归方程表达式是 其中u? ?(?)t=X?β y(?)?称作分位数回归系数估计量,或最小绝对离差和估计量,估其中X,?都是k?1阶列向量。β(?)
计方法称作最小绝对离差和估计法。 当?=0.5时,式(15.3)变为 Q??t:yt?X??(0.5)??T?0.5(yt?X?β(0.5))?t:yt?X??(0.5)??T?0.5(yt?X?β(0.5))??(0.5) ?0.5yt?X?βt?1T???(0.5)t=X?βy(0.5)称作中位数回归方程,β(0.5)称作中位数回归系数估计量。
?(?)t。 一旦得到估计的分位数回归方程,就可以计算分位数回归的残差u? ?(?)t?yt?y?(?)t?yt-X?β u(?) 对一个样本,估计的分位数回归式越多,对被解释变量yt条件分布的理解就越充分。以一元
回归为例,如果用LAD法估计的中位数回归直线与用OLS法估计的均值回归直线有显著差别,则表明被解释变量yt的分布是非对称的。如果散点图上侧分位数回归直线之间与下侧分位数回归直线之间相比,相互比较接近,则说明被解释变量yt的分布是左偏倚的。反之是右偏倚的。对于不同分位数回归函数如果回归系数的差异很大,说明在不同分位数上解释变量对被解释变量的影响是不同的。
15.4 分位数回归模型的估计
由于目标函数(15.3)不可微,因此传统的对目标函数求导的方法不再适用。估计分位数回?的一种较好的方法是线性规划方法。 归方程参数β(?)
基于Barrodale和Roberts (1973,以下简写为BR)提出的单纯形法(simplex algorithm),Koenker
和D’Orey(1987)提出一种估计分位数回归系数的方法。EViews中应用的是上述算法的改进形式。
BR算法由于其非有效性和大样本下的一些非优良特性曾备受批评。Koenker和Hallock(2001) 以及Portnoy和Koenker(1997)通过模拟证实,与内点法(interior point method)等替代方法相比,BR算法的估计次数往往较多,大约是样本容量的平方次数。然而,改进的BR算法的估计次数在一定程度上是可以接受的,大约是样本容量的线性倍次数,在实际中是可以使用的。 精品文档
精品文档
分位数回归方程的BR算法原理略。
下面讨论分位数回归系数估计量的渐近分布。
在弱条件下,分位数回归系数渐近服从正态分布(Koenker, 2005)。回归系数的方差协方差矩阵的计算在分位数回归的系数估计中占有重要位置。其方差协方差矩阵的估计方法根据分位数密度函数是否与解释变量相关分为三种方法:
①误差项独立同分布(i.i.d.)假设下的直接估计方法。由Koenker和Bassett(1978)提出。 ②误差项独立但不同分布(i.n.i.d.)条件下的直接估计方法。
③误差项独立同分布(i.i.d.)和独立但不同分布(i.n.i.d.)条件下都可使用的自举法。
(1)独立同分布假设下的参数渐近分布
Koenker和Bassett(1978)在独立同分布假设下得出分位数回归系数渐近服从正态分布,可以表述为在弱条件下: 其中
J?lim(n?????)~N(0,?(1??)s2J?1) (15.5) n(?(?)(?)(?)?iXiXi?X?X)?lim() (15.6) Tn??T s(?)?F?1(?)?1/f(F?1(?)) (15.7)
其中s(τ) 称为稀疏函数(Sparsity function)或分位数密度函数(quantile density function)。s(τ)是分位数
函数的导数,或在第τ分位数条件下概率密度函数的倒数(见Welsh,1988)。另外,模型误差项独立同分布假设意味着s(τ)与解释变量X无关,因此,分位数方程只和X在局部期间相关,即所有的条件分位数平面互相平行。事实上,式(15.5)中的(?(1??)s(?)2J?1)就是误差项独立同分布假设下解释变量的回归系数估计量的渐近方差协方差矩阵表达式,而?(1??)s(?)2代表的是一般回归方程中随机误差项的方差。
误差项独立同分布假设下,分位数回归参数估计量的渐近方差协方差矩阵表达式中含有s(τ),但s(τ) 是未知分布的函数,而且必须要估计。
EViews提供了三种估计s(τ)的方法。两种是基于Siddiqui(1960)的方法分别提出的差分商方法(Siddiqui Difference Quotient)(Koenker(1994)以及Bassett和Koenker(1982)),一种是核密度(Kernel Density)估计法。简述如下:
①Siddiqui差分商法:
差分商方法是用实际的分位数函数构造一个简单的差分商,从而求得s(τ)的估计量,表达式如下:
??1(??h)?F??1(??h)Fnn?(?)? s (15.8)
2hn?其中带宽hn随着样本容量n→∞而趋向于0。要计算?(τ)需要做两件事,一是得到分位数函数
??1(?)在两个点上的值,二是确定带宽。EViews中提供了两种Siddiqui 差分商法。 F计算分位数密度函数的第一种方法由Bassett和Koenker (1982)提出,EViews将其称之为Siddiqui (mean fitted) 方法。这种方法需要重新估计两个分位数回归模型在τ - hn和τ + hn上的拟和值,进而用不同的估计参数计算分位数函数的拟和值。最终s(τ)的估计量的数学表达式如下,精品文档
精品文档 对任意X*有:
?(?)?X*? s?(??h)???(??h)?nn2hn (15.9)
独立同分布假设意味着X*可以取任何值,Bassett和Koenker建议取X的均值,其优点是:
估计的精度在该点达到最大;且估计的分位数函数对τ是单调的,因此对一个恰当的hn,?(τ)的值总是正的。
另一种Siddiqui 差分商法由Koenker(1994) 提出。其计算量相对较小,只需计算原分位数回归方程中残差的第τ - hn和τ + hn实际分位数,计算时排除在估计中设为零的k个残差,并插入新值以获得分位数的分段线性形式。EViews中把这种方法叫做Siddiqui (residual) 方法。
上述两种Siddiqui方法都需要估计带宽hn。EViews 提供了三种估计带宽的方法:Bofinger (1975) 法,Hall-Sheather (1988) 法和Chamberlain (1994)方法。
Bofinger(1975)提出的估计带宽的表达式为:
?14??1/5?4.5(?(?(?))) hn?T?[2(??1(?))2?1]2?????1/5 (15.10)
可以近似最小化?(τ)的均方误差(MSE)。
另外两个带宽的表达式中含有显著性水平,因此常常用来进行假设检验。其中Hall和Sheather(1988)的表达式为:
?12??1/32/3?1.5(?(?(?)))Z? hn?T?2(??1(?))2?1?????1/3 (15.11)
其中T表示样本容量,?表示正态分布的积累分布函数,?表示正态分布的密度函数,Z?= ?-1 (1-?/2)为选择的显著性水平?对应的Z值。
Chamberlain(1994)的表达式为: hn?Z??(1??)T (15.12)
图1是样本容量1~300时Hall和Sheather(1988)方法在第0.1、0.3、0.5、0.7、0.9分位数下得到的带宽。图2是样本容量1~1000时三种方法在第0.5分位数下的带宽比较图 (α=0.05,MATLAB计算)。
图1 图2
从图2可以看出随着样本的增加,三种带宽都减小,并且在小样本时,减小的速度较大,在大样本情况下减小的速度较小。并且在大样本情况下,带宽的大小顺序为:Bofinger的最大,Hall和Sheather的次之,Chamberlain的最小。
②核密度法(Kernel Density): 精品文档