好文档 - 专业文书写作范文服务资料分享网站

比率估计和回归估计

天下 分享 时间: 加入收藏 我要投稿 点赞

Ratio and Regression Estimator

引例:1802年,拉普拉斯想要估计法国的人口数目。他获得了一个遍布全国范围的30个社区(commune)的样本,截至1802年9月23日总共有2037615居民。在包括1802年9月23日以前的三年中,215599个新生儿在30个commune。拉普拉斯认为30个commune的每年注册的新生儿数为215599/3=71866.33。把2037615按照71866.33 来分,拉普拉斯估计每年每28.35人里有一个注册新生儿。具有众多人口的乡镇也就可能有同样众多的注册新生儿,通过用28.35乘以全法国年度新生儿总数来估计得出法国人口总数。调查中都有辅助信息,抽样框也通常有每个单元额外的信息,这些信息能被用来提高我们的估计精度。 一、为什么要使用比率估计/回归估计

利用总体的辅助信息提高估计的精度。辅助指标的选择:第一,辅助指标应该与调查指标有较好的正的相关关系。第二,的抽样分布较

xyyxu的抽样分布变动性要小

得多。第三,辅助指标的总体总量或总体均值已知。比率估计、回归估计需要有足够的样本量才能保证估计的有效。有偏估计:当样本量足够大时,估计的偏倚趋于0。

简单地想要估计一个比率:假定总体由面积不同农业用地构成,yi?i地谷物的产量,xi?i地的面积,B=每亩谷物的平均产量。

想要估计一个总体总数,但总体大小N是未知的。但是我们知道,于是可以通过t?y?Ny来估计N,由此我们可以使用不同于总数N的方法而是采用辅助变量来进行测量。

要估计渔网中长度长于12cm的鱼的总数,抽取一个鱼的随机样本,估计长度长于12cm的鱼所占的比例,用鱼的总数N乘以这个比例即可得到,但如果N未知不能使用。能称量渔网中鱼的总重量。鱼的长度与其重量相关。t?yr?ytxx

调整来自样本的估计量以便它们反映人口统计学的总量。在一所具有4000名学生的大学提取一个400个学生的简单随机样本,此样本可能包含240个女性,160个男性,且其中被抽中的84名女性和40名男性计划以教学为毕业后的职业。 以教学为职业的总量估计:调整后的总量估计:

842404000400?124?124040160

?2700??1300?1270比率估计量被用来对无回答进行调整。设抽取一个行业的样本:令yi为i行业花费在健康保险上的金额,xi为i行业的雇员数。假定对总体中的每个行业xi均已知.我们希望一个行业花费在健康保险上的金额与雇员数相关。某些行业在调查中可能涉及不到。估计保险费用的总花销时调整无回答的方法之一是用总体数X乘以比率

yx。

二、Ratio Estimator

在SRS条件下,辅助指标x,其总体均值(总量)已知,则有:

yR???yRxyxX??y?xX??yX?YRx?y?x2X?NyR

?)?1?fV(R2nX?(Yi?RXi)N?1例1,对以下假设总体(N=6),用简单随机抽样抽取的样本,比较简单随机抽样比估计及简单估计的性质。 序号 1 2 3 4 5 6 平均值 Xi 0 1 3 5 8 10 4.5 Yi 1 样本 1,2 1,3 1,4 1,5 1,6 2,3 2,4 2,5 2,6 3,4 3,5 3,6 4,5 4,6 5,6 3 y 1 1 1 1 1 3 3 3 3 11 11 11 18 18 29 11 y1 3 11 18 29 46 11 18 29 46 18 29 46 29 46 46 18 x 0 0 0 0 0 1 1 1 1 3 3 3 5 5 8 yi?y1i2yi?18 11529 x1 1 3 5 8 10 3 5 8 10 5 8 10 8 10 10 46 简单估计 2 6 9.5 15 23.5 7 10.5 16 24.5 14.5 20 28.5 23.5 32 37.5 18 比率估计 18 18 17.1 16.875 21.15 15.75 15.75 16 20.04545 16.3125 16.36364 19.73077 16.26923 19.2 18.75 yixiX。

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 总共抽取C62?15个样本,简单估计为:

E(yR)?V(yR)?11511515?yi,比率估计:yRi??i?115i?1yRi?17.686;E(y)?211515?i?1??yRi?E(yR)??2.82;V(y)?2??y?E(y)?ii?115?97.87

(偏倚程度);MSE(yR)?V(yR)?B2(yR)?2.92

评价:简单估计是无偏的,而比估计是有偏的。简单估计量的方差远远大于比估计量的方差,比估计的偏差不大,其均方误差也比简单估计的小得多。因此对这个总体,比估计比简单估计的效率高。 三、比率估计的性质

B(yR)?E(yR)?Y??0.31356E(r?R)?1?fnX2(?SxSy?RSx)

2

偏倚量会小,如果:样本量n很大;抽样比nN很大;X很大;Sx很小;相关

?)?N2X2V(R?) V(YR系数R接近于1。

?)?X2V(R?) 比率估计的近似方差:V(yR)?V(XR?)?E(R??R)?V1(R21X2E(y?RX)?21?fnX21NNi2?RXi)

?(Y?1i?1n1?f1??x)2 v1(R)?(yi?R?i2nXn?1i?1?)?1?f(S2?2RSV2(Ry2nXxy?2S2);v(R?)?1?f(s2?2R?s?R?2s2) ?Rx2yxyx2nx四、比率估计的效率 1、与简单估计的比较

简单估计量无偏,而比率估计量渐近无偏。因此这里只比较当n比较大的情形。

V(y)?1?fn1?fnSy

(Sy?RSx?2RS2222V(yR)?)?yx1?fn(Sy?RSx?2R?SySx)222

比率估计量优于简单估计量的条件是:

(RSx?2R?SySx)?0???221SxX2SyY?Cx2Cy(正高度相关)

2、比率估计成为最优线性无偏估计的条件

(1)yi与xi的关系是过原点的直线。(2)yi对这条直线的方差与xi成比例。则比率估计是最优线性无偏估计(BLUE)。

例2,某县在对船舶调查月完成的货运量进行调查时,对运管部门登记的船舶台帐进行整理后获得注册船舶2860艘,载重吨位154626吨,从2860艘船舶中抽取了一个的简单随机样本,调查得到样本船舶调查月完成的货运量及其载重吨位如下表(单位:吨),要推算该县船舶调查月完成的货运量。 Yi Xi Yi Xi i i 1 780 100 2 1500 50 3 1005 50 4 376 10 5 600 20 该县船舶在调查月完成货运量的比率估计为: ??yX?1123.2?154626?2671937YRx656 7 8 9 10 2170 1823 1450 158 1370 120 150 80 20 50

?)?458930 v(YR?)?v(YRN(1?f)n22?)??2s2?2R?s)?2.10617?1011;s(Y(sy?RRxyx用简单估计对货运量进行估计:

??Ny?2860?1123.2?3212352 Y?)?N(1?f)s2?3.43303?1011;s(Y?)?v(Yyn?)v(YR?deff??0.6135 ?v(Y)2?)?585921 v(Y(注!实际中对于样本量较小的情形,使用比率估计量时不能忽视其偏倚。)

四、分层随机抽样下的比率估计

1、separate ratio estimator

如果各层的样本量不小的话,则可以采用各层分别进行比率估计,将各层加权汇总得到总体指标的估计,这种方式称为分别比率估计量。

r1?yRS??y?x1,r2?1?y?x22,?,rL??y?xLL(h=1,2,…..L)

?WhyRh??Whyhxh??Ny?Xh;YRSRS?yhxhXh??Y?Rh

2.Combined Ratio estimator

分别比率估计量要求每一层的样本量都比较大,如果达不到这个要求,则它的偏倚可能比较大,这时使用联合比率估计量。

yRC?ystxst??ystX?Ny?X ?X;Y?RX?RRCRCCCxst方差的比较:

?)?NV(YRS?)?NV(YRC2??Whnh2(Syh?RhSxh?2RhSyxh)

22222Whnh(Syh?RcSxh?2RcSyxh)

222如果每一层样本量都比较大,各层R相差较大,则分别比率估计量的方差小于联合比率估计量的方差。但当每层的样本量不太大时,还是采用联合比率估计量更可靠些,因为这时分别比率估计量的偏倚很大,从而使总的均方误差增大。 五、Regression Estimator

??Ny yLr?y??(X?x)?y??(x?X)YLrLr??0, yLr?y(srs)

yx(X?x)?yR

??R, yLr?y?(比估计)

回归估计应用的两种情况:

1、?事先确定

设?的确定值为?0,?0是一常数,则:yLr?y??0(X?x) (1)

V(yLr)?1?fn1N?1N?[(Yi?Y)??0(Xi?X)]?i?121?fn(Sy??0Sx?2?0Syx)222 (2)

因为E(ylr)?E(y)??0E(X?x)?Y而ylr又可以表示为yi??0(X?xi)的样本均值,后者的总体均值为Y故(2)式成立,其样本估计量:

?(yLr)?1?fn(sy??0sx?2?0syx) (3)

222性质:

A:yLr是Y的无偏估计;B:?(yLr)是V(yLr)的无偏估计; C:?0的最佳值是?0?Vmin(yLr)?1?fn2SyxSx22??(总体回归系数)

Sy(1??)

2、?由样本估计

b??(y?y)(x?x) ?(x?x)ii2i此时:(大样本条件下)

yLr?y?b(X?x)V(yLr)?1(n?2)n1?fnS(1??)2y2?(yLr)?2[(y?n(n?2)1?fni?y)?b(xi?x)]2残差方差:S?2e?)??[(yi?y)?b(xi?x)] SE(yreg(1?nN)Sen2

3、分层抽样中的回归估计

(1)分别回归估计

LyLrs??WnyLrh??Wh[yh??h(Xh?xh)]??NyY?lrsLrs?Nh[yh??h(Xh?xh)]若?h可以事先确定时,yLrs与Y?Lrs都是无偏的,且

V(yLrs)??Wh(1?fh)nh2(Syh?2?hSyxh??hSxh)

222在?h?SyxhSxh2(h?1,2...L)时达到极小值,Vmin(yLrs)?nh?Wh(1?fh)nh2Syh(1??h)

22?(y若?h不能事先确定,bh?hi?yh)(xhi?xh)nh,当nh较大时,

hi?(xV(yLrs)??xh)2?Wh(1?fh)nh2Syh(1??h)

22

比率估计和回归估计

RatioandRegressionEstimator引例:1802年,拉普拉斯想要估计法国的人口数目。他获得了一个遍布全国范围的30个社区(commune)的样本,截至1802年9月23日总共有2037615居民。在包括1802年9月23日以前的三年中,215599个新生儿在30个commune。拉普拉斯认为30个commune的每年注册的新生儿数为215599/3=
推荐度:
点击下载文档文档为doc格式
7zw1b5mv3g0daes3z44y
领取福利

微信扫码领取福利

微信扫码分享