好文档 - 专业文书写作范文服务资料分享网站

第03章抽样误差

天下 分享 时间: 加入收藏 我要投稿 点赞

第3章 抽样误差

3.1 抽样误差的概念

医学科研中通常采用抽样研究的方法,从某总体中随机抽取一个样本来进行研究,而所得样本统计量与总体参数常不一致,这种由抽样引起的样本统计量与总体参数间的差异属于抽样误差(sampling error),这在抽样研究中是不可避免的。

例如,假设某地成年男子血红蛋白的总体均数(?)为13.76(g/100ml),随机抽查了360名男子,算得平均血红蛋白含量X=13.45(g/100ml),若用此X作为该地区成年男子血红蛋白的总体均数(?)的一个估计值,则(13.76-13.45)=0.31(g/100ml),此差值属于抽样误差。

抽样误差有两种表现形式,其一是:样本统计量与总体参数间的差异,如样本均数与总体均数间的差异;其二是:不同样本的统计量间的差异,如从同一总体中抽取含量相等的两样本得到的两个样本均数之间的差异。

从理论上讲,若进行K次抽样,所得的K个样本统计量(例如X)则很可能各不相同,若将这些样本统计量编制成频率分布表或绘制成频率分布图,则可看出样本统计量的抽样分布是有规律的。

3.2 抽样误差产生的条件

抽样误差产生的两个必备条件:

(1) 抽样研究。抽样研究是产生抽样误差的必备条件之一。只有对总体中的部分个体进行研究,才可能导致样本指标与总体指标的不一致,而且在从同一总体进行抽样的研究中,样本含量越少的研究,理论上抽样误差必然越大。

(2) 个体变异。个体变异是产生抽样误差的另一必备条件。在医学科研领域,许多被研究对象都存在着变异现象,如血压、疗效、药物反应等。在抽样方法和样本含量不变的条件下,变异大的研究样本其抽样误差也大,反之则小。

以上是产生抽样误差的必备条件,缺一不可。若进行普查,则被研究对象的个体变异将不会产生抽样误差;若个体间无变异,当然无需作抽样研究,也无抽样误差可言。

3.3 均数的抽样误差及标准误

虽然均数的抽样误差可表现为样本均数与总体均数之差值,但由于总体均数往往是未知的,故这个差值实际上是得不到的,只能估计。均数的抽样误差也可用多个样本均数间的离散度表示,但由于对同一问题很少做多次同样的抽样研究,所以这个离散度一般也是得不到的。那么,如何衡量抽样误差的大小,揭示抽样误差的规律呢?这就要应用数理统计中的中心极限定理(central limit theorem)了。

中心极限定理的涵义:

(1) 从均数为?、标准差为 ? 的正态总体中独立、重复、随机抽取含量为n的样本,样本均数的分布仍为正态分布,其均数为?,标准差为?X。

(2) 即使从非正态总体(均数为?、标准差为? )中独立、重复、随机抽取含量为n的样本,只要样本含量足够大(如n≥50),样本均数也近似服从均数为?、标准差为?X的正态分布。

?X??n (3.1)

在统计理论上将样本统计量的标准差称为统计量的标准误(standard error,SE),用来衡量抽样误差的大小。据此,样本均数的标准差?X称为均数的标准误,简称标准误。由上式可见,此标准误与个体变异? 成正比,与样本含量n的平方根成反比。

实际工作中,? 往往是未知的,一般可用样本标准差s代替? ,求得?X的估计值sX。即:

sX?sn (3.2)

因为标准差s随样本含量的增加而趋于稳定,故增加样本含量可以降低抽样误差。

为了形象地展示中心极限定理,表3.1设计了4个非正态分布的总体,其中,总体A是偏三角分布,总体B是均匀分布,总体C是指数分布,总体D为双峰分布。分别从各总体中抽取10000个样本含量为n的样本,计算每个样本的均数,并根据10000个样本均数绘制频率分布图(图3.1)。

由图可见,样本均数的分布不再显示原来的非正态分布之特征,且随着样本含量n的增大,样本均数的分布很快接近正态分布,并显示均匀分布接近正态分布的速度快于偏态分布,单峰分布快于双峰分布。因此,根据中心极限定理,即使对于总体的精确分布并不清楚(这种情况在分析实际资料时较为常见),我们也可以利用这一特性对样本均数的抽样误差进行各种分析。

表3.1 4个总体不同样本含量时10000个模拟样本的均数和标准误

与相应理论值的比较

总体A

n=2 n=4 n=10 n=25 总体B

n=2 n=4 n=10 n=25 总体C

n=2 n=4 n=10 n=25 总体D

n=2 n=4 n=10 n=25

10000个样本 均数?标准误,X?SE

1.3340?0.3357 1.3328?0.2355 1.3322?0.1493 1.3325?0.0937

0.4965?0.2042 0.5007?0.1454 0.5013?0.0919 0.5002?0.0576

0.9992?0.7065 1.0001?0.5041 1.0026?0.3154 0.9962?0.1985

1.0069?0.5486 1.0074?0.3945 0.9965?0.2472 0.9997?0.1560

理论值 均数?标准误,???X

1.3333?0.3333 1.3333?0.2357 1.3333?0.1491 1.3333?0.0943

0.5000?0.2041 0.5000?0.1443 0.5000?0.0913 0.5000?0.0577

1.0000?0.7071 1.0000?0.5000 1.0000?0.3162 1.0000?0.2000

1.0000?0.5477 1.0000?0.3873 1.0000?0.2450 1.0000?0.1549

表3.1中12个抽样分布的均数及标准误与理论值均非常接近。实际工作中,常用

X?SE表示某指标的均数及其抽样误差。同时,中心极限定理通过图3.1显示:从不同分布类型的总体抽样时,达到样本均数趋向正态分布所需的最小样本含量之参考数。一般而言,样本含量大于10时,其均数分布趋向正态的效果已经比较明显。

本节描述了来自不同总体的样本均数之抽样误差和抽样分布规律。事实上,任何一个样本统计量均有其抽样分布规律,如来自正态分布总体的样本方差服从?2分布;方差之比服从F分布;相关系数作适当变换后近似服从正态分布;率的分布与样本含量n和率的大小有关,在样本含量较小时服从二项分布,在n足够大时,近似服从正态分布;等。统计量的抽样分布规律是进行统计推断的理论基础。

下面介绍从正态分布总体中随机抽样,均数和方差的有关抽样分布。

X 总体分布A n=2 x n=4 x n=10 x n=25 x X的抽样分布 图3.1 中心极限定理图示(a) X 总体分布B n=2 x n=4 x n=10 x n=25 x X的抽样分布

X X 总体分布C n=2 n=4 n=10 n=25 X的抽样分布 x xxx 总体分布D n=2 x n=4 x n=10 x n=25 x X的抽样分布

第03章抽样误差

第3章抽样误差3.1抽样误差的概念医学科研中通常采用抽样研究的方法,从某总体中随机抽取一个样本来进行研究,而所得样本统计量与总体参数常不一致,这种由抽样引起的样本统计量与总体参数间的差异属于抽样误差(samplingerror),这在抽样研究中是不可避免的。例如,假设某地成年男子血红蛋白
推荐度:
点击下载文档文档为doc格式
2m03f7wvk75dq8n1sig30fluh9bohz00ujh
领取福利

微信扫码领取福利

微信扫码分享