医学统计学第七版部分课后答案及解析
第二章
1.答:统计学中用来描述集中趋势的体系是平均数,包括算术均数,几何均数,中位数。
均数反映了一组观察值的平均水平,适用于单峰对称或近似单峰对称分布资料的平均水平的描述。
几何均数:有些医学资料,如抗体的滴度,细菌计数等,其频数分布呈明显偏态,各观察值之间呈倍数变化(等比关系),此时不宜用算术均数描述其集中位置,而应该使用几何均数(geometric mean)。几何均数一般用G表示,适用于各变量值之间成倍数关系,分布呈偏态,但经过对数变换后成单峰对称分布的资料。
中位数和百分位数:
中位数(median)就是将一组观察值按升序或降序排列,位次居中的数,常用M表示。理论上数据集中有一半数比中位数小,另一半比中位数大。中位数既适用于资料呈偏态分布或不规则分布时集中位置的描述,也适用于开口资料的描述。所谓“开口”资料,是指数据的一端或者两端有不确定值。
百分位数(percentile)是一种位置指标,以PX表示,一个百分位数PX将全部观察值分为两个部分,理论上有X%的观察值比PX小,有(100-X)%观察值比PX大。故百分位数是一个界值,也是分布数列的一百等份分割值。显然,中位数即是P50分位数。即中位数是一特定的百分位数。常用于制定偏态分布资料的正常值范围。
2.答:常用来描述数据离散程度的指标有:极差、四分位数间距、标准差、方差、及变异系数,尤以方差和标准差最为常用。
极差(range,记为R),又称全距,是指一组数据中最大值与最小值之差。极差大,说明资料的离散程度大。用极差反映离散程度的大小,简单明了,故得到广泛采用,如用以说明传染病、食物中毒等的最短、最长潜伏期等。其缺点是:1.不灵敏; 2.不稳定。
四分位数间距(inter-quartile range)就是上四分位数与下四分位数之差,即:Q=QU-QL ,其间包含了全部观察值的一半。所以四分位数间距又可看成中间一半观察值的极差。其意义与极差相似,数值大,说明变异度大;反之,说明变异度小。常用于描述偏态分布资料的离散程度。
极差和四分位数间距均没有利用所研究资料的全部信息,因此仍然不足以完整地反映资料的离散程度。
方差(variance)和标准差(standard deviation)由于利用了所有的信息,而得到了广泛应用,常用于描述正态分布资料的离散程度。
3.答:常用的相对数指标有:比,构成比和率。
比(ratio),又称相对比,是A、B两个有关指标之比,说明A为B的若干倍或百分之几,它是对比的最简单形式。其计算公式为比=A/B
率(rate)又称频率指标,用以说明某现象发生的频率或强度。常以百分率(%)、千分率(‰)、万分率(1/万)、十万分率(1/10万)等表示。计算公式为:
率?实际发生某现象的观察单位数 ?比例基数(K)可能发生某现象的观察单位总数构成比(proportion) 又称构成指标,它说明一种事物内部各组成部分所占的比重
或分布,常以百分数表示,其计算公式为:
构成比?某一组成部分的观察单位数?100%
同一事物内各组成部分的观察单位总数4.答:当比较两类事物的总率时,如果此两同类事物的内部构成,特别是某项能影响指标水平的重要特征在构成上不同,往往会高估或低估总率。在这种情况下,直接进行两个总率的比较,会产生错误的结论。此时,必须首先设法消除这种内部构成上的差别,才能进行比较。统计学上将这种方法称为率的标准化(standardization method of rate),即采用统一的标准对内部构成不同的各组频率进行调整和对比的方法,调整后的率为标准化率,简称为标化率。 5
(1) 编制频数分布表并绘制频数分布图,简述这组数据的分布特征;
组段 108 111~ 114~ 117~ 120~ 123` 126~ 129~132 合计
35.0030.0025.00Frequency频数 3 10 22 38 20 18 7 2 120
频率(%) 2.5 8.33 18.33 31.67 16.67 15 5.83 1.67 100
;累计频数(%) 2.5 10.83 29.17 60.83 77.5 92.5 98.33 100
组中值 109.5 112.5 115.5 118.5 121.5 124.5 126.5 129.5
20.0015.0010.005.000.00108.00111.00114.00117.00 (2) 计算中位数、均数、几何均数,用何者表示这组数据的集中位置好? 答:
X??3?109.5?10?112.5?22?115.5?38?118.5?20?121.5?18?124.5?7?126.5?2?139.5?/120120.00123.00''height (cm)''126.00129.00132.00135.00
=119.4135 Xg?lg?1???lg3?109.5?lg10?112.5?lg22?115.5?lg38?118.5?lg20?121.5?lg18?124.5?lg7?126.5?lg2?139.5?/120?? =119.25125 Md?116.63
用均数较好.
(3) 计算极差、标准差,用何者表示这组数据的离散趋势好? 答:极差:22.62
四分位数间距:5.915 标准差:4.380736 用标准差表示较好.
6.答:本例频数分布为偏态分布,长尾拖向x轴正方向,故为正偏态。适宜用中位数表示其平均水平,中位数为4,四分位数间距为4。
7.40名麻疹易感儿童接种麻疹疫苗后一个月,血凝抑制抗体滴度如下表。试计算平均滴度。
抗体滴度 1:4 1:8 1:16 1:32 1:64 1:128 1:256 1:512 人数 1 5 6 2 7 10 4 5
几何均数:exp((ln(4)+5×ln(8)+16×ln(16)+2×ln(32)+7×ln(64)+10×ln(128)+4×ln(256)+5×ln(512))/40) =128 第三章
1 正态分布与标准正态分布的区别:
正态分布是一簇单峰分布的曲线,μ和σ可以有任意取值;标准正态分布是一条单峰曲线,μ和σ有固定的值,μ=0,σ=1。 2 u = (x-μ)/σ= (μ-σ-μ)/σ= -1
查标准正态分布表,得Φ(-1)=0.1587,所以小于μ-σ者所占的比例为15.87%。 3 医学参考值范围的含义:是根据正常人的数据估计绝大多数正常人某项指标所在的范围。选定同质的正常人作为研究对象。所谓正常人是指不具有影响所测指标的因素或疾病的那类同质人群。
确定原则:①选定同质的正常人群作为研究对象 ②控制检测误差 ③判断是否分组 ④单、双侧问题 ⑤选择百分界值 ⑥确定可疑范围
方法:①正态分布法:适用于服从正态分布或近似正态分布的资料 ②百分位数法:适用于不服从正态分布的资料 ③对数正态分布法:适用于对数正态分布的资料
4 如果资料服从正态分布,那么双侧95%正常值范围为μ±1.96σ;如果资料不服从正态分布,那么双侧95%正常值范围就不能用正态分布来做。
5 1人以下的概率:P(x≤1)=P(0)+P(1)=C1000.200.810+C1010.210.89 =0.375 8人以上的概率:
P(X≥8)=P(8)+P(9)+P(10)=C1080.280.82+C1090.290.81+C10100.2100.80 =7.79×105
6 二项分布的应用条件:
①观察单位只能有互相对立的两种结果之一。
②已知发生某一结果的概率π不变,其对立结果的概率则为1-π
③n次试验在相同的条件下进行,且各观察单位的结果互相独立,即每个观察单位的