计量资料的统计描述方法
怎样表达一组数据?
描述计量资料的常用指标—
A、描述平均水平(中心位置):
均数X、中位数和百分位数、几何均数G、众数(mode) B、描述数据的分散程度:
标准差、四分位数间距、 变异系数、方差、全距
(一)均数mean和标准差standard deviation
1. (算术)均数X
均数是描述一组计量资料平均水平或集中趋势的指标。 *直接计算公式:
应用条件:适用于对称分布,特别是正态分布资料。
2. 中位数(median)M和百分位数(percentile)
A.中位数M
是将一组观察值从小到大排序后,居于中间位置的那个值或两个中间值的平均值。 应用条件:
用于任何分布类型,包括偏态资料、两端数据无界限的资料。 计算:
n为奇数时-- n为偶数时--
9人数据:12,13,14, 14, 15, 15, 15, 17, 19天
B.百分位数
是将N个观察值从小到大依次排列,再分成100等份,对应于X%位的数值即为第X百分位数。中位数是第百分50位数。
四分位数间距(quartile range)
= 第25百分位数(P25)~第75百分位数(P75)。
四分位数间距用于描述偏态资料的分散程度(代替标准差S),包含了全部观察值的一半。
百分位数计算(频数表法):
LX:第X百分位数所在组段下限 ΣfL:小于LX各组段的累计频数 iX:第X百分位数所在组段组距
n:总例数 f x:所在组段频数
注:有的教材X= r ;
?fL=C
例:求频数表的第25、第75百分位数(四分位数间距)
组段 56~
59~ 62~ L25 65~
68~ 71~ L75 74~
77~ 80~ 83~85
合 计
频数f 2 5 12 15 25 26 19 15 10 1 130
累积频数∑f 2 7
19 ∑f25 34 P25在此
59
85 ∑f75 104 P75在此
119 129 130
① 确定Px所在组段:
P25所在的组段:n X %=130×25%=32.5,
65~组最终的累积频数=34,32.5落在65~组段内;
P75所在的组段:n X %=130×75%=97.5, 此值落在74~组段 ② 确定Px所在组段的LX、iX、f x、ΣfL ③ P25=65+3x[(130x25%-19)/15]=65.90
P75=74+3x[(130x75%-85)/19]=74.66
四分位数间距=65.90~74.66 (次/分)
3.几何均数G(geometric mean)
应用:
适用于成等比数列的资料,特别是服从对数正态分布资料。 原始数据分布不对称,经对数转换后呈对称分布的资料。
可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。例如 抗体滴度。
计算:N个数值的乘积开N次方, 即为这N 个数的几何均数。
有8份血清的抗体效价分别为1:5, 1:10, 1:20, 1:40, 1:80, 1:160,1:320,1:640,求平均抗体效价。使用分母计算! 平均抗体效价为: 1:57 加权法:
众数
是一组观察值中出现频率最高的那个观察值;若为分组资料,众数则是出现频率最高的那个组段的组中值。适用于大样本但较粗糙。
例:有16例病人的发病年龄为42,45,48,51,52,54,55,55,58,58,58,58,61,61,62,62,试求众数。
正态分布时: 均数=中位数=众数 正(右)偏态分布时:均数 > 中位数 >众数 负(左)偏态分布时:均数 < 中位数 <众数
3. 标准差S
S描述数据的分散程度.描述一组数据在其平均数周围的分布情况,若每个数据集中在其平均数周围,此平均数对这组数据的代表照就大;反之,代表性较差。
标准差S
甲组 乙组
75 45
80 60
85 75
90 90
95
100 105 n1=7
X1=90
X2=90
s1=10.8 s2=32.4
105 120 135 n2=7
S?2??X?X? 数据越分散,分子越大。 或者 n?1标准差的5应用:
描述变异程度、计算标准误、计算变异系数、 描述正态分布、估计正常值范围
S用于正态分布资料
怎样使用均数和标准差?
论文中常用X±S描述对称、正态或近似正态分布数据的特征。 描述偏态资料的分散程度需用四分位数间距P25~P75(代替标准差S)。 方差:
方差=S2 全距R :
R= 最大值–最小值。简单,但仅利用了两端点值,稳定性差。 变异系数(coefficient of variation,CV):
计算:CV=(S/X)?100%, 无单位 应用:1.单位不同的多组数据比较;
2.均数相差悬殊的多组资料
什么是正态分布?
(二)正态分布(Normal distribution)
正态分布是描述连续型变量值分布的曲线. 当例数比较多时,医学上许多资料近似服从正态分布。正态分布在统计推断上有重要的作用。
正态分布曲线理论上的特征
(1)以X= μ均数为中心, X值呈钟型分布,中央高、两端对称性减少、与X轴永不相交。
(2 )在 X= μ处,f(x)取最大值(例数最多)。
(3 )正态分布由均数μ 、标准差σ决定曲线的左右位置和高低形状: 正态分布有两个参数,即位置参数--均数?和形态参数--标准差?。
若固定标准差?,改变均数?值,曲线沿着X轴平行移动,其形状不变。 若固定?,?越小,曲线形状越陡峭;反之,?越大,曲线越平坦。 正态分布均数(位置参数)、标准差(变异度)变化示意图
正态曲线面积分布规律:
① X轴与正态曲线所夹面积恒等于1或100%;
② 区间???的面积为68.27%; ③ 区间??1.96?的面积为95.00%; ④ 区间??2.58?的面积为99.00%。 正态分布u值表(标准正态分布概率单位值)
变量值 分布范围(%) 80 90 95 99 尾部面积 单侧u值 双侧u值 α 0.20 0.84 1.28 0.10 1.28 1.64 0.05 1.64 1.96 0.01 2.33 2.58 尾部面积为α的u值,记为uα,称为u界值:
尾部面积各为2.5%时(黑色处),其对应的u值为u=±1.96; u=(-2.58,2.58)区间的面积为0.99(空白处)
正态分布的应用:
1.估计正态分布X值在特定值范围内的分布比例(概率)。 2.制定某临床指标的参考值范围
3.利用估计变量值的范围或对极端值做取舍。 4.许多统计方法的统计推断建立在正态分布基础上。
统计学计量资料的统计描述方法



