医学统计学基本知识
一、基本概念
(一)医学统计学定义和对象
1.医学统计学
·根据统计学的原理和方法,研究医学数据收集、表达和分析的一门应用各学科。 2.研究对象 ·医学数据
(二)医学统计学定义和对象
1.统计设计:调查设计和实验设计
·保证设计描述和统计推断正确的基础 2. 统计描述:均数、率
3. 统计推断:对统计指标的差别和关联性进行分析和推断
(三)医学统计资料类型
变量(variable):观察对象的特征或指标称为变量。 1.数值变量(计量资料):变量值师定量的,表现为数值的大小,有度量衡单位,如:身高(cm)、体重(kg)
2.分类变量:变量值是定性的,表现为互不相容的类别或属性。 1)无序分类变量(计数资料):各类别间无程度上的差别,如:性别分男女两类。 ·二分类 ·多分类
2) 有序分类变量(等级资料):各类别间有程度上的差别,如:临床疗效可分为治愈、显效、好转、无效四级。
3.三类资料类型
1)计量资料(quantitative data) 2)计数资料(qualitative data) 3)等级资料(ranked data)
(四)统计工作的基本步骤
1.研究设计(统计工作最关键的一步)
根据研究者是否对研究对象施加干预分为: 1)调查设计
·了解客观实际情况的现场工作 2)实验设计 ·实验研究 ·动物实验
2.收集资料
1)统计资料的来源 ·经常性资料 ·一时性资料
2)统计资料的要求
·资料的完整、正确、及时 ·样本量足够
·资料的代表性和可比性
3.整理资料
1)原始资料的检查与核对 ·统计数据的常规检查 ·数据的取值范围检错 ·数据间的逻辑关系检错
2)数据的分组设计和归纳汇总
·按资料的性质分组:分类变量,如性别、疗效等 ·按资料的数量特征分组:数值变量,如年龄等
4.分析资料
1)描述资料的数量特征和分布规律 ·统计指标 ·统计图表
2)用样本信息推断总体特征 ·参数估计 ·假设检验
(五)统计学中的几个基本概念
1.同质和变异(homogeneity and variation)
1)同质:研究对象具有相同的背景、条件、属性称为同质。
2)变异:同一性质的事物,个体观察值(变量值)之间的差异,称为变异。 ※同质是研究的前提
如同性别、同年龄、同地区、同体重儿童的肺活量有大有小,并不完全相同。
2.总体和样本(population and sample)
根据研究目的确定的、同质的全部研究对象称作总体。 1)有限总体:总体中的个体数科数(有限的) 2)无限总体:总体中的个体数不可数(无限)(或假设总体,或虚拟总体)
如:某地2007年45岁以上健康男性的血清总胆固醇含量,测定值的全部构成了一个总体。
如:研究糖尿病人的空腹血糖测定值,由于对时间和空间未加限制,全部糖尿病人的空腹血糖测定值则是一个无限总体。
从总体中随机抽取有代表性的一部分观察单位,其测量值(或观察值)的集合称为样本(sample) ·来自总体
·随机:机会均等≠随便 ·有代表性
·样本含量是指样本中观察单位数,常用n表示 ·抽样研究的目的:用样本信息推论总体特征
3.参数和统计量(parameter and statistic) 1.参数:指总体的统计指标
·一般用希腊字母表示,如总体均数μ、总体标注差σ、总体率π
2.统计量:指样本的统计指标
·一般用拉丁字母表示,如:样本均数X、样本标准差s。
3.参数估计:用样本统计量推论总体参数。 ·参数估计
·参数检验(假设检验)
4.误差(error):测量值与真值之差。 包括:
1)系统误差——非随机误差 2)随机测量误差 随机误差 3)抽样误差
·抽样误差:样本指标与总体指标只差,被称为随机抽样误差,简称抽样误差。 ·抽样误差是客观存在,不可避免的,但有一定的规律性 √可通过统计方法估计
√可通过增大样本量使其减小
5.概率(probability)与频率(freguency)
1)概率:描述随机事件发生可能性大小的度量,常用P表示。是对总体而言。 ·P值的范围在0和1之间
·P值越接近1,表明某事件发生的可能性越大 ·P值越接近0,表明某事件发生的可能性越小
2)频率:指一次实验结果计算得到的样本率。是对样本而言。 3)小概率事件:P≤0.05或P≤0.01的随机事件
·表示某事件发生的可能性很小,进而统计学上认为其在一次抽样中是不可能发生的。
二、统计描述
(一)数值变量资料的统计描述
1.频数表
·相同观察结果出现的次数称为频数。
·将所有观察结果的频数按一定的顺序排列在一起就是频数表。 ·用统计表的形式将互不相容的各情形列出,就是频数表。 1)目的: ·简化数据
·考察观察结果的分布特征 组段 124~ 128~ 132~ 136~ 140~ 144~ 频数 1 2 10 22 37 26 频率 0.0083 0.0167 0.0833 0.1834 0.3083 0.2167 148~ 152~ 156~ 160~164 合计 15 4 2 1 120 0.1250 0.0333 0.0167 0.0083 1.0000
2.频数分布图
·以组段为横轴(底),以相应频数为纵轴(高)作系列密闭的矩形。又称直方图。 ·用途:反映计量资料的分布特点(连续变量各种取值出现的机会)
3.描述集中趋势的指标 1)算数平均数(均数)
·适用条件:资料呈正态分布(或近似正态或对称分布) ·μ:表示总体均数 ·X:表示样本均数
2)中位数
·把一组观察值,按从小到大的顺序排列,位置居中的变量值(n奇数)或位置居中的两个变量值的均值(n偶数)。 ·M:表示中位数
·中位数是位次平均指标,以中位数为界,将观察值分为左右两半。 ·适用情况:
√当资料呈明显的偏态分布;
√资料一端或两端无确定数值(如大于或小于某数值); √资料的分布情况不清楚。
√例如,某些传染病或食物中毒的潜伏期、人体的某些特殊测定指标(如发汞、尿铅等),集中趋势多用中位数来表示。
3)几何平均数
·是将n个观察值x的乘积再开n次方的方根(或各观察值x对数值均值的反对数) ·G:表示几何均数 ·适用条件 ①等比资料
√抗体的平均滴度 √药物的平均效价 √人口几何增长资料
②对数正态分布资料(偏态分布资料经过对数转换后服从正态分布)
4.描述离散趋势的指标 1)方差和标准差
·描述对称分布离散趋势的重要指标
·值越大,离散程度越大,数据越分散,均数的代表性越差。 ·σ :表示总体方差 ·S:表示样本方差 2)全距
22 ·用R表示,又称作极差
·是一组资料的最大与最小值之差 ·全距越大,说明资料的离散程度越大 ·缺点:
√仅考虑两端数值之间的差异,未考虑其它其他数据的变异情况,不能全面反映一组资料的离散程度。
√易受个别特大值、特小值的影响,不稳定
3)百分位数(percentile,PX):是把一组数据从小到大排列,分成100等份,各等份含1%的观察值,分割界限上的数值就是百分位数。 ·位置指标
·中位数是第50百分位数,用P50表示
·常用于描述偏态分布资料在某百分位置上的水平及确定偏态分布资料医学参考值范围。 ·四分位数间距:P25P75
√中位数:描述集中趋势
√四分位数间距:描述离散趋势
4)变异系数
·用CV表示:CV=S/X×100%
(二)分类资料的统计描述 1.频数表
2.相对数(见流行病学,本章第一节)
三、统计表和统计图
(一)统计表
以表格的形式,表述被研究对象的特征、内部构成及研究项目分组之间的数量关系。 原则:统计表要重点突出,简单明了。
1. 标题:描述表格内容,包括研究对象和统计分析指标; 2. 标目:
·横标目:指研究对象(主语),一个横标目对应一横行的内容; ·纵标目:统计分析指标(谓语或宾语),一个纵标目对应一纵列的内容; 3. 线条:最简单的统计表为“三横线”,不允许有竖线和斜线; 4. 数字:阿拉伯数字,同一指标的小数位数一致,位次对齐; 5. 备注:在表的下方,补充说明表格的内容。
(二)统计图
是通过点的位置、线段的升降、直条的长短和面积的大小来表现事物的数量关系。 特点:
直观、形象、利于对比