医学统计学知识点 理整
第一节统计学中基本概念 一、同质与变异
同质:统计研究中,给观察单位规定一些相同的因素情 。况
如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。 变异:同质的基础上个体间的差异。
“同质 ”是相对的,是客观事物在特定条件下的相对一致性,而“变异 ”则是绝对的 二、总体与样本
1、总体:是根据研究目的所确定的,同质观察对象(个体)所构成的全体。 2、样本:是从总体中随机抽取的部分观察单位变量值的集 。合三、参数与统计量
总体参数:根据总体个体值统计计算出来的描述总体的特征量。用希腊字母表示。 样本统计量:根据样本个体值统计计算出来的描述样本的特征量。用拉丁字母表示。 总体参数一般是不知道的, 抽样研究的目的就是用样本统计量来推断总体参数, 计和假设检验
四、 误差:实测值与真值之差★
1.随机误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。随机测量 误差、抽样误差。
2.系统误差:是一类恒定不变或遵循一定变化规律的误差,其产生原因往往是可知的或可能 掌握的。
3.非系统误差:过失误差,可以避免或清 。除五、概率
是用来描述事件发生可能性大小的一个量值,常用
P 表示。概率取值 0~1。
μ.δ.π X.S.p 包括区间估
统计上一般将P≤ 0.05 或 P≤ 0.01 的事件称为小概率事件,表示其发生的概率很小,可以 认为在一次抽样中不会发生。 第二节统计资料的类型★
变量: 确定总体之后, 研究者应对每个观察单位的某项特征进行观察或测量, 现观察单位的变异性,称为变量。 一、数值变量资料
又称为计量资料、 定量资料: 观测每个观察单位某项指标的大小而获得的资料。
表现为数值这种特征能表
大小,带 有度、量、衡单位 。如身高( cm)、体重 (kg)、血红蛋白( g)等。 二、无序分类变量资料
又称为定性资料或计数资料: 将观察对象按观察对象的某种类别或属性进行分组计数, 汇总各组观察单位后得到的资料。
分类:二分类: + -;有效,无效;多分类: ABO血型系统 特点:没有度量衡单位,多为间断性资料
【例题单选】某地 A、B、O、AB血型人数分布的数据资料是 A.定量资料 C.计数资料 【答案】 C
【解析】 ABO血型系统人数分布资料属于无序分类变量资料, 变量的血型分类,血型表现为互不相容的属性。所以本题选 【例题单选】测量正常人的脉搏数所得的变量是() A.二分类变量 【答案】 C
【解析】脉搏数有数值大小,有度量衡,所以这个资料属于定量资料。本题选 三、有序分类变量资料
半定量资料或等级资料: 将观察对象按观察对象的某种属性的不同程度分成等级后分组计数, 分组汇总各组观察单位后得到的资料。
特点:每一个观察单位没有确切值,各组之间有性质上的差别或程度上的不同 举例: - + ++ +++ 第三节统计工作的基本步骤 4.统计设计 5.收集资料 6.整理资料 7.分析资料:
统计描述:是利用统计指标、 统计表和统计图相结合来描述样本资料的数量特征及分布规律。 统计推断:是使用样本信息来推断总体特征。统计推断包括区间估计和假设检验。 第四节统计表与统计图 ★ 一、统计表
★
C。
B.多分类变量
C.定量变量
D.定性变量
又称为计数资料。 因为是按照 C。
B.计量资料 D.等级资料
(
)
分组
统计表的基本结构与要求
标题:高度概括表的主要内容,时间、地点、研究内容,位于表的上方,居中摆 加侧左,放表的序号。
标目:横标目和纵标目。
线条:通常采用三线表和四线表的形式。没有竖线或斜线。 数字: 表内数字一律用阿拉伯数字。 表示。暂缺用“ ? ”表示。 “0为”确切值。
备注:位于表的下面,通常是对表内数字的注解和说明,必要时可以用 “统计表的备注不宜太多。 二、制表原则
重点突出,一个表一个中心内容 主谓分明,层次清楚
简单明了,一切文字数字线条尽量从简 【例题单选】统计表内不列的项是 A.标目 【答案】 D
【解析】统计表内备注位于表的下面,不列在统计表内,所以本题选D。 择三、统计图
8.(1)标题( 2)标目( 3)刻度( 4)图例:不同颜色或者不同线条表示,需要说明。 9.常用统计图的适用条件与要求
(1)条图:适用于比较、分析独立的或离散变量的多个组或多个类别的统计指标。 (2)圆图和百分比条图:构成比的比较
(3)线图:描述某统计量随另一连续性数值变量变化而变化的趋势。 (4)直方图:数值变量的频数分布。 (5)散点图:用点的密集程度和趋势描述 (6)箱式图:多组数据分布的比较
(7)统计地图:用不同的颜色和花纹表示统计量的在地理分布上的变化,适宜描述研究指 标的地理分布。
【例题填空】描述某地十年间结核病死亡率的变化趋势宜绘制 【答案】线图
_________图。
2 个变量间的数量关系
B.
线条
C.
(
) 数字
(2010.7 )
D.备注
*”等标出。一张
同一指标, 小数位数应一致, 位次对齐。 无数字用 “— ”
数值变量资料的统计分析
第一节数值变量资料的统计描述 一、频数分布表★ 10. 编制步骤
(1) 计算全距( 2)确定组距( 3)划分组段( 3)统计频数( 4)确定频率与累计频率 11. 频数分布表的主要用途: (1) 揭示资料的分布类型 或特小离群值
(2)观察资料的集中趋势和离散趋势(
3) 便于发现某些特大
(4)便于进一步计算统计指标和作统计处理
二、集中趋势指标 ★
数值变量资料的集中趋势指标是用平均数来描述的, 的有算术均数、几何均数和中位数。
1.算数均数适用于对称分布(正态分布)或者近似对称分布的资料 数,以 表示样本均数。
2.几何均数 数值变量 呈倍数关系或者呈对数正态分布
,如 抗体效价及抗体滴度, 某些传染病
。习惯上以 μ 表示总体均
代表一组同质变量值的平均水平。
常用
的潜伏期、细菌计数 等,宜用几何均数( G)。几何均数常用于等比资料或对数正态分布资 料。
3.中位数是指将一组变量值从小到大排列, 值中出现个别特别大或特别小的数值; 型不明。
4.百分位数是一种位置指标,以
Px 表示,把一组数据从小到大排列后,理论上有
x%的变量
位次居中的观察值就是中位数。
适用条件 :变量
资料类
偏态分布资料 ;数值一端或两端无确定数值;
比 Px 小,有( 100-x)% 的变量值比 Px 大。 【例题单选】描述正态分布资料集中趋势的指标是() A.中位数 C.算术平均数 【答案】 C
【解析】 算数均数适用于对称分布或者近似对称分布的资料。
几何均数常用于等比资料或对
偏态分布资
B.几何均数 D.标准差
数正态分布资料。 中位数适用条件: 变量值中出现个别特别大或特别小的数值; 料;数值一端或两端无确定数值;资料类型不明。 题选择 C。
标准差描述数据的离散趋势指标。所以本
三、离散趋势指标 ★ 12.极差和四分位数间距
极差:简记为 R,亦称全距, 即一组变量值中最大值与最小值之差,
反应变量值的离散范围。
四分位数间距 Q:一般和中位数一起描述 偏态分布资料 的分布离散趋势。 5. 方差和标准差 :方差表示样本观察值的离均差平方和的均值。
况。标准差是方差的正平方根。 用途:
(1)用于表示正态或近似正态分布资料的离散度; (2)反映均数的代表性
标准差越小,数据离散程度越小,均数的代表性越好。 (3)确定医学参考值范围
表示一组数据的平均离散情
s
x x n 1
2
2
x
n
X
2
n 1
x 1. 96s 95%医学参考值范围
均数相
3.变异系数( CV)适用条件: ①观察指标 单位不同 ,如身高、体重②同单位资料,但 差悬殊
四、正态分布与参考值范围的制定 (一)正态分布
★
1.概念:也称高斯分布,是医学和生物学最常见、最重要的一种连续性分布。 2.特征: (1) 在直角坐标的横轴上方呈钟型曲线,两端与
X 轴永不相交,且以 X=μ 为对称轴
左右完全对称 (2) 在 x=μ 处,f(X) 取最大值 (3) 正态分布有两个参数, 即均数 μ 和标准差 σ。 均数 μ 描述了正态分布的集中趋势位置,
若固定 σ,改变 μ 值,曲线沿着 X轴平行移动,其
μ ,σ越小, (4) 正态曲线
形状不变,故 μ 称为位置参数。标准差 σ描述了正态分布的离散程度,若固定 曲线越陡峭;反之, σ越大,曲线越平坦.故 σ 称为形状参数或离散度参数。 下的面积分布有一定的规律。 4.正态曲线下面积的分布规律