医学统计学 重点 (2005级 六年制) copyright @ vivian.cat
Chapter 基本概念
显著性检验(test of significance):计算P值 医学统计工作的内容: 1、实验设计:最关键最重要 2、收集资料:最基础
原始资料:实验数据
现场调查资料 医疗卫生工作记录 报表 报告卡 质量控制——精度和偏倚
3、整理资料
(1) 资料的逻辑检查(坏数) (2) 一致性检查
(3) 原始数据加工:频数分布表
4、分析资料:统计描述(表、图、离散趋势、集中趋势)和统计推断 统计描述类型的选择: 集中趋势 离散趋势 对称、正态 μ,x ?,SS,S 对数正态 G S lgX 偏态及其他 M Q,R 单位不同或均数差别大 CV
医学统计的资料类型:计量资料、计数资料、等级分组资料
医学统计学的对象:有变异的事物 总体和样本:
总体(population)的特性:同质性、大量性、差异性。
总体 抽样
样本
推断
参数
统计量
抽样的要求:代表性、随机性、可靠性、可比性。
样本的三性:代表性、随机性、可靠性。 可靠性(reliability):实验的结果要具有可重复性。即由科研课题的样本得出的结论所推测总体的结论有较大的可信度。
两样本间具有:可比性。
误差的类别:
1、系统误差(system error):在资料的收集过程中,由于仪器初始状态没有调零、标准试剂未经矫正、标准指定偏高或偏低等原因,造成的观察结果的倾向性的偏大或偏小。必须克服。
2、随机测量误差(random measurement error):在避免系统误差的情况下,由于各种偶然因素的影响造成对同一对象多次测量值的不一致。
3、抽样误差(sampling error):由于抽样造成的的样本统计量与总体参数之间的差别。不可避免。样本含量越大,抽样误差越小。如均数的抽样误差:
|X-?|。
概率(probability):P(A)
小概率事件:P≤0.05(有统计学意义)或P≥0.01(有高度统计学意义)。
Chapter 集中趋势的统计描述
手工整理资料频数表(frequency table)的步骤:
1、求极差(全距) 2、确定组数、组距 参考组距=全距 / 组数 3、确定组段
4、手工编制划记表 直方图(histogram): 高度:各组的频数 纵轴
宽度:组距 横轴表示组限 均数(average):
1
医学统计学 重点 (2005级 六年制) copyright @ vivian.cat
适用:对称分布或偏度不大的资料,尤其适合正态分布。
1、算术均数(mean):X??Xn
2、加权均数:X??f Xn
3、几何均数:
G?lg?1? lg Xn,G?lg?1?f lg XMn
中位数(median):观察值按照从小到大排列时,
居中心位置的数值。
适用于1、分布明显成偏态时,2、频数分布的一端或两端无确切数值时。不便于统计计算。
M?L0.5n?f LM?(f)?i
MM:中位数;LM:M所在组的上限;f L:M所在
组之前积累的频数;fM:M所在组的频数;i:组距。 百分位数(percentile):Px。在一组中找到这样一个数值P,全部观察值的x%小于P。P75、P25描述资料离散程度。
PLn?x%?f LX?x?(f)?i
x众数:一组观察值中,出现频率最高的那个观察值。若为分组资料,则为频率最高组的组中值。适用于大样本,但粗糙。
Chapter 离散程度的统计描述
离散的表述指标:
1、按间距计算:极差、四分位数间距
2、按平均差距:离均差平方和、方差、标准差、变异系数
极差(range,R):即全距。粗略。适用于任何
分布。
四分位数间距(quartile,Q):一组观察值按大
小排序后,分成四个数目相等的段落,每个段落观察值的数目占总例数的25%。去掉两端含有极端数值的25%,取中间的50%的观察值的数据范围即为~。
越大则数据变异越大。适用于偏态分布。
Q=P75 - P25
离均差平方和(sum of square of deviation):
SS??(X-X)2??X2?(?X)2n
方差(variance):
2样本方差 S2?SS?(X-X)??n-1 总体方差 S2?SS?(X-X)2??N
标准差(standard deviations):
S?S2?SS?
适用于近似正态分布。
p.s.1、可用于合并资料的直接计算
2、与均数结合可以完整概括一个正态分布。 变异系数(CV):用于均属相差交大或单位不同的几组数据观察值的比较。
CV=
SX?100% 正态分布(normal distribution): 1、正偏态分布:高峰向左,长尾向右 负偏态分布:高峰向右,长尾向左。
2、μ和σ是正态分布总体的两个参数,对应样本统计量中的S和X。实际应用中μ和σ通常未知,可以将S和X作为总体参数的估计量使用。
2
医学统计学 重点 (2005级 六年制) copyright @ vivian.cat
2注意对比:S??(X-X)n-1
???(X-?)2N 2、μ是位置参数,σ是变异参数。 描述方法:N(μ,σ2)
3、曲线下面积的意义:X1~X2出现的概率。 μ±σ 68.3%
μ±1.96σ (单侧μ±1.645σ) 95% μ±2.58σ(单侧μ±2.33σ) 99%
标准正态分布(standard~):是μ=0,σ=1的正
态分布。
对于任何参数为μ、σ的正态分布,都可以通过变量变换转化成标准正态分布:u?x-??。
医学参考值范围(reference value range)的制定方法:
1、选择足够数量的正常人作为参照样本 2、对选定的参照样本进行准确的测定 3、决定取单侧范围还是双侧范围值 4、选择适当的百分范围 5、估计参考值范围的界限
Chapter 抽样误差与可信区间
中心极限定理:在样本含量很大的情况下(n≥50),无论样本测量量(X)服从什么分布,样本均数
X的抽样分布都近似服从以μ为均数的正态分布N
(μ,σ2/n)
标准误(standard error):样本均数X之间变异
的标准差。??X?n
实际工作中总体标准差σ 未知,,用样本的标准差S代替:SSX?n 标准差与标准误的区别: 标准差 标准误 含义 描述观察值的变异程描述样本均数的抽样度的大小的指标 误差大小的指标 公式 S?S2?SS???X?n2 ??(X-X)n-1(SX?Sn) 意义 标准差较小,表示观察小,表明样本均数围绕值围绕均数波动较小, 总体均数的波动较小, 说明样本均数代表性说明样本均数可靠性好 好 应用 1、表示观察值变异程1、估计样本均数抽样度 可靠程度 2、结合样本均数描述2、估计总体均数的可正态分布资料特征,确信区间 定医学参考值范围 3、进行假设检验 3、计算标准误 4、计算CV n↑ 趋于稳定(σ) 逐渐减小
标准误(公式)的意义:
1、与标准差的联系:在样本含量一定的情况下,标准误与标准差成正比。
(1) 当观察值的变异(标准差)较小时,样本均数
之间的抽样误差较小,抽到的样本均数与总体均
属可能相差较小,用X估计μ的可靠性较好
3
医学统计学 重点 (2005级 六年制) copyright @ vivian.cat
(2) 当观察值的变异较大时,样本均数之间的抽样
误差较大,抽到的样本均数与总体均属可能相差
较大,用X估计μ的可靠性较差。
2、与样本含量的关系:与其平方根成反比,说明在同一总体中随机抽样,样本含量越大,标准误越小。
3、标准误反映了样本均数间的离散程度,也反映了样本均数与总体均数的差异。
参数估计(parameter estimation):指偶那个过样本参数估计总体参数,是统计推断的重要内容之一。常用方法有点估计、区间估计。
点估计(point ~):使用单一数值直接作为总体参数的估计值。适用于各种资料。
区间估计(interval ~):按照预先给定的概率计算出一个区间,使它能够包含总体参数。给定的概率(1-α)称为可信度。计算得到的区间称为可信区间(confidence interval,CI)
可信区间通常包括两个数值界定的可信限(confidence limit),分别为上限、下限。 总体均数估计的95%可信区间表示:该区间有95%的概率包含总体均数μ。注意不可以说“总体均数有95%的概率落在这个区间里”。
可信区间估计效果的比较: 1、(1-α)越接近1越好,概率↑ 2、区间宽度越窄越好,精确度↑
但两者是矛盾的。一般选择(1-α)=95%。 t分布(t distribution):是以0为中心的对称分布;当???时,t分布的极限分布就是标准正态
分布。在正态分布的总体中进行抽样,
x-?S/n服从
自由度??n?1的t分布。
t的大小与α、自由度有关。 可信区间的计算:
(X?t?/2,??SX ,X?t?/2,??SX)
若n≥50,则t分布接近标准正态分布,则简化
(X?u?/2?SX ,X?u?/2?SX)
若σ已知,则可简化为
(X?u?/2??X ,X?u?/2??X)
u0.05?1.96,u0.01?2.58
Chapter 假设检验
假设检验(hypothesis test): 目的:比较总体参数有无差别
基本思想:首先对所需比较的总体提出一个无差别的假设,然后通过样本数据推断是否拒绝这一假设。
基本方法:反证法和小概率事件。 基本步骤:
1、建立假设和确定检验水准
无效假设(null hypothesis):H0:μ=μ(或0
μd=0),总体均数无差别。
备择假设(alternative ~):H0:μ≠μ(或0
μd≠0),总体均数有差别
假设有单侧和双侧两种。应用单侧检验一定要有过硬的专业知识。一般选用双侧检验,因为双侧检验得出有显著差别的结论,单侧检验结论也一定是显著差别;然而反之不亦然。
检验水准亦称显著性水准(significance level),用α表示,是预先设定的拒绝域的概率值。一般取0.05。
2、选择检验方法和计算检验统计量 t 来自正态分布(或近似)的小样本(n<50) u 1、无论何种分布的大样本(n≥50时) 2、σ已知的正态分布小样本 F 1、独立的,水平k≥3 4
医学统计学 重点 (2005级 六年制) copyright @ vivian.cat
方差2、均来自于正态分布的总体 分析 3、方差齐 ?2 推断2个或2个以上总体率、构成比之间的差别 非参 1、总体分布偏态或未知 2、个别数据偏大或某段不确定 3、等级资料 3、确定P值、做出统计推断结论
P值的意义:假设检验下结论的主要依据,指在原假设成立的条件下,观察到的样本差别是由机遇所致的概率。
结论:
1、p<α,样本数据差异显著,有统计学意义,拒绝H0,接受H1
2、P>α,样本数据差异不显著,无统计学意义,根据现有样本不足以拒绝H0(不等于接受H0)。
单样本的t检验: 条件:μ,X,S,n
1、H0:μ=μ0 ,α=0.05,双侧检验
2、t=
x-?S/n,??n?1
3、t?/2,?
配对样本t检验:
条件:n,指标1、指标2(d,∑d,∑d2) 1、H0:μd=0,α=0.05 2、t=
?dd/nS??dSd/n
3、t?/2,?
成组设计实验的两样本均数比较 条件:n1,n2,X1,X2,S1,S2 1、H0:μ1=μ2 , 2、u=
X1?X2S22
1/n1?S2/n23、u0.05?1.96,u0.01?2.58
F检验:
条件:表格略
1、H0:各组总体均数相同, H1:各组总体均数不全相同
2、F?MSMSTR?SSTR/?TRESSE/?,
EvTR=k-1,vE=n-k
3、F符合自由度为(k-1,n-k)的F分布。 F值接近1,则可认为均值只来源于随机波动。
若F>1,且F>Fα,(k-1,n-k),则P<α,??。
假设检验中的两类错误:
1、第一类错误:当H0为真时,拒绝H0接受H1。又称假阳性错误(阳性指两者总体参数有差异)。检验水准α是预先规定的犯第一类错误的概率的最大值。
2、第二类错误:当H0为假时,不拒绝H0。又称假阴性错误。概率大小用β表示,只取单侧,一般未知。
可证,α越大β越小,α越小β越越大。若要同时减少第一类错误和第二类错误,唯一方法是增大样本含量。
5
医学统计学 重点 (2005级 六年制) copyright @ vivian.cat
简单四格表的?2检验:
有效 无效 合计 药物1 a b a+b=n1 药物2 c
d
c+d=n0
合计
a+c=m1 b+d=m0 N
1、H0:?1??2,α=0.05
2、??1
当n≥40,且所有T≥5时,四格表专用公式
?2?(ad?bc)2n(a?b)(c?d)(a?c)(b?d) 当n≥40,但有1 ?2?(|ad?bc|?1)2n(a?b)(c?d)(a?c)(b?d) 当n≤40,或有T≤1时,使用Fisher确切概率公式 ?2?(a?b)!(c?d)!(a?c)!(b?d)!a!b!c!d!n! 3、?20.05,1=3.84,?20.01,1=6.63 配对四格表?2检验: 对照组 病例组 有暴露史 无暴露史 合计 有暴露史 a b a+b=n1 无暴露史 c d c+d=n0 合计 a+c=m1 b+d=m0 N 1、H0:?1??2,α=0.05 2、??1, 当b+c≥40时,?2?(b-c)2b?c 当b+c<40时,?2?(|b-c|?1)2b?c 3、?220.05,1=3.84,?0.01,1=6.63 行*列资料的?2检验: 有效 无效 合计 药物1 a b n1 药物2 c d n2 药物3 e f n3 合计 m1 m2 N 1、H0:各组有效率相同, H1:各组有效率不全相同 22、?2?n(?An?1), RnC??(行数-1)(列数-1) 3、?2?,? Chapter 相对数及其应用 相对数(relative number):是两个有关的据对数 之比,也可以是两个有关的统计指标之比。常用的有:率、比值比、构成比。 率(rate):表示在一定的范围内某现象的发生数与可能发生的总数之比。 构成比(constitute ratio):表示某事物内部组成部分在总体中的比重。 相对比(relative ratio):A、B两有关联的指标之比,用以描述两者的对比水平。如RR。 6