统计学复习
基本概念部分
总体和样本 观察单位
随机样本和非随机样本的随机化 变量、随机变量;变量的类型
连续变量:有单位,理论上变量值可以充满区间。 分类变量:属性。
无序分类变量,虽可以用数值表示第几类,但数值无意义,只是代号。
有序分类变量,虽可以用数值量化,但数值的大小无意义,意义在于数值之间的间距和顺序关系。
计数变量:特点是离散、有序。某些情况下可以按连续变量处理。 实际频数分布
观察单位个数的分布。
连续变量要按变量值分组段,总结各组段观察单位的个数。 计数变量要按观察时间单位、面积单位总结计数变量值本身。 分类变量要按类别总结观察单位的个数。
实际上,后面两种变量在只有一次抽样时无法完成实际频数分布的刻画。 数据的集中趋势和离散趋势 集中趋势
连续变量对称分布:算术平均数(简称均数)+中位数。连续变量非对称分布:中位数。
分类变量:具有所关心特征(类别)的观察单位的个数(频数)。百分构成(比例)、率、比。
计数变量:单位时间、单位面积内所关心事件的发生数。求和问题。 离散趋势:衡量距集中趋势远近的程度
连续变量对称分布:离均差平方和、方差、标准差。连续变量非对称分布:百分位数间距。
抽样变异和抽样分布
抽样变异:反复抽样后,每个样本都是不同的。反复抽样指每次抽样的样本量相同。 抽样分布:反复抽样后,样本集中趋势的分布。对于连续变量样本标准差当然也是有分布的,但本处不考虑。
连续变量:样本均数的分布—按样本均数值分组段,总结各组段样本的个数。
分类变量:具有所关心特征(类别)的观察单位的个数(频数)的分布—按观察单位的个数总结样本的个数。
计数变量:单位时间、单位面积内所关心事件的发生数的分布—按发生数总结样本的个数。
抽样分布的集中趋势和离散趋势
连续变量:反复抽样样本均数的均数—集中趋势;反复抽样样本均数的标准差(标准误)—离散趋势。
分类变量:反复抽样样本具有所关心特征(类别)的观察单位的个数(频数)的均数—集中趋势;具有所关心特征(类别)的观察单位的个数(频数)的标准差(标准误)--离散趋势。
1
计数变量:反复抽样样本单位时间、单位面积内所关心事件的发生数的均数—集中趋势;反复抽样样本单位时间、单位面积内所关心事件的发生数的标准差(标准误)--离散趋势。
相对频数分布和概率分布(请只考虑抽样分布) 各组段样本数占总样本数的比例的分布。
当反复抽样样本的样本量足够大时,相对频数分布逼近概率分布(理论分布)。 各种各样的理论分布 原始数据分布
正态分布、对数正态分布、二项分布、泊松分布等等。 抽样分布
当样本量足够大时,任何原始数据分布的抽样分布均逼近正态分布(中心极限定理)。 标准正态分布
正态分布数据的标准化。对于连续变量还涉及t分布。 正态分布(含标准正态分布和t分布)的性质
样本信息对总体的统计推断(请只考虑集中趋势的推断) 所有的推断均是基于抽样分布的。 要求随机(大)样本 区间估计
连续变量:样本均数推断总体均数;利用样本均数的标准差(标准误)构建总体均数的可信区间。
分类变量:样本百分构成(比例)、率、比推断总体相应参数;利用标准误构建相应总体参数的可信区间。
计数变量:样本单位时间、单位面积内所关心事件的发生数推断总体相应参数;利用标准误构建相应总体参数的可信区间。
假设检验:评价样本来自于某参照总体的可能性。
无效假设:用来推翻的假设。如:假设样本来自于某参照总体。
备择假设:用来接受的假设,是和无效假设的对立的假设。如:假设样本不是来自于某参照总体。
检验水准:评价上述可能性是大还是小的标准。如可能性小于检验水准则拒绝无效假设,接受备择假设。反之,则说明尚无足够证据推翻无效假设。检验水准有单侧和双侧之分。
界值:对应于检验水准的某分布上的百分位数。 其他基本概念
观察性研究和实验性研究、前瞻性研究和回顾性研究、纵向研究和横断面研究、定群研究和病例对照研究、对照、双盲;小概率事件、P值、I型错误和II型错误、检出力、多重检验问题;相关关系和因果关系、残差。
基本计算部分
连续变量的均数、离均差平方和、方差(含均方)、标准差、标准误、百分位数(含中位数)。
二分类变量的百分构成及其标准误、Relative Risk(RR,相对危险度)、Odds(比数)及Odds Ratio(OR,比数比)
统计推断中的计算
总体均数(率)的可信区间的构建。
正态法或正态近似法:大样本或满足某些条件时。
2
对于连续变量还可以利用t分布。 假设检验中检验统计量的构建。
正态法或正态近似法:大样本或满足某些条件时。u统计量或z统计量。 对于连续变量还可以利用t分布。t统计量。
其他:F统计量(含方差齐性检验用和方差分析用):两个方差之比。秩和。H统计量。(Pearson)?2统计量。
数据的统计分析策略部分
研究设计类型
比较研究(请只考虑平行设计)(无效假设的构建)
连续变量(含参数法和非参数法)
参数法是假设数据服从某种分布,而非参数法则无此要求。
单样本数据:样本均数和参照总体均数的比较—判断该样本是否来自于该参照总体。
两样本数据
配对数据:差值的均数和0的比较—判断差值样本是否来自于均数为0的总体。 独立数据:两样本均数的比较—判断两样本是否来自于同一总体。 多样本数据
配伍组设计资料的方差分析。 完全随机设计资料的方差分析。 分类变量(请只考虑参数法)
单样本二分类数据(请只考虑正态近似法):样本百分构成或率和参照总体百分构成或率的比较判断该样本是否来自于该参照总体。
四格表资料
配对数据:一致性分析。
独立数据:两样本百分构成或率的比较—判断两样本是否来自于同一总体。 请熟悉Fisher精确概率检验法。 行?列表资料
双向无序数据:检验行变量和列变量是否存在普遍关联。
单向有序数据:评分,检验无序变量水平间平均分的差异。同方差分析。
双向有序数据:评分,检验行变量和列变量之间是否存在相关。同两个连续变量
之间的相关。
相关和回归:研究一个变量(结果变量)和另一个变量(解释变量)或一个变量和多个其他变量之间的相关性及确定他们之间的数量关系。
相关要求变量为连续、正态变量。而回归只要求结果变量为连续、正态变量。 回归系数
熟悉估计方法;含义;检验方法;总体回归系数可信区间的构建。
使用回归分析时应注意的问题。
具体统计分析方法的适用条件(含校正问题)
3
绪论
★ 变异和变量
?许多医学现象的表现因人而异,称之为变异 ?表示个体某种变异特征的量称为变量 ?变量的观察值称为变量值 ?变量一般分为三类: 编 号 01 02 03 04
表1.1 常见医学数据的定义、记录及其统计术语 数据定义 数 据记 录 统计术语
X Y Z ?变量(名) 性别 体重(kg) 滴度
55 +=1 1 55 1 男=1
50 -=0 0 50 0 女=0
60 ++=2 0 60 2 ?变量值 女=0
65 +++=3 1 65 3 男=1
?变量类别 分类资料 定量资料 等级资料
定量资料的统计描述
★ 统计描述方法步骤:描述样本数据分布特征 1. 频数表:较详细、较精确
2. 频数图(直方图):较详细、较直观(频数大小用面积来衡量)
3. 统计指标:概括性强、可借用理论分布作统计推论 ? 标准差可理解为“平均”差别 ★ 据分布类型选用统计指标:
1. 常见的生理指标服从或近似正态分布:X?S 2. 常见的抗体滴度服从或近似对数正态分布:G
3. 偏态分布资料如 潜伏期、住院天数、住院费用:M, Q
正态分布
总体均数的估计和检验
★ 正态分布和统计使用:
数据分布 统计使用 P=0.025 ★ 小概率事件的实际不可能性
大样 P=0.025 频数分布范围 本 参考值范围 数★ 假设检验基本思想:(框图) 据x u ?-1.96S ? ?+1.96S 【例】由大量调查的结果得中国城市12岁男孩身高的均数为145.28cm(当作总 -1.96 0 1.96 体均数?0=145.28),某市的样本均数及标准误分别为 (c). 标准正态分布图(u检验) (a). 变量正态分布图(频数分布)
x=143.07(cm),Sx=0.82(cm) 问是否可认为该市12岁男孩身高抽 P=0.025 (?=?)未达到全国的平均水准? 样 可信区间 解:其步骤和基本思想如下试在这里我们要考虑抽样误差,可用假设检验的方法来分析, 假设检验 验述。 均数 ?-1.96 ? ?+1.96 x或(x1?x2) SxSx t -3 -2 -1 0 1 2 3 x??样本差异():143.07-145.28=-2.21cm 0(d). t分布图(t检验) (b). 抽样试验的样本均数分布图(误差分布)
图1. 资料分布和统计使用示意图 有本质差别(H1)? 抽样误差引起 (H0)? ? (标准正态) ??? ???
(未知规律) (有分布规律) 4
步 骤
1. 建立无效假设 例: H0 ?=?0 H1 ?≠?0
?=0.05(水准) 2. 计算统计量 例:选u检验
x??
u?Sx?2.695 假设和分析 判断(概率意义下的反证法) H0:总体均数相等 H1:总体均数不等 当H0成立时, 误差服从u分布 根据u分布规 律判断P值 -1.96 1.96 P=0.025 3. 作出统计结论 例:P<0.05,拒绝 H0,接受H1
-3 -2 -1 0 1 2 3 u 是 (若P?0.05, 则拒绝H0, 接收H1) (若P?0.05,则不拒绝H0 ?“接受”H0) u ?1.96 4. 写出检验报告 例:该市12岁男孩身高
否 低于全国平均水平
图3.3 假设检验逻辑过程示意图
注意:上述检验过程是概率意义下的反证法,不论是否拒绝H0,都会犯错误,结论是
相对的,千万不要绝对化(详见下节)。 ★ 单侧双侧问题:
? 单侧和双侧参考值范围:
①双侧:观察值过高或过低均属异常,如脉率
②单侧:已知 分布在某一侧属正常,如血中毒物含量 ? 单侧和双侧可信区间:
①双侧:总体均数既可能在样本均数的左侧,又可能在右侧 ②单侧:已知 总体均数一定在样本均数的某一侧(经验判断) 或质量控制要求,不允许出现某一侧事件 ? 单侧和双侧检验:
①双侧:备择假设H1为?≠?0
②单侧:已知 总体均数一定落在右侧(或左侧)(经验判断) ? note: 只有对总体有所了解或特殊要求时,才能用单侧 ★ 资料的统计分析方法(系统过程):三大步骤 1. 描述 样本数据:图表(可省)和统计描述指标 ①正态(如生理指标):X?S ②对数正态(如抗体滴度):G ③偏态(如住院天数或潜伏期):M~Q 2. 估计 总体参数:常可省略
3. 检验 总体参数:注意对比类型、单侧双侧 ? 以上内容是统计基础(全面复习)。
? 以上内容讲述了定量资料统计分析系统,其它类型资料的统计分析也是上述三大步骤。
方差分析
5