集中趋势的描述
算术均数: 频数表资料(X0为各组段组中值)
X?1.96S
s?Xx??fX??fXn?fO样本均数标准误的估计值为
OsnF?
MS组间 ?1??组间?k?1, ?2??组内?N?kMS组内
多个样本间的多重比较
Dunnett 检验:用于各实验组与对照组比
G?log?1(t分布的概念:小样本总体标准差未知时,服从自由度为n-1
几何均数:
G?nX1X2...Xn 或
?logX)n
t?的t分布
X??X???sXs/nt? 11 X?Xi SMS误差(?)x?xi?nniSX?Xi??flogX??flogX??1?G?log?1???lg??fn???? ???频数表资料:
*M?Xn?1总体均数可信区间的计算:
大样本或总体标准差已知:式(1); 小样本:式(2)
查dunnett界值表,确定P,自由度等于方差分析中ν误差 SNK-q检验:用于各组间全面的两两比较 Q= X?XABM? (2)
中位数:(1)百分位数
21**(Xn?Xn)?1222
为欲求的百分位
X?1.96?(1)
St?t0.05,(n?1)?Snn (2)
SXA?X?(XA?XB)/BMS误差11
(?)2nAnBPX?L?i?X?n??fL?其中:L?fX?100?单样本t检验:检验统计量:式(1);样本例数估计:式(2) 查q界值表确定相应的概率P,自由度等于方差分析中ν
t?数所在组段的下限 , i为该组段的组距 , n为总频数 , 该组段的的频数 ,
fX为
(1)
X??0(Z?Z?)?2N?[?/2]S/n自由度为 n-1;?(2)
误差,表中a为按均值大小排序,两对比组所包含的组数。 二项分布的概率函数P(X):
fL为该组段之前的累计频数
配对样本t检验: 检验统计量:
方差: 总体方差为:式(1); 样本方差为 式(2)
t??(X??)2??N(1)
2 (2)
S2??(X?X)2n?1
d?0 样本量计算同前
Sd/nt?X1?X211Sc(?)n1n2P(X)?C?X(1??)n?XXnCnX?;
n!X!(n?X)!
二项分布的均数和标准差 :进行n次独立重复试验,出现X次阳性结果
(错)
X的总体均数为?总体标准差为?标准差:
?(X?X)2S?n?1两样本t检验:检验统计量:
?n? 总体方差为?2?n?(1??)
XnS??X2?(?X)2/nn?1
2或 (n?1)S12?(n2?1)S2?(X1?X1)2??(X2?X2)2
Sc2?1?n1?n2?2n1?n2?2?n?(1??)
p?如果将阳性结果用频率表示
率的总体均数
频数表资料计算标准差的公式为
随机分组方法: 样本例数估计方差不齐的近似t检验
N?[(Z?/2?Z?)???1]2(Q1?1?Q2)
?fx2?(?fx)2/?fS??f?1
变异系数:当两组资料单位不同或均数相差较大时,对变异
?p???p? 标准差
?(1??)n
检验统计量:式(1) ;校正自由度为:式(2)
t?SCV??100%X大小进行比较,应计算变异系数
'X1?X22S12S2?n1n2?? (2)
(sx21?sx22)2sx41n1?1n2?1
?sx42Sp?p(1?p)?n?1p(1?p)n
又称率的标准误它反映率的抽样误差的大小。
单侧累积概率计算:出现阳性的次数至多为k次的概率为
(1)
常用的相对数指标 (一)率 (二)相对比(三)构成比 1.直接法标准化
方差齐性检验:H0:两总体方差齐,H1:两总体方差不齐,α=0.1
p' ??Npii
Np'??(2分子自由度为n1-1,分母自由度Ni 检验统计量:F?S(较大)1)pi2S(较小)N2P(X?k)??P(X)??X?0kn!?X(1??)n?XX?0X!(n?X)!k
出现阳性的次数至少为k次的概率
实际人数SMR?SMR?预期人数 2.间接法标准化
r?niPi为n2-1
方差分析的基本思想: 1、总变异:总离均差平方和:
P(X?k)??P(X)??X?knn!?X(1??)n?X
X?kX!(n?X)!nP'?P?SMR
正态分布:密度函数:
率的可信区间的估计 正态近似法:当np,n(1?
f(X)?1?(X??)2/(2?2)
e?2?SS总=SST???(Xij?X)2 ?总???N?1ijp)均大于等于5时
分布函数: 小于X值的概率,即该点正态曲线下左侧面积
??X?(?X)/n
22P?1.96?p(1?p)p(1?p)
,p?1.96nnF(x)?P(X?x)
特征:(1)关于x=μ对称。(2)在x=μ处取得该概率密度函数的最大值,在x????处有拐点,表现为钟形曲线。(3)曲线下面积为1。(4)μ决定曲线在横轴上的位置,?决定曲线的形状 。(5)曲线下面积分布有一定规律
标准正态分布:对任意一个服从正态分布的随机变量,作如下标准化变换
X??,u服从总体均数为0、总体标准
2. 组间变异:组间变异反映了处理因素的影响(如处理确实有作用),同时也包括了随机误差(含个体差异和测量误差)。
样本率与总体率的比较:
检验假设H0:π=π0,H1:π≠π0 1 . 满足正态近似时,计算检验统计量
SS组间=SSB=?ni(Xi?X)2 ?组间??1?k?1i
=
?i(?Xij)2ni?CX?n?0Z?n?0(1??0)Z? 或
p??0?0(1??0)n
2. 不满足正态近似时用直接概率计算法
两样本率的比较:H0:π1=π2,H1:π1≠π2, 检验统计量:
3. 组内变异:组内变异仅反映随机误差(含个体差异和测量误差),故又称误差变异。
u??差为1的正态分布。
u值左侧标准正态曲线下面积为标准正态分布函数,记作
SS组内?SSW?SSE???(Xij?Xi)2??iji|p1?p2|11pc?(1(ni?1)Si2 ?组内??2?Nk?pc)(?)n1n2Z?
pc?
X1?X2n1?n2
(uSS) SS组内??W?SSE???(Xij?Xi)??(ni?1)Si ?组内??2?N?k
医学参考值的确定方法:(1)百分位法:双侧(P25,P975),单侧P95以下或P5以上,该法适用于任何分布型的资料。(2)正态分布法:若X服从正态分布,双侧医学参考值范围为
ijiPoisson分布的概率函数为
POISSON分布的应用:
?总?N?1?(k?1)?(N?k)??组间??组内自由度为ν2的F 分布
P(X)?e???XX!
组间均方与组内均方比值一般地服从分子自由度为ν1,分母
单侧累计概率计算:稀有事件发生次数至多为k次的概率
为
统计量
kk???X
P(X?k)??P(X)??eX!X?0X?0发生次数至少为k次的概率为
Ri212H??3(N?1)?N(N?1)niSS回?b?lxy?回归方程的应用: (1)Y
2lxylxx?b2?lxx,
SS残?SS总?SS回
确定P值并做出推断结论:如取相同秩次个数较多时需校正
P(X?k)?1?P(X?k?1)
总体均数的区间估计:正态近似法
95%总体均数的可信区间为X?1.96X,X?1.96X 样本率和总体率的比较
正态近似法: 当满足正态近似条件时, 对检验假设 H0:λ=λ0,H1:λ≠λ0, 检验统计量为
Hc?Hc c?1?的总体均数的(1-α)置信区间
?(t,M3j?tj)(N?N)3
随机化区组设计资料的秩和检验:计算统计量M值
M??(Rj?R)2??Rj?bk(k?1)222/4
,
(2)个体Y预测值的区间估计
Sy??Sy.x??tY??,n?2Syp21(Xp?X)?n?(Xi?X)2
?p?t?,n?2SY|Xpy
确定P值并做出推断结论:χ2分布近似法:当处理数k或区组数b超出M界值表的范围时,采用近似 χ2 分布法
SY|Xp?SY.X21(Xp?X)1??n?(X?X)2Z?X??
?1212M?r2???bk(k?1)bk(k?1) 或
2r?Rj?1k2j?3b(k?1)
样本含量的估计:单样本均数检验(1)两样本均数比较(2)单样本率检验(3)两样本率比较检验(4)
两组独立样本资料的Z检验 :当两总体均数都大于20时, 对检验假设H0:λ1=λ2, H1:λ1≠λ2,当两样本观测单位数相等时,检验统计量为:式(1);当两样本观测单位数不等时,检验统计量为:式(2)
自由度为(k-1) 。当各区组间出现相同秩次时,需进行校正 ,校正公式为(其中b为区组个数,k为处理组个数)
N?[(Z?/2?Z?)??]2N?[(Z?/2?Z?)???1]2(Q1?1?Q2)
?c2?Z?X1?X2X1X2?n1n2
?2c
c?1??(t?tj)bk(k?1)3j2N?[
Z??Z??]2?0?1??0???Q1?1?Q2?2]2
(1)
X?X2Z?1X1?X2直线相关:
Pearson积差相关系数:描述线性相关程度
N?[Z??(1??)(Q1?1?Q2?1)?Z??1(1??1)/Q1??2(1??2)/Q2 (2)
?1??2四格表?2检验的步骤: 1.检验假设, H0:两总体率相等,H1:两总体率不等。Α=0.05 。2.统计量3. 确定p值。4. 结论。
n≥40,且T≥5,?=(行数-1)(列数-1) (A?T)2T?2??T ,
r?lxylxxlyy??(x?x)(y?y)i?1n多元线性回归的数学模型为
?(x?x)?(y?y)2i?1i?1nn2Yi??0??1x1i??2x2i?...??kxki??i 其中,Yi
为第i样品反应变量的实际观测值;β0为常数项,εi第i
2nn?rcn,
?2? (ad?bc)2n(a?b)(c?d)(a?c)(b?d)?n??n?x??yi????inni?12??2lyy??yi??i?1?lxx??xi?nni?1i?1,
2样品的误差项,要求服从N(0,σ2)分布
样本估计回归方程 y??b0?b1x1?b2x2?...?bkxk Logistic回归模型: Logistic回归与多元回归的不同之处
当n≥40,如果有某个格子出现1<T<5,校正公式
lxy??xiyi?i?1n?x?yii?1i?1nni式中Lxx,Lyy,Lxy分别表示X的离
?2??(A?T?0.5)2
Tne011pp1 P??0??1X1?...??pXpP??(?0??1X1?...??pXp)1?e1?elogitP?lnP????x1??x2????xm012m1?P???X?...??X?2?(|ad?bc|?n/2)n
(a?b)(c?d)(a?c)(b?d)2均差平方和、Y的离均差平方和、X与Y的离均差乘积和。 相关系数的统计推断:检验假设为H0 :ρ=0,H1 :ρ≠0
注意如果出现n<40或一个T<1则不能用?2检验
多样本率和构成比的χ2检验:假设H0:各总体率相等,H1:各总体率不等或不全等,α=0.05,自由度 ?=(行数-1)(列数-1)。统计量为
Logistic回归的参数估计:似然函数:通常用最大似然估计法求解模型中参数的估计值。参数的意义与比数比: ?*P????(*?)??(*?)????(*?)ln?P*xxxxxx1122mm2m?1??1?P1?P?等式左边为比数比。logistic回归系数的意义是:在其他自变量固定不变的情况下,自变量的暴露水平每改变一个观测单位时所引起的比数比的自然对数改变量
连续型变量总体均数的估计:总体均数的置信区间 :
1?r2r?0
sr?tr?n?2sr简单线性回归模型表述为Yi 自由度为n-2的t分布
直线回归:反应变量(Y)依赖于另一自变量(X)
(A?T)2?2???T 或
2??A?n???nn?1??rc??
2????Xi??i,Yi 为第 i
个个体的反应变量值,Xi为其自变量值,α为回归直线的截
距参数,β为回归直线的斜率参数, εi为误差。
构成比的比较:假设H0:构成比相同,H1:构成比不同 配对四格表的χ2检验:配对设计列表:假设H0:B=C两阳性率相等; H1:B≠C两阳性率不等
检验统计量:式(1) 若 b+c<40:式(2) (1)
??a?bX,a与b分别为模型线性表达式称为回归方程:Y参数α与β的估计;是与X相对应的Y的平均值 回归参数估计的最小二乘原则 :
??Y?(a?bX),用一定的数学方残差为e?Y?Yiiiii?2?(b?c)2 (2)2(|b?c|?1)
??b?cb?c2法确定a和b的适宜值,使所有n个数据点的残差平方和达
到最小值,则称这一对a和b为和的最小二乘估计
n两分类变量的关联性检验:假设:H0:两分类变量无关 (满足概率独立性) ,H1:两分类变量有关
配对设计资料的符号秩和检验:正态近似法:计算u统计量,如果数据超出表的范围可计算u统计量。下式中tj为第j(j=1,2…)次相持所含相同秩次的个数 Zc?T?n(n?1)/4n(n?1)(2n?1)?(t?tj)?2448
3jb??(Xi?1ni?1ni?X)(Yi?Y)b?i?XY?iii?1(?Xi)(?Yi)i?1i?1nnx?t?/2,n?1SE(x) x?Z?/2SE(x)
样本均数的标准误 :
n?(?Xi)2i?1nSE(x)?1?nsx Nn?(X?X)2?Xi?1n2in0-1变量总体概率的估计:样本率的标准误 :
SE(p)?p(1?p)?n?1回归截距a :a?Y?bX
回归系数的统计推断:H0: β=0, H1:β≠0 (1)t检验(自由度为n-2)
总体率的置信区间
nnp(1?p)SE(p)?1?Nn,p(1?p)n?1
两独立样本比较的秩和检验:确定P值和作出推断结论。如果n1或n2-n1超出了成组设计T界值的范围,可用正态近似
p?Z?/2SE(p)
Z?检验。
T?n1(n1?n2?1)2n1n2(n1?n2?1)12
ZZc?c
b??tb?Sbsb? ,
sy.x连续型变量总体均数估计的样本:
2ii?(Xi?1ni?X)sy.x?,
2?(Y??Y)i?1样本例数估计主要依据为总体指标可信区间
n?2X?z???n
3 c?1??(t3j?tj)/(N?N)完全随机化设计多组独立样本的秩和检验:
(2)方差分析法:总变异SS总,回归平方和SS回,残差平方和SS
残, SS总=SS回+SS残; MS是均方,即SS与自由度之商。MS回与MS残之比值就是F值。
SS总??(y?y)??y?(?y)222??z??规定容许误差为δ:
?n 则有:
2n?z??/n
?2?2