集中趋势的描述算术均数:
频数表资料(X0
为各组段组中值)
X1.96S
F
MS组间MS组内
1
组间
k1,
s
样本均数标准误的估计值为t分布的概念:
s
X
2
组内
Nk
x
fXOf
fXOn
1
n
n-1
多个样本间的多重比较
Dunnett 检验:用于各实验组与对照组比
小样本总体标准差未知时,服从自由度为
几何均数:
G
n
X1X2...Xn
flogXf
Glog(或
flogXn
logXn
)
的t分布
t
XsX
Xs/n
t
XSX
Xi
Xi
Sx
xi
(MS误差
1n
1ni
)
ν误差
Glog
1
lg
1
总体均数可信区间的计算:大样本或总体标准差已知:式(
*
n2
查dunnett界值表,确定P,自由度等于方差分析中
1);小样本:式(2)
SNK-q检验:用于各组间全面的两两比较Q=
频数表资料:
M
中位数:(1)百分位数
X
*
n12
M
(2)
1*(Xn22
X
1
)
X
(1)
1.96
Sn
(2)
tt0.05,(n
1)
S
n
XASX
A
XB
XB
(X
A
XB)/
MS误差
2
(
1nA
1nB
)
PX
L
ifX
Xn100
fL
其中:L为欲求的百分位
单样本t检验:检验统计量:式(1);样本例数估计:式(
(Z
Z)
2)查q界值表确定相应的概率P,自由度等于方差分析中
两对比组所包含的组数。
ν
t
, n为总频数
,
XS/
0
误差,表中a为按均值大小排序,
]
2
数所在组段的下限该组段的的频数
,
, i为该组段的组距
fX为
(1)
n自由度为
N
n-1;(2)
[
/2
二项分布的概率函数P(X):
X
n
fL为该组段之前的累计频数
样本方差为
式(2)
配对样本t检验:检验统计量:
方差: 总体方差为:式(1);
t
2
dSd/
0n
样本量计算同前
P(X)
CnXX(1
)
nX
;
C
n!X!(n
X)!
(XN
)
2
S2
(2)
(Xn
X)21
二项分布的均数和标准差
t
XSc(
1
:进行n次独立重复试验,出
(1)
X1n1
2
现X次阳性结果
1)(错)
2
S
标
准
差
:
2
(XX)
2
两样本t检验:检验统计量:或
S
2
c
n2
X的总体均数为总体标准差为
n
n(1
总体方差为
2
n(1)
n1
(n11)S12
n1
(n2n2
2
1)S22
(X1X1)n1(Z
2
(X2
n2
2
X2)
)p
Xn
(1
)
p
S
X
2
(X)/nn1
资
2
N
频
数
表
料
计
2
[
/2
Z)
算标准差的公式为
随机分组方法: 样本例数估计方差不齐的近似
t检验
2)
](Q1
21
Q2)
1
如果将阳性结果用频率表示
S
fx(f
fx)/1
f
率的总体均数
p
标准差
n
检验统计量:式(1) ;校正自由度为:式(
变异系数:当两组资料单位不同或均数相差较大时,对变异
t
大小进行比较,应计算变异系数常用的相对数指标
(一)率
CV
SX
100
%
'
X1S
21
X2S
22
(sx1sx1
(2)
4
2
sx2)
22
Sp
p(1p)n1
p(1p)n
sx2
4
又称率的标准误它反映率的抽样误差的大小。单侧累积概率计算:
k
(1)
(二)相对比(三)构成比
n1n2n11n21
出现阳性的次数至多为
k
k次的概率为
方差齐性检验:H0:两总体方差齐,H1:两总体方差不齐,α=0.1
P(Xk)
1.直接法标准化
P(X)
X0
X0
n!X!(nX)!
X
(1)
nX
p
'
NipiN
SMR
实际人数预期人数
p
'
(
NiN
检验统计量:
)pirniPi
为n2-1
F
2
分子自由度为(较大)S1
2
(较小)S2
n1-1,分母自由度
出现阳性的次数至少为
n
k次的概率
n
SMR
2.间接法标准化
方差分析的基本思想:1、总变异:总离均差平方和:
P(Xk)
Xk
P(X)
Xk
n!X!(nX)!
X
(1)
nX
P
'
PSMR
f(X)
12e
(X
)/(2
2
2
率的可信区间的估计
正态分布:密度函数:
)
SS总=SST
i2
j
(Xij
X
(
2
X)
2
总
N1
正态近似法:当
np,n(1p)均大于等于
5时
P1.96
(如处理确实有
)。
分布函数:小于X值的概率,即该点正态曲线下左侧面积
X)/n
p(1p)p(1p)
,p1.96nn
F(x)P(Xx)
2. 组间变异:组间变异反映了处理因素的影响作用),同时也包括了随机误差
样本率与总体率的比较:
检验假设H0:π=π0,H1:π≠π0 1 . 满足正态近似时,计算检验统计量
特征:(1)关于x=μ对称。(2)在x=μ处取得该概率密度函数的最大值,在曲线下面积为曲线的形状
(含个体差异和测量误差
x
处有拐点,表现为钟形曲线。(3)
决定
=SSB=SS组间
i
ni(Xi
2
X)2
组间
1
k1
1。(4)μ决定曲线在横轴上的位置,。(5)曲线下面积分布有一定规律
对任意一个服从正态分布的随机变量,作如
,u服从总体均数为
=
i
(
Xij)ni
Z
Xn
0
n(1
00
Z
p
0
0
(1n
)
0
)
或
标准正态分布:下标准化变换
C
(含个体差异和测量误
2. 不满足正态近似时用直接概率计算法
两样本率的比较:H0:π1=π2,H1:π1≠π2, 检验统计量:
u
X
0、总体标准
3. 组内变异:组内变异仅反映随机误差差),故又称误差变异。
差为1的正态分布。
u值左侧标准正态曲线下面积为标准正态分布函数,记作
Z
|p1
2
p2|1n1
1n2
)
pc
X1n1
X2n2
X
SS组内SSWSSE
i
j
(XijXi)
2
i
(ni1)S
2
i
组内
pc(1Nkpc)(
SS组内
(u)SS
W
SSE
i
j
(XijXi)
i
(ni1)Si
组内
总
2
Nk
1
(k1)
(N
k)
组间
组内
Poisson分布的概率函数为
医学参考值的确定方法:
(1)百分位法:双侧(P25,P975),单
(2)正
N
P(X)e
X!
侧P95以下或P5以上,该法适用于任何分布型的资料。态分布法
:若X服从正态分布,双侧医学参考值范围为
组间均方与组内均方比值一般地服从分子自由度为自由度为ν2的F 分布
ν1,分母
POISSON分布的应用: 单侧累计概率计算
:稀有事件发生次数至多为
k次的概率
为
k
k
X
统计量
H
12N(N
1)
Rini
2
3(N1)
SS回blxy
:
lxylxx
2
blxx
,
2
SS残
SS总SS回
P(Xk)
X0
P(X)
X0
e
X!
确定P值并做出推断结论:如取相同秩次个数较多时需校正回归方程的应用(1)Y
发生次数至少为k次的概率为
P(Xk)1P(Xk1)
Hc
Hc
的总体均数的(1-α)置信区间
c1
(t3jtj)(N3
N)
M值
总体均数的区间估计:正态近似法随机化区组设计资料的秩和检验:计算统计量
?Y
1)
2
t
,n
?2Sy
Sy?p
,
Sy.x
1n
(X
p
X)2X)2
(Xi
95%总体均数的可信区间为样本率和总体率的比较正态近似法
X1.96X,X1.96X
M
(Rj
R)2
,
MRj
2
bk(k
2
/4
k或
(2)个体Y预测值的区间估计
y?pt
,n2Y|Xp
S
确定P值并做出推断结论:
, 对检验假设
H0:λ=
χ2分布近似法:当处理数
: 当满足正态近似条件时区组数b超出M界值表的范围时,采用近似χ2 分布法
2
j
SY|XpSY.X1
1n
(Xp
(X
X)2X)2
1)两样本均数比较
4)
λ0,H1:λ≠λ0, 检验统计量为
Z
X
2r
12Mbk(k
1)
或
2r
12bk(k1)
k
R
j1
3b(k1)
样本含量的估计:单样本均数检验((2)单样本率检验(
3)两样本率比较检验(
两组独立样本资料的Z检验:当两总体均数都大于20时, 对自由度为(k-1)。当各区组间出现相同秩次时,需进行校正,校正公式为(其中
2
2c
检验假设H0:λ1=λ2, H1:λ1≠λ2,当两样本观测单位数相等时,检验统计量为:式(时,检验统计量为:式(
2)
Z
(2)
X1X1n1
X2X2n2
H0:两总体率相等,
1);当两样本观测单位数不等
b为区组个数,k为处理组个数)
N[
(Z
/2
Z)
]N
2[
(Z
/2
Z)
](Q1
21
Q2)
1
c
c1(tj
3
tj)bk(k
2
1)
N[
ZZ
]2
0
1
0
Q1
N[
Z
(1
)(Q1
1
1
Q2
]
2
2
Z
(1)四格表
X1X1
X2X2
直线相关:
Pearson积差相关系数:
n
Q2)Z
1
1
1
(1
1
)/Q1
2
(1
2
)/Q2
描述线性相关程度
2
2检验的步骤: 1.检验假设,
H1:两总体率不等。Α=0.05。2.统计量3. 确定p值。4. 结论。
n≥40,且T≥5,=(行数-1)(列数-1)
r
lxylxxlyy
n
(x
i1
x)(y
n
y)(y
y)
2
多元线性回归的数学模型为
Yi
01
x1i
2
x2i...
k
xki
i
其中,Yi
(x
i1
x)
2i1
为第i样品反应变量的实际观测值
n
2
;β0为常数项,εi第i
n
n
2
样品的误差项,要求服从样本估计回归方程
N(0,σ2)分布
xi
x
2
i
i1
n
yi
y
2i
i1
2
(AT)T
2
,
T
nrncn,
2
lxx
(ad
(a
b)(c
bc)n
c)(b
d)
2
i1
n
lyy
,
i1
?y
b0b1x1b2x2
...
bkxk
n
Logistic回归模型: Logistic回归与多元回归的不同之处
d)(a
nn
当n≥40,如果有某个格子出现1<T<5,校正公式
n
xi
xiyi
i1
i1
yi
lxy
2
i1
式中Lxx,Lyy,Lxy分别表示X的离
P
e
0
1X1
......
pXppXp
2
(AT0.5)
T
2
2
n
X与Y的离均差乘积和。H0
:ρ=0,H1 :ρ≠0
1e
ln
0
1X1
P
1
1e
1
2
(
0
1X1...pXp)
(|ad(ab)(c
bc|n/2)nd)(a
c)(bd)
均差平方和、Y的离均差平方和、相关系数的统计推断:
检验假设为
logitP
P1P
0
1
xx
2
m
x
m
注意如果出现n<40或一个T<1则不能用2检验
Logistic回归的参数估计:似然函数:通常用最大似然估
参数的意义与比数比:
*
*
多样本率和构成比的χ2检验:假设H0:各总体率相等,H1:
α=0.05,自由度
=(行数-1)(列
各总体率不等或不全等,数-1)。统计量为
tr
rsr
0
sr
1r
2
自由度为n-2的t分布
计法求解模型中参数的估计值。
n2
X)
i
直线回归:反应变量(Y)依赖于另一自变量(简单线性回归模型表述为
ln
i
2
(AT)T
22
n
A
2
Yi
?Y
Xi
,Yi 为第
P
1P
*
P1P
*
(1
xx
1
*
1)
(2
xx
2
2)
(m
xx)
m
m
或
nrnc
1
个个体的反应变量值,Xi为其自变量值,α为回归直线的截
距参数,β为回归直线的斜率参数, εi为误差。线性表达式称为回归方程:
等式左边为比数比。logistic回归系数的意义是:在其他自
构成比的比较
配对四格表的:假设H0:构成比相同,H1:构成比不同χ2检验:配对设计列表:假设H0:B=C两阳
abX,a与b分别为模型
变量固定不变的情况下,自变量的暴露水平每改变一个观测单位时所引起的比数比的自然对数改变量
性率相等; H1:B≠C两阳性率不等检验统计量:式((1)
1)
若b+c<40:式(2)(2)
参数α与β的估计;是与X相对应的Y的平均值
回归参数估计的最小二乘原则:残差为
eiYi
?Yi
Yi
(abXi),用一定的数学方
n个数据点的残差平方和达
n
n
n
法确定a和b的适宜值,使所有到最小值,则称这一对
连续型变量总体均数的估计:总体均数的置信区间:
2
(bb
c)c
2
2
(|b
b
c|1)c
2
a和b为和的最小二乘估计
(XiYi
i1
Xi)(
i1
Yi)
xt
/2,n1
SE(x)
:
x
SE(x)
Z
/2
SE(x)
nsxN
n
:nN
p(1
p)
两分类变量的关联性检验:假设:H0:两分类变量无关(满
n
足概率独立性) ,H1:两分类变量有关
配对设计资料的符号秩和检验:正态近似法:计算u统计量,如果数据超出表的范围可计算u统计量。下式中j(j=1,2Zc
…)次相持所含相同秩次的个数
T
n(n1)/4
(tj
3
(Xi
b
i1
n
X)(Yi(Xi
X)
2
Y)b
i1
n
n
n(
Xi)
i1
2
2
样本均数的标准误
1
tj为第
i1
Xi
i1
n
0-1变量总体概率的估计:
p(1
p)
p(1n
样本率的标准误p),
回归截距a:
tj)48
确定P值和作出推断结论。如T界值的范围,可用正态近似
aYbX
H0: β=0,H1:β≠0
SE(p)
n(n1)(2n1)
24
n1
SE(p)1
n1
回归系数的统计推断:(1)t检验(自由度为n-2)
两独立样本比较的秩和检验:果n1或n2-n1超出了成组设计
总体率的置信区间
pZ
/2
SE(p)
Z
检验。
T
n1(n1n2n2
3
1)21)12
n1n2(n1
Zc
Zc
tb
bSb
sb
,
sy.x
n
n
连续型变量总体均数估计的样本:
?(YYii)
X)2sy.x
,
i1
2
样本例数估计主要依据为总体指标可信区间
(Xi
i1
n2
Xz
c1(t
3
j
tj)/(NN)
(2)方差分析法:总变异SS总,回归平方和SS回,残差平方和SS残,SS总=SS回+SS残; MS是均方,即SS与自由度之商。MS
n
完全随机化设计多组独立样本的秩和检验:
回与MS残之比值就是F值。
SS总
(yy)
2
2
y(2y)
z
/n
规定容许误差为
δ:
n
则有:
2
nz
2
2