<<医学统计学>>
1. 总体:根据研究的目的确定的同质研究对象中所有的观察单位变量值的集合。 2. 样本:按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。 3. 同质:影响研究指标的主要因素易控制的因素基本上相同。
4. 抽样误差:在抽样研究中,由于变异的存在,即使在同一总体中抽取的几个样本,各样本统计量往往不等。样本统计量与总体参数也不等,这种由于抽样研究所至样本之间和样本与总体之间的差异称为--
5. 变量:观察指标在统计学上统称为指标变量,它反应的是生物个体间的变异情况,根据其性质可分为定性变量(分类)和定量变量(连续)。
6. 截尾数据:生存时间观察过程被人为的截止称为截尾,又称删失或终检。原因:失访/退出/终止(研究时限已到而终止观察)。
7. 卡方基本思想:X2分布是一种连续型分布,可用于检验资料的实际频数和按检验假设计算的理论频数是否相等等问题。X2反应实现了实际频数与理论频数的吻合程度。如果检验假设成立,则A-T一般不大,X2应很小,即出现大X2值概率很小。即X2越大,P越小,若P≤a时,就怀疑假设的成立,拒绝H0。若P>a则没有理由拒绝H0。
8. X2用途:(1)实际频数与拟合频数拟合优度:A推断两个或两个以上总体率或构成比有无差别(四格表/行x列表)。B两变量之间有无相互关系。C频数分布的拟合优度检验(判断次样本是否来自某种分布)。(2)某些分布可用X2近似。(3)间接应用:如t分布和F分布就是在X2分布基础上推导出来的。 9. 方差分析的基本思想:根据研究目的和设计类型,把总体变异中离均差平方和分解成两部分或更多部分,也把总变异中的自由度相应分成两部分或更多部分,然后再进行比较,评价由某种因素引起的变异是否具有统计学意义。 10. 假设检验中P,a,b(倍他)的关系及统计学意义:
a:检验水准,即显着性检验,在此概率之下的认为是小概率事件,统计学上以为此事件“不可能发生”,以此判断是否不拒绝H0无效假设,在假设检验中,按a检验水准,拒绝了原来正确的H0,即犯了第1类错误,犯此错误的概率为a。 b:在T假设检验中,按照a检验标准,没有拒绝原来错误的无效假设,即犯了第2类错误,犯次错误的概率是b。
P:是在H0成立时大于等于用样本计算的统计值出现的概率用P值与检验水准a比较,根据比较的结果作出统计判断。如果P≤a时,就怀疑假设的成立,拒绝H0。若P>a则接受H0拒绝H1。P值越小只能说明作出拒绝H0,接受H1的推论时犯错误的机会越小。
11.行x列表X2检验应注意:(1)行x列表中不宜有1/5以上格子的理论频数小于5或有一个格子的理论频数小于1,若发生上述情况可采用:A将理论频数过小的格子所在的行或列与性质相近的邻近行或列中的实际频数合并,使重新计算的理论频数增大。B删去理论频数过小的行或列。C增大样本含量以增大理论频数。(2)当效应按强弱分为若干级别,则按实验结果可整理为单向有序行x列表,在比较各处理组的效应有无差别时,宜用秩和检验,ridit分析等。如作X2检验只说明各组构成比的差异有无统计学意义。(3)当多个样本或构成比比较的X2检验,统计推论为拒绝检验假设,只认为总体率或总体构成比之间总的来说有差别,但不能说明每两两之间有差别,若对每两个率或构成比进行比较须进行行x列表的X2分割。
12.四格表X2检验注意:(1)1≤T<S,而n≥40时,需要计算校正X2值或改用四格表资料的确切概率法计算。(2)T<1,或n<40时,改用四格表确切。。。。(3)n≥40且T ≥S时用基本或专用公式,但当P约等于a时,用Fisher确切。。。。(4)X2连续性校正只用于四格表资料。
13.假设检验的步骤:(1)建立假设检验和确定检验水准。(2)选择检验方法和计算检验统计量。(3)确定概率值作出推断(包括统计专业推断)。
14.制定参考值步骤:(1)从正常人总体中抽样(2)控制测量误差(3)判定是否需要分组确定参考值范围(4)决定单侧还是双侧(5)选择合适的百分上限(6)对资料的分布进行正态性检验(7)根据资料的分配类型选定恰当的方法进行参考值范围的估计。
15.标准差与标准误不同:(1)二者描述内容不同:前者个体变异;后者群体变异。(2)二者与n样本含量关系不同:n很小时S不稳定,n足够大时S接近总体标准差;而S不变时,n接近无穷大时,标准误接近0。(3)二者用途不同:S:描述观察值的离散程度/计算CV即变异系数/估计医学参考值范围/计算标准误;标准误:反映均数抽样误差大小/估计总体均数可信区间/用于假设检验。
16.判断直线回归的效果:(1)散点图:回归效果好,散点呈直线趋势。(2)确定系数r2指的是应变量Y的总变异中归因与X的部分,若r2=1则SS回归。。。=0则各点严格遵守函数关系。(3)标准估计误差即剩余标准差Syx,它越小,回归效果越好。(4)残差(Y-X),即实测值Y与预测值X之差,反映了X对Y的影响之外的一切因素对Y的变异影响,也就是在总平方和中无法用X解释的部分。 17.直线回归与相关:回归与相关是研究两个或多个随即变量之间相互关系的一种统计分析方法,应用较广,回归是研究随即变量之间的数量依存关系,相关是研究随即变量之间相互联系的密切程度和方向。
(1) 区别:A在资料要求上若应变量Y是随即变量,服从正态分布,自变量是固定的
随机变量,在确定自变量的基础上,建立Y回归于X的直线方程,,这样就可以确定当X为某一定值时,Y将会在什么范围内波动这种模型称为1型回归模型。 相关要求XY都是随机变量,而且服从双变量正态分布,这种资料若进行回归分析,一般称为2型回归模型,在这种模型中,X和Y可任意代表两个变量中的某一个,这可根据专业或由实际需要来确定,故对于2型模型,可计算两个回归方程:对X推Y,Y=ayx+byxX,Y推X,X=axy+在意义和应用上,回归反映两变量间依存关系,相关反映两变量间相互关系。
(2)联系:A同一资料的r,b符号相同,如r为正,说明X增大,Y也增大,b为正,说明为X增加一个单位,Y平均增加b个单位。B:r和b的假设检验等价,即对同一样本,两者的t值等价,由于r的假设检验可直接查表,较简单,而b的假设检验较复杂故可用r的假设检验代替b的假设检验。C:r,b可相互换算。。。。。D:回归与相关可以相互解释。相关系数的平方r2是应变量Y的总变异中归因于X的部分,r2又称确定系数。