v1.0 可编辑可修改 随机区组设计:事先将全部受试对象按自然属性分为若干区组,原则是各区组内的受试对象的特征相同或相近,且受试对象数与处理因素的水平数相等。然后再将每个区组内的观察对象随机地分配到各处理组,这种设计叫做随机区组设计。
率:又称频率指标,说明一定时期内某现象发生的频率或强度。计算公式为:
发生某现象的观察单位数 率??100%可能发生某现象的观察单位总数 , 表示方式有:百分率(%)、千分率(‰)等。
构成比(proportion)又称构成指标,说明某一事物内部各组成部分所占的比重或分布。计
某一组成部分的观察单位数构成比??100%算公式为: ,通常以百分数表示。
同一事物各组成部分的观察单位总数比(ratio)又称相对比,是A、B两个有关指标之比,说明A是B的若干倍或百分之几。计
A算公式为:比 ,表示方式为倍数或分数。 B?二项分布:若一个随机变量X,它的可能取值是0,1,…,n,且相应的取值概率为
kn?kP(X?k)?(n k)?(1??)则称此随机变量X服从以n、π为参数的二项分布(Binomial Distribution),记为
X~B(n,π)。
Poisson分布:若离散型随机变量X的取值为0,1,…,n,且相应的取值概率为
P(X?k)??kk!e??(μ>0)
则称随机变量X服从以μ为参数的Poisson分布(Poisson Distribution),记为X~P(μ)。
直线回归(linear regression)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simple regression)。
回归系数(regression coefficient)即直线的斜率(slope),在直线回归方程中用b表示,
b的统计意义为X每增(减)一个单位时,Y平均改变b个单位。
直线相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布资料。有正相关、负相关和零相关等关系。直线相关的性质可由散点图直观的说明。 相关系数又称积差相关系数(coefficient of product-moment correlation),以符号r6
v1.0 可编辑可修改 表示样本相关系数,ρ表示总体相关系数。它是说明具有直线关系的两个变量间,相关关系的密切程度与相关方向的指标。
方差分析:方差分析(analysis of variance,ANOVA)就是根据资料的设计类型,即变异的不同来源将全部观察值总的离均差平方和与自由度分解为两个或多个部分,除随机误差外,其余每个部分的变异可由某个因素的作用(或某几个因素的交互作用)加以解释。通过各变异来源的均方与误差均方比值的大小,借助F分布作出统计推断,判断各因素对观测指标有无影响。
配对四格表:配对四格表:为了控制随机误差而采用配对设计方案,将条件相似的两个受试对象配成一对,然后随机地让其中一个接受A处理,另一个接受B处理,每种处理的反应都按二项分类。全部n对实验结果的资料以表8-12表示,这样的表称为配对四格表。
表8-12 配对四格表的形式
处理
A处理
+
+ –
a c
– b d
等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。等级资料又称有序资料。如患者的治疗结果可分为治愈、好转、有效、无效、死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量。
正态分布:若资料X的频率曲线对应于数学上的正态曲线,则称该资料服从正态分布。通常用记号N(?,?)表示均数为?,标准差为?的正态分布。
25、简答题
1.简述二项分布、Poisson分布和正态分布间的联系。 答:二项分布、Poisson分布和正态分布间的联系为:
(1)在n很大,而π很小,且nπ=?为常数时,二项分布的极限分布为Poisson分布; (2)在n较大、π不接近0也不接近1时,二项分布B(n,π)
7
v1.0 可编辑可修改 2近似正态分布N(n?,n?(1??)),而相应的样本率P的分布也近似正态分布N(?,?P)。
(3)当?增大时,Poisson分布渐近正态分布。一般而言,?≥20时,Poisson分布资料可作为正态分布处理。 2、假设检验中?与P的区别何在 答:和P均为概率,其中
是指拒绝了实际上成立的H0所犯错误的最大概率,是进行
统计推断时预先设定的一个小概率事件标准。P值是由实际样本获得的,在H0成立的前提条件下,出现等于及大于(或/和等于及小于)现有样本获得的检验统计量值的概率。在假设检验中通常是将P与对比来得到结论,若P≤,则拒绝H0,接受H1,有统计学意义,可以认为……不同或不等;否则,若P>,则不拒绝H0,无统计学意义,还不能可以认为……不同或不等。
3、均数、几何均数、和中位数的适用范围
均数:适用于对称分布,特别是正态分布资料。
几何均数:适用于成等比级数的资料,特别是对数正态分布资料 中位数:各种分布类型的资料,特别是偏态分布资料和开囗资料 4、均数的可信区间与参考值范围有何不同
答:均数的可信区间与参考值范围的区别主要体现在含义、计算公式和用途三方面的不同,具体如
下表所示。 区别点 意 义
但可以说:该可信区间有多大(如当含了总体均数。
计算
未知:
公式
未知但n>60: X=时为95%)的可能性包
均数的可信区间
按预先给定的概率所确定的未知参数的可能范围。实际上一
参考值范围
“正常人”的解剖、生理、
次抽样算得的可信区间要么包含了总体均数,要么不包含。生化某项指标的波动范围。
X?t?/2,?Sn*
已知:
X?u?/2?n**
正态分布:
X?u?/2S**
偏态分布:PX~P100X
?u?/2Sn**
8
v1.0 可编辑可修改 用途 估计总体均数 判断观察对象的某项指标正常与否
5、简述回归系数与相关系数的区别与联系。 答:二者的联系:
(1)对于既可作相关又可作回归分析的同一组数据,计算出的b与r正负号一致。 (2)相关系数与回归系数的假设检验等价,即对于同一样本,tb?tr。 (3)同一组数据的相关系数和回归系数可以相互换算:r?bY2X?SX/SY。
(4)用回归解释相关:由于决定系数r=SS回/SS总,当总平方和固定时,回归平方和的大小决定了相关的密切程度,回归平方和越接近总平方和,则r越接近1,说明引入相关的效果越好。
二者的区别:
(1)资料要求上:相关要求X、Y服从双变量正态分布,这种资料进行回归分析称为Ⅱ型回归;回归要求Y在给定某个X值时服从正态分布,X是可以精确测量和严格控制的变量,称为Ⅰ型回归。
(2)应用上:说明两变量间相互关系用相关,此时两变量的关系是平等的;而说明两变量间依存变化的数量关系用回归,用以说明Y如何依赖于X而变化。
(3)意义上:r说明具有直线关系的两变量间相互关系的方向与密切程度;b表示X每变化一个单位所导致Y的平均变化量。
(4)计算上:r?lXY/lXXlYY,b?lXY/lXX。 (5)取值范围:?1?r?1,???b??。 (6)单位:r没有单位,b有单位。 6、为什么假设检验的结论不能绝对化
答:因为通过假设检验推断作出的结论具有概率性,其结论不可能完全正确,有可能发生两类错误。拒绝H0时,可能犯I型错误;“接受”H0时可能犯II型错误。无论哪类错误,假设检验都不可能将其风险降为0,因此在结论中使用绝对化的字词如“肯定”,“一
29
v1.0 可编辑可修改 定”,“必定”就不恰当。
7、在完全随机设计方差分析中SS组间、SS组内各表示什么含义
答:SS组间表示组间变异,指各处理组样本均数大小不等,是由处理因素(如果有)和随机误差造成的;SS组内表示组内变异,指各处理组内变量值大小不等,是由随机误差造成的。
8、随机区组设计的方差分析与完全随机设计方差分析在设计和变异分解上有什么不同 答:
区 别 点 设计
完全随机设计
采用完全随机化的分组方法,将全部试验对象分配到g个处理组(水平组),各组分别接受不同的处理。
变异分解
三种变异:
随机区组设计
随机分配的次数要重复多次,每次随机分配都对同一个区组内的受试对象进行,且各个处理组受试对象数量相同,区组内均衡。 四种变异:
SS总?SS组间?SS组内
(SS总?SS处理?SS误差)
SS总?SS处理?SS区组?SS误差
9、试举例说明均数的标准差与标准误的区别与联系。
答:例如某医生从某地2000年的正常成年男性中,随机抽取25人,算得其血红蛋白的均数X为L,标准差S为L,标准误SX为L。在本例中标准差就是描述25名正常成年男性血红蛋白变异程度的指标,它反映了这25个数据对其算术均数的离散情况。因此标准差是描述个体值变异程度的指标,为方差的算术平方根,该变异不能通过统计方法来控制。而标准误则是指样本统计量的标准差,均数的标准误实质是样本均数的标准差,它反映了样本均数的离散程度,反映了样本均数与总体均数的差异,说明了均数的抽样误差。本例均数的标准误SX?Sn?5.2025?1.04,此式将标准差和标准误从数学上有机地联系起来了,同时还
可以看出:当标准差不变时,通过增加样本含量可以减少标准误。 10、正态分布与标准正态分布联系与区别
10