一、基本概念 1. 总体与样本
总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2. 普查与抽样调查
普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3. 参数与统计量
参数:总体的某些数值特征
统计量:根据样本算得的某些数值特征
4. Ⅰ型与Ⅱ型错误
假设检验的结论 真实情况 拒绝H0 不拒绝H0 H0正确 Ⅰ型错误(ɑ) 推断正确(1?ɑ)
H0不正确 推断正确(1?β) Ⅱ型错误(β) Ⅰ型错误(ɑ错误): H0为真时却被拒绝,弃真错误 Ⅱ型错误(β错误): H0为假时却被接受,取伪错误
5.随机化原则与安慰剂对照
随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义: ①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上)
安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应)
6.误差与标准误(区分率与均数) ㈠均数
抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。
标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为Sx =S/√n ㈡样本率
率的抽样误差:样本率p和总体率π的差异
率的标准误:样本率的标准差,公式为σp=√π(1-π)/n 7.方差分析
方差分析:又称F检验,是通过对数据变异按设计类型的不同,分解成两个或多个样本均数所代表总体均数是否有差别的一种统计学方法。
(方差分析的基本思想:把全部观察值间的变异按设计类型的不同,分解成两个或多个组成部分,然后将各部分的变异与随机误差进行比较,以判断各部分的变异是否具有统计学意义)
二、问题
1. 集中趋势与离散趋势描述的常用指标、适用范围与优缺点 ㈠描述集中趋势的常用指标:
①均数(资料呈正态或近似正态)优点:反映一组同质观察值的平均水平,并可作为样本的代表值与其他样本资料进行比较;在描述正态分布的特征方面有重要意义;缺点:因均数易受到极端值的影响,故不适用于描述偏态分布资料的集中位置。
②几何均数(呈倍数关系的等比资料或对数正态分布(正偏态)资料)优点:能正确描述观察值数值相差极大甚至达到不同数量级的集中位置(如:血清抗体滴度、细菌计数、体内某些微量元素含量);缺点:因为0不能取对数,所以数据中若有0则不宜直接使用几何均数。
③中位数(适合各种类型的资料尤其适用于:大样本偏态分布资料;资料有不确定数值;资料分布不明)优点:不受极端值影响,适用于各种类型资料;缺点:不能代表全体数据的水平。
㈡描述离散趋势的常用指标
①极差(可用于各种分布的资料)优点:是最简单的变异指标,可用于各种分布的资料;缺点:只涉及两个极端值没有利用全部数据的信息,不能反映组内其他观察值的变异。
②四分位数间距(偏态分布、两端无确切值或分布不明资料)优点:能反映去除两端各四分之一数据后中间一半观察值的变动范围;缺点:不能完全反映全体数据观察值的变动范围。
③方差标准差(正态)优点:反映总变异程度;缺点:数值大小易受平均水平大小的影响。
④变异系数(观察指标单位不同;同单位资料,但均数相差悬殊)优点:消除了因统计量单位不同、均数相差很大、数据分布的集中位置相差很远造成的影响;缺点:变异系数只是一个相对离散指标。
2. Poisson分布的性质
①总体均数μ与总体方差σ2相等时Poisson分布的重要特征;②当n很大,而π很小,且nπ=μ为常数时,Poisson分布可看做是二项分布的极限分布;③当μ增大时,Poisson分布渐进正态分布;④Poisson分布具备可加性;⑤μ的大小
决定了Poisson分布的图形特征。
3.检验的注意事项
①数据应该来自设计科学严密的实验或调查;②数据应该满足假设检验方法的前提条件;③正确理解假设检验中概率P值的含义;④结论不能绝对化;⑤统计学意义与实际意义。
4.直线回归与相关分析的区别与联系
㈠区别:①资料要求:直线相关性分析要求x、y服从双变量正态分布;直线回归分析要求在给定某个x值时y值服从正态分布②应用:说明两变量间的相互关系(互依关系)用直线相关分析;说明两变量的数量依存关系用直线回归分析③意义:相关系数r说明具有直线关系的两变量间相互关系的方向与密切程度;回归系数b表示x每改变一个单位所引起的y的平均该变量④计算公式:r=lxy/√lxxlyy,b=lxy/lxx⑤取值范围:﹣1≤r≤1,﹣∞<b<∞⑥单位:r没有单位,b有单位。 ㈡联系:①对于服从双变量正态分布的同一组数据,即可做直线相关分析又可做直线回归分析,计算出的b与r正负号一致;②相关系数与回归系数的假设检验等价,即对于同一样本,tb=tr;③对于服从双变量正态分布的同一组资料,其相关系数r与回归系数b可以相互换算:r=bSx/Sy;④用回归可以解释相关。决定系数R2=SS回/SS总,为相关系数的平方。
5.应用相对数的注意事项
①不能以构成比代替率;②计算相对数的分母不宜过小,小则直接描述;③相对数的比较应注意其可比性;④应分别将分子分母合计求平均率;⑤样本率或构成比的比较应作假设检验。
6.率的标准化的基本思想和应用率的标准化的注意事项
率的标准化的基本思想:就是采用统一的标准构成,以消除年龄、性别病情轻重及病程长短等因素构成不同对病死率、死亡率、治愈率等的影响,使算得的标准化率具有可比性。
应用率的标准化的注意事项: ①选择的标准不同,计算出的标准化率也不相同;②标准化率仅适用于相互间的比较,实际水平应采用未标准化率来反映;③样本的标准化率是样本指标值,亦存在抽样误差,若要比较其代表的总体标准化率是否不同,需作假设检验;④各年龄组若出现明显交叉,则不适合采用标准化法,宜分层比较各年龄组率;⑤对于因其他条件不同,而非内部构成不同引起的不可比性问题,标准化法难以解决。
7.参数检验与非参数检验的区别与联系 参数统计 已知总体分布类型,对未知参数(μ、π)进行统计推断 依赖于特定分布类型,比较的是参数
非参数统计 对总体的分布类型不作任何要求 不受总体参数影响,比较分布或分布位置 适用范围广,可用于任何类型资料(等级资料,或“>50mg”)