描述计量资料得集中趋势与离散趋势得指标有哪些?各指标得适用范围如何?答:描述计量资料集中趋势得统计指标常见得有算数均数、几何均数、中位数。算数均数适用于描述对称分布资料得集中位置,尤其就是正态分布得资料;几何均数一般用来描述等比资料与对数正态分布资料得集中位置;中位数可以使用于任何分布得资料,尤其就是偏态分布。分布不明或分布末端无确定值得资料。 描述离散趋势得指标常见得有极差、四分位数间距、方差、标准差与变异系数.极差与四分位数间距可以用于任何分布,后者比前者稳定,但就是这两个指标都不能综合反映各观察值得变异程度;方差与标准差最常用,但要求资料近似正态分布;变异系数可以用于多组资料间量纲不同或均数相差较大得时候变异程度得比较。
频数分布表(图)得用途有哪些?1描述资料得分布类型,就是对称分布还就是偏态分布;2描述变量得分布特征:集中趋势与离散趋势;3便于发现某些离群值或异常值;4便于进一步得统计分析与处理;5当样本含量够大得时候,我们还可以以频率作为概率得估计值。
变异系数与标准差有何异同?答:不同点:变异系数主要用于量纲不同得变量间,或均数相差较大得变量间得变异程度得比较.所以变异系数就是没有量纲得,而标准差就是方差得平方根,标准差得量纲与原指标得一致,它适用于近似正态分布得资料。 相同点与联系:变异系数与标准差都就是用于对称分布资料,尤其就是正态分布得资料,且还可以知道变异系数就是由标准差计算得到得。
应用相对数得注意事项:1、防止概念混淆2、频率型指标得解释要紧扣总体与属性3、计算相对数时分母应有足够数量4、正确计算合计频率5、注意资料得可比性6、正确进行相对数得统计推断。 为什么不能以构成比代率?请联系实际加以说明。
率与构成比所说明得问题不同,因而绝不能以构成比代率。构成比只能说明各组成部分得比重或分布,而不能说明某现象发生得频率或强度。
、二项分布:如果每个对象阳性结果得发生概率为π,阴性结果得概率为1-π,而且各个观察对象得结果就是相互独立得,那么,重复观察N个人,发生阳性次数得概率分布为二项分布。适用条件:1试验只会出现两种对立得结果2每次试验阳性与阴性结果概率固定不变3每次试验相互独立。性质与特征:1形态取决于π与n,当π接近于0、5时,分布对称,离0、5越远,分布对称性越差,当n增大时,分布趋于对称2,高峰在μ=nπ处 3、二项分布得总体均数μ=nπ,方差=nπ(1-π),nπ与n(1—π)都大于5时,近似服从正态分布 Poission分布:可以瞧作就是每个观察对象阳性结果得发生发生概率π很小,而观察例数n很大时得二项分布。特征:1、它得分布属于离散型分布2、当总体均数入值小于5时为偏锋,入愈小分布愈偏,随着入增大,分布趋向对称3、总体均数与总体方差相等。
正态分布得概念,图形特征与应用:A正态分布就是自然界最常见得一种分布,特点就是中间频数最多,两边频数渐少且对称;B表现为钟形曲线,曲线下面积为1;μ决定曲线在横轴上得位置,u增大,曲线沿横轴向右移,反之曲线沿横轴向左移;σ决定曲线得形状,当u恒定时它越大数据越分散,曲线越矮胖;σ越小数据越集中,曲线越瘦高;C正态分布得应用:A确定医学参考值范围:指特定得“正常”人群得解剖,生理,生化指标及组织代谢产物含量等数据中大多数个体得取值所在得范围。范围有两种:百分位数,适用于任何分布类型得资料.正态分布法,若X服从正态分布,可以依赖正态分布规律计算。B质量控制图C计算频率、频数D作为统计学基础。
标准误与标准差得区别:1)标准差反映个体值散布得程度,标准误反映精确知道总体参数得程度2)标误小于标差3)样本含量越大,标误越小,其样本均数更有可能接近于总体均数,但标差不随样本含量得改变而有明显方向性改变,随着样本含量得增大,标差可能增大也可能减小。
t分布特点:1、t分布就是以0为中心得单峰分布,左右完全对称。2、v越小,t值越分散,曲线得峰部越矮,尾部越高,3当自由度v逐渐增大时。t分布逐渐逼近标准正态分布,当v趋于无穷时,t分布就完全成为标准正态分布. 假设检验:也称显着性检验,利用小概率反证法思想,首先根据设计与研究目得提出某种假设,再根据现有得资料提供得信息,推断此假设应当拒绝还就是不拒绝。步骤:1,建立检验假设确定检验水准2,计算检验统计量3,确定P值,做出推断。
假设检验注意事项:A要有严密得抽样研究设计,样本得代表性与组间得均衡性;B正确选用检验方法。根据研究目得,设计类型,变量类型与样本得大小选择恰当得检验方法C、正确理解P值得含义.差别有统计学意义,不能理解为两者差异大,也不能理解为所分析得指标在实际应用中就有“显着效果”。D应结合专业知识理解统计推断得结论,即统计学差异显着得意义与实际意义得差别。E写研究报告时,应写出检验统计量,检验水准α,并注明单双侧及p值得确切范围.
假设检验中P值涵义:就是指在零假设成立得条件下,出现统计量目前值及更不利于零假设数值得概率。(课本).就是指从Ho规定得在体内中进行随机抽样,所观察到得等于及大于现有样本检验统计量得概率。
检验水准α:无效假设为真时,拒绝无效假设得概率。α就是由研究者事先确定得,常用α值有0、05,0、01、 假设检验中检验水准α与P值得关系?以t检验为例,α与P都可用t分布得尾部得面积大小表示,所不同得就是:α值就是指在统计推断时预先设定一个小概率值,即原假设H0成立,经检验被拒绝得概率。P值就是由实际样本计算得到得,就是指在Ho成立得前提下,出现等于或大于现有检验统计量得概率。
假设检验就是如何确立单双侧?1)假设检验中根据专业知识与研究目得来确定采用单侧还就是双侧2)若根据专业知识有充分把握可以排除某一侧,可采用单侧检验3)在没有充分理由进行单侧检验时,为稳妥起见,应选用双侧检验.
简述两类错误及其关系?假设检验就是由样本信息对总体特征进行推断,因此无论做出那种推断结论,都有可能发生错误。假设检验时,拒绝原本正确得H0,犯第I类错误,称为弃真错误;不能拒绝原本错误得H0,犯第II类错误,称存伪错误.犯第一类错误得概率用α表示,其数值根据研究者得要求来确定;犯第二类错误得概率用β表示,
它只有与特定得H1结合起来才有意义。对某一具体得检验来说,当样本量n一定时,α越大β越小;α越小β越大。为了同时减小α与β,只有通过增加样本含量减少抽样误差来实现。
影响检验效能得因素:总体参数得差异越大,个体差异(标准差)越小,样本量越大,检验水准α越大(越松),检验效能越大。
为什么假设检验得结论不能绝对化?假设检验得结论就是根据小概率事件在一次实验中实际不可能发生得原理作出得,若检验水准α=0、05则P≦0、05表示在Ho成立得条件下,出现大于或等于现有统计量得概率等于或小于0、05,就是小概率事件,即在一次实验中几乎不可能出现得事件,因此拒绝Ho,但并非Ho不成立,绝对Ho可能犯I型错误,反之,若P>0、05、则不拒绝Ho,但并非Ho绝对成立,不拒绝Ho有可能犯II型错误。 方差分析得基本思想:根据资料得实验设计类型把全部观察值总得离均差平方与与自由度分解为两个或多个部分,然后将各影响因素产生得变异与随机误差进行比较,以判断各部分得变异与随机误差相比,就是否有统计学意义. 方差分析得前提条件:1)各样本就是相互独立得随机样本,均服从正态分布2)各样本得总体方差相等即方差齐性。 随机区组设计:事先将全部受试对象按自然属性分为若干区组,原则就是各区组内得受试对象得特征相同或相近,且受试对象数与处理因素得水平数相等。然后再将每个区组内得观察对象随机地分配到各处理组,这种设计叫随机区组设计。
方差分析后为什么不能直接做两两比较得t检验?答:会增加犯一类错误得概率,如果比较次数就是k.每次检验水
k
准就是α ,则犯一类错误得累积概率为1-(1-α),明显高于原来得α.若要做两两比较得t检验,则其检验水准应减小,可按Bonfferoni方法或Sidak方法进行调整,同时两样本均数之差标准误得计算应当采用多个样本得数据,而不仅仅就是被比较两组得数据。
方差分析中得F检验为何就是单侧检验?答:方差分析中检验统计量F得计算通常就是用某部分得均方除以误差得均方,其中分母误差部分得均方仅包含随机因素得作用,而分子某部分得均方不但含有相应处理因素或交互作用得效应,而且还含有随机因素得作用,因此算得得F值从理论上讲应大于或等于1,不会小于1、因此方差分析时得F界值采用单侧检验得界值。
就是否一定要经过方差分析发现有统计学意义后,再作均数间得两两比较?答:一般就是这样.实际上,经方差分析发现有统计学意义后,再作均数间两两比较属于未计划好得事后比较.而LSD-t检验、Dunnett—t检验与Tukey HSD检验等多重比较就没有必要事先进行方差分析。分析实际资料时,有事可能会出现以下两种情况:一就是方差分析有统计学意义,但两两比较均无统计学意义,二就是方差分析物统计学意义,但两两比较中某些均数间有统计学意义。对于这两种现象,如果P值在检验水准α附近,则下结论时应特别谨慎,通常应当增加样本量后再作分析与推断。
实际频数与理论频数:实际频数就就是实际观察单位个数,理论频数就是在假设多个率或构成比相等得前提下由合计率(构成比)推算出来得频数。
简述X2检验得用途?主要用于:1、比较两个或多个独立样本频率或独立样本频率分布;2、比较配对设计量样本频率分布;3单样本分布得拟合优度;4、推断两个变量或特征之间有无关联性。
非参数检验:就是不依赖总体分布类型,也不对总体参数进行统计推断得一类统计方法.应用条件:1)不满足正态分布与方差齐性齐性条件得小样本资料2)分布不明得小样本资料3)一端或两端就是不确定数值得资料4)等级资料。
优点:a适用范围广,对变量得分布无特殊要求b对数据要求不严,对某些指标不便准确测定只能以严重程度、优劣等级做记录得资料也可应用。
缺点:对于符合参数检验得资料如果用参数检验,由于没有充分利用资料提供得信息(用秩次而非原始数据计算统计量),故检验效能低于参数检验。若要使检验效能相同,往往需要更大得样本含量。
线性相关分析得基本步骤:1)绘制散点图,瞧有无线性关系2)估计简单相关系数r3)检验简单相关系数P就是否有统计学意义。
应用直线相关分析时应注意哪些问题?⑴进行相关分析之前,应绘制散点图。当散点分布有直线趋势时,才适宜作相关分析。另外散点图还能提示资料有无异常,若出现异常点时慎用相关。⑵相关分析要求两变量为服从双变量正态分布得随机变量,因此当有一个变量得数值人为选定时莫作相关分析。⑶样本得相关系数接近于零并不意味着两变量间一定无相关性,也可能存在非线性(曲线)关系.⑷相关关系不一定就是因果关系,也可能就是伴随关系,有相关关系不能证明事物间确有内在联系.⑸分层资料不能盲目合并,否则易出假象。
线性回归模型得适用条件:1)线性:因变量Y与自变量X呈线性关系2)独立:每个个体观察值之间相互独立3)正态性:在一定范围内,任意给定X值,其对应得随机变量Y服从正态分布4)方差齐性,在一定范围内,不同得X值对应得随机变量Y得方差相等。
回归分析得基本步骤:绘制散点图;求回归系数与常数项(最小二乘法);回归系数与常数项得假设检验(回归系数t检验);回归方程得假设检验与解释(单元素方差分析). 相关与回归分析得区别与联系:
区别:1、资料要求,线性回归要求应变量y就是服从正态分布得随机变量,x就是可以精确测量与严格控制得变量,一般称为1型回归;线性相关要求两个变量x与y为服从双变量正态分布得得随机变量,两变量之间如进行回归分析称为2型回归。 2、应用目得:说明两变量之间得关联关系用相关分析,说明两变量之间得依存关系用回归分析. 3、意义:回归系数b表示x每增减一个单位时,y平均改变b个单位;相关系数r说明具有线性相关得两个变量间关系得密切程度与相关方向。 4、计算:r= 5、取值范围 b全体实数 r正负1 。6、单位b就是有量纲得,受xy计量单位得影响,r就是无量纲得,不受xy计量单位得影响 联系 1、方向一致
对一组数据若能同时计算b与r 她们得符号就是一致得 2、假设检验等价 对同一样本,r与b得假设检验得到得t值相等 3、用回归解释相关 决定系数 既ss回/ss总 , 回归平方与越接近总平方与则r2越接近1,说明相关性越好。
简述简单线性回归分析时应注意得事项?1、做线性回归分析时要有现实意义,不能把两种毫无关系得现象作回归分析,必须对两种现象得内在联系有所认识。2、在进行回归分析之前,应先绘制散点图。当观察点得散布有直线趋势时,才适宜作线性回归分析。如果散点图呈现明显得曲线趋势,应使之直线化再作线性回归分析,散点图还可以提示有无异常点。3、线性回归方程得应用范围一般以自变量得取值范围为限,若无充分理由证明超过该范围仍然就是直线关系,不应外延。4、双变量正态分布资料得线性关联关系经假设检验有统计学意义,则直线回归关系也有统计学意义,两个检验结果等价。5、有直线回归关系不一定有因果关系,也可以就是伴随关系,反馈关系等,有回归或相关关系时不能证明事物间确有内在联系,因变量与自变量之间得联系,应该结合专业知识来解释。 经检验认为回归方程有意义,就是否可以认为两变量之间有因果关系?答:两变量不一定存在因果关系。简单线性回归定量考察应变量与自变量间得线性依存关系,统计学检验表明回归方程有意义,只就是说明二者数量上得线性联系存在,至于该内在联系得性质,则可能就是伴随关系、反馈关系、因果关系等尚需结合专业知识来确定. 多重线性回归模型:1)线性,指反映变量Y得总体平均值于自变量X成线性关系。2)独立性,任意两个记录互相独立3)正态性,误差项服从正态分布4)等方差性,自变量X取值范围内,不论X取什么值Y都具有相同得方差。诊断:残差分析,残差得直方图判断分布得正态性,绘制残差与反应变量预测值得散点图就是否满足线性与方差齐性。
应用多重线性回归得注意事项:A因变量Y就是服从正态分布得连续型随机变量;B自变量最好就是连续型变量,也可以就是等级资料,若自变量就是多项无序分类资料,则必须先哑变量化后才能进入模型;C利用自变量对因变量进行预测就是回归分析得主要目得之一,此时,只能在x得取值范围内进行;D自变量之间不能存在多重共线性。
回归分析注意事项:个体间独立;足够得样本量;适宜得变量赋值;模型得评价;标准化回归系数得作用;结果报告。 logistic回归与多重线性回归得区别与联系:1logistic回归分析要求因变量必须就是分类资料,而多重线性回归要求因变量必须服从正态分布 2logistic回归分析对自变量无严格要求,而多重线性回归一般要求自变量就是定量资料,也可就是有序资料 联系:均就是用来分析多个自变量与一个因变量之间得关系。
β0表示在模型中所有自变量均为0 时,即在不接触任何潜在危险/保护因素条件下,效应事件优势(odds)得对数值。
βi 为自变量Xi 得Logistic回归系数,表示在控制其它自变量时,自变量Xi 每变化一个单位所引起 效应事件优势改变得对数值 。
生存资料得特点:1有生存结局与生存时间两个因变量2生存时间分布不正态-非负且右偏。3、可能含有删失数据。
Log-rank检验就是两条或多条生存曲线比较得非参数方法之一.可用于整条生存曲线得比较,也适用于寿命表资料及多组生存率间得比较;Log—rank检验属于单因素分析方法,其应用条件就是除比较因素外,影响生存率得各混杂因素在不同得组间均衡。否则,可采用Cox回归.可计算两组死亡得相对危险度(relative ratio,RR). Cox回归模型:以生存结局与生存时间为因变量,可同时分析众多因素对生存期得影响;分析带有删失生存时间得资料;不要求资料服从特定得分布类型.
βj得实际意义:在其她自变量固定不变得条件下,变量Xi每增加一个单位所引起得风险比得自然对数。 RRi得实际意义:在其它协变量不变得条件下,变量Xi每增加一个单位所引起得风险比或相对危险度。
实验设计得基本要素有哪些:研究对象、研究因素、结局指标。受试对象就是处理因素作用得客体。就是根据实验目得确定得研究总体。根据研究目得不同,医学研究得对象可以使人动物与植物,也可以就是某个器官、细胞等生物材料。处理因素就是根据研究目得得某种外部干预措施,实验效应就是处理对象得反应与结局,通过观察指标来实现。选择研究对象得原则:受益、代表性、均衡可比、依从性、知情同意。
试验设计得原则:对照、随机化、及重复原则、实验设计时需要设立对照以保证组间得均衡性、就是排除混杂因素得主要手段.随机化即每个受试对象分到实验组与对照组得机会相等。就是使各对比组间在大量不可控制得非处理因素得分布方面尽量保持均衡一致性得重要措施.重复就是指在相同得试验条件下进行多次研究或多次观察,以提高试验得可靠性与科学性。
估计样本得意义何在?进行估计样本量估计需要确定哪些前提条件?意义:在实验设计中要对样本;例数进行估计,如果例数太少,有可能把个别现象误认为就是普遍现象。把偶然性或就是巧合现象当做就是必然得规律,以致错误得推论到总体;例数太多,会增加工作得难度,势必造成人力、物力与时间得浪费。因此保证实验结果有一定得可靠得条件下,确定最少得样本例数,可以节约人力,物力、经费。合适得样本量:就是指在保证一定估计精度与检验功效得前提下,所需最少得观察单位数。
估计样本含量得四要素①第一类错误概率α,α越小,所需样本量越大;②检验功效(1—β)或第二类错误概率β,第二类错误概率越小,检验功效越大,所需样本量越大③容许误差δ,δ越小,则样本量越大,④总体标准差σ,σ越小,样本量越小。
标准化偏回归系数与偏回归系数有什么区别?先对应变量与自变量做标准正态转换,再建立回归方程,所得回归方程中得回归系数即标准化偏回归系数。标准化偏回归系数与其变量得计量单位无关,可以用来评价对Y得贡献大小。而偏回归系数与其变量计量单位有关,不能直接用力扭评价对Y得贡献大小,表示在其她自变量固定不变得情况下,每变化一个测量单位所引起得Y得平均改变量。