好文档 - 专业文书写作范文服务资料分享网站

量表评估的内部一致性与克朗巴赫α系数的应用评价__

天下 分享 时间: 加入收藏 我要投稿 点赞

临床心身疾病杂志2009年1月第15卷第1期.,ClinPsychosomDis,Jan.2009·Voll5,No.185·讲座·量表评估的内部一致性与克朗巴赫Q系数的应用评价△苏中华李四劝成义仁【关键词】量表;评估;内部一致性;克朗巴赫a系数;信度系数;应用评价doi:10.3969/j.issn.1672—187X.2009.01.047.0085—02【中图分类号】R195.1【文献标识码】A随着生物一心理一社会医学模式和心理测验理论的快速发展。量表的成用日益普遍,尤其在精神病学和临床心理学领域。精神疾病和心理问题的预测、诊断,疗效评估、顶后评价等均离不开心理量表。信度系作者简介:苏中华,男,研究蝇?!国成瘾行禁篇粼嚣器竺数是衡量量表评定质量的一个38岁。汉族.博士,副主重要技术指标。克朗巴赫a系任医师,副院长。主要数是评估心理评估量表内部一为的流行病学调查及社致性和稳定性程度。然而。I临会康复研究”获2006年床实践中误解和误用克朗巴赫教育部科技进步二等a系数的现象时有发生。鉴于奖。研究A-向:成瘪行此,本文从统汁学角度详细阐.述r克朗巴赫“系数的推导来“。源、应用评价和使用范围。1克朗巴赫a系数的推导来源根据经典测验理论,个体量表评估总分由测量真分数和测量误差两部分组成(公式1)。测量误差主要系指测量随机误差。其均数为0,因而,实际舰测分数即可能大于真分数。亦可能小于真分数。因为任何一个量表均存在不同程度的测量误差,我们不能获得个体的真实分数,真分数仅是多次测量的平均值.个体观测值总足围绕真值上下波动。问卷信度被认为是真分数方差与观察分数方差的比率(公式2)。然而,任何时候个体的。备总是为0,公式2只能由施测样本的测量值确定,可能不同于我们的预施测人群。分数总一分数真+分数谋(公式1)信度(r)一。鼍%--(公式2)o宣公式1中。只涉及随机误差的变异,其实系统误差的变异包含在真分数的变异中。即真分数变异还可以分成两部分:与测量目的有关的变异和与测量目的无关的变异(公式3)。分数,。.一分数。+分数。。+分数。。(公式3)公式3中。分数,。。一为观察值.分数“为预观察的真实值,分数。。为系统误差。分数。。为随机误差。公式1中的真分数等1日1于公式3中的分数。+分数。z+分数ne。因而量表信度可以表示为:信度(r)一堕学。(公式4)而效度等于:△基金项目:纽约中华医学会基金会资助项目(编号CMB05—813)作者单位:27205l(山东·济宁)山东省安康医院(山东省行为医学重点实验室)(苏中华。成义仁);济宁市卫生学校(李四劝)万方数据效度(r)一了OCl面(公式5)公式4和公式5均显示.随机误差即影响量表信度,又影响量表效度。而系统误差仪影响量表信度。信度从慨念上表示一组测量的实际值与真值的符合程度,即包括同组个体不同时间测试的符合程度、小同评定者问的符合程度,又包括相似测验或平行测验间的符合程度。这些测验应有一个相似的结果,如明尼苏达人格问卷D(MMI’l-D)分量表首次评分为73分,其后的测量亦应接近73分。与此相似,一个评定者汉密顿抑郁量表(HDMD)评分为17分,另一个评定者的评分亦应接近17分。除了上述不同时间和评定者的误差外,误差还包括量表组成条目的同质性差异。如果某量表测试内容比较单一或是一维的,为保证最表的内容效度。所含条目应是覆盖该维度的所有条日的范例,而不应包括其它测量维度。如焦虑问卷J、证包括焦虑的所有成份(如认知症状、行为症状、牛理症状和情感症状),但不应包含测量其它内容的条日。如自我能力或社会期墨的条目。经典测验理论认为。一个量表中的所有条日应是专门钊’对某项内容所没,从所有测试内容的条目抽样所得,因而量表内各条目间应高度相关。然而,这并非总能达到该目的。焦虑问卷测试巾,甲可能同答两个条目为“是”(如,“大多数时间里,我感到很紧张”。“我害怕独自出门”),乙可能第一个问题回答“足”。第二个问题回答“否”。这种应答结果可能影响量表条目问的相关程度.因而影响量表的内部一致性。内部一致性测量的最早指标是分半信度。顾名思义,分半信度就是将全部条目分成相等的两半。然后根据各人在这两半测验的分数计算其相关系数。分半信度值是量表两半评分差异的方差与量表总评分的方差之比(公式6)。.Z信度(r)一1一号L(公式6)O:ro,al然而,分半信度存在两个问题。其一,因为量表信度受量表长度的影响。分半信度的计算就是将整个量表的条日缩减一半,冈此低估了其信度。其■,量表进行分半信度汁算,有很多计算方法,如一个12条目的量表,其分半方法就有462种。每一种方法均可产生一个不f司的估计信度。该问题可使用库德一理查逊公式(公式7)解决。KR--20一击I1,rVD一1J\一1(公式7)L1一皇争业lO讯舳lJ公式7中,k表示构成测验的条目数。P。为应答第k条目阳性人数的比例,qk为应答第k条目阴性人数的比例,d}。-为测验总分的变异数。库德一理查逊公式的不足是,只适用于条目为二分变量的测验(答对1题得1分,答错1题小得分),不适用于项目多重记分的测验。针对这一需要,克朗巴赫(I。.J.Cronbach)提出’ra系数的计算方法(公式8):I,广、、女2I,1a—F三l5(公式8)1Ll一笋Io.r(halJ公式8中k为测验的条目数,是所有条日变异数之和,仃}。-为测验总分的变异数。q系数的性质等同于KR一20,86临床心身疾病杂志2009年1月第15卷第1期JClinPsychosomD“.Jan.2009,Voll5。No.1是量表所有分半信度的平均值。2对克朗巴赫a系数的几点评价2.1克郎巴赫a系数是否是量表的固有属性最初人们对a系数的观点是一_日.某项研究确定r量表的a系数。就r解了该量表的信度。然而,许多学者已经指出:“信度仅是测验评分的特征,而非测验工具的特征”,即信度既取决于测验工具本身。又取决于测试选择的样本。近来研究结果进一步指出:“量表使用中需要注意的足,该试验是否可信,其信度仅是特定人群测验分数的属性”。其理f}i可由公式1、2、8看出。公式2告诉我们,信度是真分数与观测值方差的比率,心理测验中小能获得真分数,因而信度测最值仅是一个估计数值,伴有不同程度的误差。公式8显示,信度取决于观测值的方差,不同样本中,该数值各不相同,样本异质性越大,样本总分方差越大,信度值越高。Caruso的■次分析研究发现,NEO中普通人群愉悦分量表的信度为0.79,而在临床样奉中为0.62。与此相似,教师教学效能量表的二次分析发现,内部失败分量表的信度估计值为0.51~0.82,全量表信度为0.55t0.82。无容置疑。量表信度受样本多个特性的影响。亦包括测试老师的异质性。因而。某一量表在某些群体中的信度町能极好,但在另外一些群体中可能仅为边缘可接受的程度。这就意味着,量表使用过程中,仅仅根据出版文献报告的信度还是不够的,还有必要在预测试群体中重新榆验其信度,以确定预测试样本信度与文献报告信度的差异。该过程中,尤其应考虑样本的I司质件问题。2.2克朗巴赫a系数足否仪能测试量表的内部一致性量表各条目问相关程度越高。a系数值越人,该点千真万确。但是,a系数值越大,量表内部一致性程度越高。并非总是正确。其理山是,a系数值的大小深受蜃表条H数量的影响,量表条日越多,a系数值越大。如,Cortina已证实某一平均相关系数为0.30,gt值为0.72的量表。如保持条目间平均相关系数不变。仅增加量表条目数量,则12条目和18条目量表的a值分别为0.84和0.88。该作者进一步证实。某18项量表如包括■个互不相关的分量表,则a系数仅为0.64。因【fIi,作者得H{结论:“如果量表超过14个条目。即使包括两个互小相关的测量维度,条日间相关系数达到中等程度,a系数也会达到0.70或更好。”换占之,一个包括两个或多个独、L测量维度的量表,只要条目足够,a系数值就会达显著的统计学意义。因而,量表内部·致性的最底线是量表条目问要有较高的一致性。但不足量表内部一致性的保证。一个多维度的较长量表也会有一个较高的a系数值。2.3克朗巴赫a系数值是行越大越好对于多数信度指标来说,数值越大统汁学价值越高。当然.我们亦非常期谬不同测试者间具有较高一致性,小同时间的测试具有较好的稳定性,a系数亦是如此。如前所述,Gt系数不仅能够测量量表条目问的同质性.而且测量评估被试的同质性。许多情况下。某一量表表面上测量的是某·维度或特质。但从概念上却包含多个特征。如焦虑评估量表,1971年Lang将其划分为认知、生理和行为■个成份。1990年Koksal等增加了情绪成份,而且,这四个成份问相关系数仅为中度.被试应答亦非总是一致。冈此.焦虑量表的设计就应考虑条日I’uJ应有一定程度的异质性。如果某一焦虑最表含有3~4个分量表,各分璧表内条目间较整个量表心更具自.较高的同质性。因而,作为量表的一个整体.Ct系数值小宜太高,保持在0.90左右即町。如果条目间相关系数太高,意味着测试内容重复。正如“询问·个问题,有多种不同问法一样”,实无必要。2.4克朗巴赫a系数值是否总在0~l之间因为信度是两万方数据个方差的比率,初看起来a系数值应为0~1之间的一个数值。然而。Ct系数有时亦为负数。该情况发生于量表某些条目与另外一些条日呈负相关。其首要原因足量表编制者的疏忽所致,很容易发现。另外一种情况是。许多测验量表使用·些反向评分条目,以尽量减小“Yes—saying”偏差。因而统计分析时,这些反向条目应反向记分。如不反向记分,则会出现条目问负相关.导致a系数值低于0。当然,如果量表条目记分正确。某些条目间仍呈负相关,那么原始量表的结构应存在重大问题。a系数挈负值的另外一个非常见原因是条14间的变异程度超过了它们共同具有的变异,这可能发生于条日测量的是不同的结构维度。凶为,理论上a系数值小成低于0。Henson建议,如果一·151.a系数值出现负数,应汁为0。但是,负数和0一样,均表示条目可能测量的并非其目的所在。3克朗巴赫a系数的应用并非所有信度指标均适用于所有情况。如。自评最表就不能评估测量者间的一致性,测试内容随时间发生变化的量表,亦很难评估重测信度。当然,这并非被试疲劳所致。与此相似。某砦最表亦小适合评估a系数,如书氏智力测验中的数值符合编码测验部分(WAIs3)。测验的理论假没是每个被试完成条日的数量是不同的,因而,某·被试条目间的相关性}要依靠完成条目的数量,而非应答方式。与此关系更加密切的足,韦氏智力测验的其它分测验或相似类型的指标.项目足依据难易程度排序的。因此。预期的应答方式足排列在前的一些条目应答总是正确的。直至超过了其应答能力的条日才是错误,其后的条H应答总是错溪的。或是在其心答能力前而的条目存在“对”或“错”两种应答模式,其后总是“错”一种应答模式,或者是…0’。如果计算这种类型的测验a系数,其数值就会较高,甚至接近1.0。a系数不适用的第三种情形足。需要依靠前面条目应答情况力+能作出的量表条目.或多个条目询fbJ的是同一个『口】题。如,被试诵读一段文宁。再要求回答一系列『nJ题。如果被试未读懂文宁内容,就会影响其后一系列问题的应答,虚高条日I'日J的相关性。a系数小适用的第阳种情形是高度怀疑量表测量多个维度。如前所述,如果量表条目达到或超过20条,a系数就很可观,但也可能会给人一个错误的印象量表具有较高的埘质性。a系数多大较为理想。尚无统一看法。Nunnally认为研究早期a系数为0.50~0.60即町,作为研究的基本工具a系数应在0.80以卜,对于临床研究Ct系数应在0.90以卜,理想是0.95。David则认为Ct系数太高,意味着量表条目重复,所测为『司一内容,凶而gt系数值以不超过0.90为宜。4结论克朗巴赫a系数的应用应注意:(1)不能过份相信既往发表文献的内部一致性解释.它可能不适用于所有情况.如果预施测样本与既往研究样本的非同质.a系数就有可能不同。(2)因为a系数受量表长度影响较大,a系数并不能完全保证量表内部一致性或所测内容的单一性。量表条目如超过20条。即使包括2~3个不同的测试维度,a系数亦可达到令人接受的程度.冈而亦有必要测量量表条目I叫的相关系数矩阵,计算条目间的总相关系数。('.1ark等推荐,量表条目间相关系数在0.15~0.20问,施测范围比较厂‘泛,如在则量表条目可能过细,推荐口系数最人值为0.90以下。(收稿H期2008一08一12)0.40~o.50问,施测范同就比较狭窄。(3)口系数值如太高,量表评估的内部一致性与克朗巴赫α系数的应用评价

作者:作者单位:刊名:英文刊名:年,卷(期):引用次数:

苏中华, 李四劝, 成义仁

苏中华,成义仁(山东省安康医院,山东省行为医学重点实验室,山东济宁,272051), 李四劝(济宁市卫生学校)

临床心身疾病杂志

JOURNAL OF CLINICAL PSYCHOSOMATIC DISEASES2009,15(1)0次

相似文献(10条)

1.期刊论文 谢小燕.刘雪琴.XIE Xiao-yan.LIU Xue-qin 两种压疮危险因素评估量表在手术患者中信度和效度比较研究 -中华护理杂志2006,41(4)

目的比较两种压疮危险因素评估量表(Braden量表和修订版Braden量表)用于手术患者时的信度和效度,为降低术后患者压疮发生率提供有效的压疮危险因素评估工具.方法两名护士分别应用两种量表,同时、独立地对同一患者进行评估,共211例患者接受评估.结果两种量表的评估者间一致性信度

Pearson相关系数分别为0.991、0.993;克朗巴赫系数α分别为0.518~0.743,0.307~0.551;Braden量表和修订版中分别去掉\况\Braden量表手术后当天评分的灵敏度和特异度相对较平衡,分别为70.0%、58.1%.结论两种量表具有较好的评估者间一致性信度、区分度和结构效度,在手术患者中的预测效度均不理想,但修订版优于Braden量表,适合中国手术患者人群的压疮危险因素评估工具有待进一步完善.

2.期刊论文 肖元梅.王治明.王绵珍.兰亚佳.Xiao Yuan-mei.WANG Zhi-ming.WANG Mian-zhen.Lan Ya-jia 主观负荷评估技术和NASA任务负荷指数量表的信度与效度评价 -中华劳动卫生职业病杂志2005,23(3)

目的对2个脑力负荷评价量表即主观负荷评估技术(SWAT)和NASA任务负荷指数(NASA-TLX)量表的信度和效度进行验证.方法采用整群随机抽样方法抽取科研、教育、管理、医疗卫生等行业的脑力劳动者共1 268例组成样本,采用重测信度、分半信度、Cronbach's α系数、条目分与总分之间的相关系数对此两量表进行信度验证,采用结构效度评价两量表的效度.结果两量表总分及各条目的重测信度在0.516~0.753之间,差异有统计学意义(P<0.01),具有较好的重测信度;SWAT量表的分半信度为0.645,Cronbach's α系数>0.80,各条目分与总分之间的相关系数均>0.70,差异有统计学意义(P<0.01);NASA-TLX量表的分半信度、Cronbach's α系数均>0.80,各条目(业绩水平除外)与总分之间的相关系数均>0.60,差异亦有统计学意义(P<0.01),两量表的内部一致性较好;两量表总分的Pearson相关系数为0.492,两量表测定结果一致性较好.因子分析结果表明两量表具有较好的结构效度.结论SWAT和NASA-TLX量表均具有较好的信度与效度,经过适当修订,可作为我国脑力负荷研究的有效工具.

3.学位论文 张立秀 对《蒙特利尔认知评估量表(中文版)》的应用研究 2008

[研究背景]: 随着我国人口快速老龄化,痴呆患病率逐年升高,老年性痴呆占中国神经精神疾病负担“伤残调整生命年”的第5位,是高负担的常见疾病。中国60岁以上老人老年性痴呆的患病率约为3%~5%,65岁以上人群的痴呆患病率为7.5%,80岁以上人群的痴呆患病率可达20%,90岁以上可达50%,且年龄每增加5岁,患病率翻一番。相对高发病率,老年性痴呆症的就诊率却很低,轻度痴呆患者的就诊率仅为14%,中度和重度痴呆患者的就诊率也只有25%和34%。另外,其治疗和干预的效果也甚微。 轻度认知功能损害(mildcognitiveimpairment,MCI)是正常老龄人和早期老年性痴呆之间的过渡阶段,特指有轻度记忆力损害,但其他功能保持完好,达不到痴呆标准的老年人所处的一种认知损伤状态。其患病率是痴呆的2倍,每年有8%~25%的MCI患者转化为痴呆,因此MCI的老年人是痴呆的高危人群,对痴呆的高危人群进行早期筛查,提前干预,可控制或延缓MCI向痴呆的发展进程,减少老年性痴呆的发生,故对我国数目不断上升的老年人群,进行MCI患者的筛查应该提上日程,这样才能使我国的有限的医疗资源得到最大化的利用,有效的实现痴呆的一级预防,减轻家庭和社会的负担,实现健康老年化,积极老年化。 从国外直接引进和部分修订的痴呆评估量表虽然测试简短,但由于不同文化背景和人群特征,会有偏倚的产生,尤其用于认知水平高于痴呆的MCI患者,其测试的认知领域是不全面的,且缺乏敏感性和(或)特异性;联合筛查工具较传统认知筛查工具有所改善,但其测试内容相对增多,测试时间延长,筛查的认知领域仍然局限;专用工具和计算机软件版的测试能全面测试MCI损害的认知领域,计算机软件版的筛查测试将是今后MCI筛查的发展趋势,但计算机版测试对硬件设施和受教育程度的要求,目前在我国很难普及,故目前在我国最理想的MCI筛查工具应是测试全面、系统的专用筛查工具。经过文献检索和评价,在专用工具中,MOCA测试的认知领域全面,敏感性特异性最理想,测试画面形象生动,花费时间合理,已被翻译成十多种语言,是目前较理想的MCI筛查专用工具。 [研究目的]: 1.利用国际上现有的资源,引进一个已翻译成多种语言,经过严格的信效度检验和灵敏度特异度测试的,较成熟的MCI专用筛查评估量表--蒙特利尔认知评估量表,用于筛查我国老年人群中MCI患者,要求其客观真实、简便易行、快速经济,为医生和病人所接受。 2.将筛查量表进一步本土化,效证其中文版的信度和效度,探讨适合广州老年人群不同文化水平的截断值,评价其筛查轻度认知损害患者的效果。 3.加速我国研究MCI的步伐,为实现MCI的有效筛查提供优良的工具,为国际上研究MCI提供比较的依据。 [研究对象]: 采用分层随机抽样法对广州社区、医院、老人院的60岁及以上老年人群进行调查测试。其中排除视力听力肢体严重功能障碍,不能用语言交流,精神疾病患者,第一期实际纳入对象275例,第二期根据临床金标准诊断分组及文化分层最终纳入对象245例。 [研究方法]: 1.横断面调查研究,由调查评估员经过短期培训后,采用标准指导语,用统一问卷,对受试对象进行系列神经心理学量表测试,测试结果由调查员准确记录,临床诊断由临床医生和神经科专家指导确诊。测试工具有

MOCA、MMSE、GDS、CDR、ADL、AVMT。用重测信度、内部一致性、内容效度、标准效度、结构效度等对MOCA测试结果进行评价,效证其信度和效度。根据临床MCI金标准诊断结果,探索广州地区不同文化程度的老年人群的轻度认知损害的MOCA截断值,并用敏感性、特异性、阳性似然比、阴性似然比、阳性预告值、阴性预告值、观察符合率、Kappa值一致性系数检验等对此截断值的筛查效果进行评价。 2.所有数据均采用SPSS11.5统计软件处理。具体采用的统计方法有统计描述、配对t检验、Pearson相关系数、Cronbach'sα和分半信度系数、主成分/因子分析、非参数秩和检验、多元一般线性回归、协方差分析、ROC曲线等。所有结果均以P≤0.05为显著性差异。 [研究结果]: 1.中文版的MOCA可行性好,老年人乐于接受配合,测试完成率92%。重测信度系数0.959,内部一致性系数:Cronbach'sα系数0.841,分半信度系数0.866。内容效度方面的各分项得分与总分相关系数在0.5-0.9之间。效标关联效度考核是将MMSE作为标准,其相关系数为0.933。因子分析取特征值大于1,提取2个公因子,能解释总方差的50.86%,且各项目在相应因子上有较满意的因子载荷量(≥0.4)。 2.同一受试者的MOCA得分均值低于MMSE,MOCA各项目得分中,语言、定向力、命名等项得分很高,抽象思维、注意、视空间能力等项次之,延迟记忆项目得分最低。临床诊断分组(正常组、轻度认知损害组、痴呆组)后,各组的MOCA得分、文化程度、年龄是有显著性差异的(X2=180.312,P=0.000;X2=28.706,P=0.000;X2=88.365,P=0.000);而性别和职业无显著性差异

(X2=1.839,P=0.399;X=2.696,P=0.260),由正常到轻度认知损害到痴呆等不同认知损害水平,年龄逐渐增高,文化水平逐渐下降,MOCA得分下降。3组人群的部分MMSE得分有交错重叠,而3组受试者的MOCA得分很少有重叠现象。本研究显示文化程度、年龄、性别、职业四大影响认知的因素中,文化程度和年龄对MOCA分值影响最大(t=8.487,P=0.000;t=-8.626,P=0.000),职业次之(t=-2.451,P=0.015),性别对MOCA分值影响无统计学意义

(t=1.006,P=0.315)。 3.在广州老年人群中初步运用MOCA,根据临床金标准诊断分组结果绘制受试者工作曲线(ROC),以敏感性和特异性对应的最大约登指数,确定为受试者为文盲时,MCI的MOCA分值范围为14-18;小学文化水平时,MCI的MOCA分值范围为15-24;初中及以上文化水平时,MCI的MOCA分值范围为21-24。据此截断点来筛查广州老年人群中的轻度认知损害患者,其敏感性为0.731,特异性为0.97、阳性似然比24、阴性似然比0.277、阳性预告值0.919、阴性预告值0.885;进行Kappa值一致性系数检验,得出观察符合率为0.894,机遇符合率为0.590,Kappa值为0.741,所以该截断点与临床金标准诊断结果基本符合。 [结论]: 1.蒙特利尔认知评估量表,简单易操作,测试的认知领域全面,画面形象生动,不受外界客观条件的限制,可作为社区、医院、老人院筛查轻度认知损害的便捷工具,同时,可为老年人群的认知水平评估提供参考依据。 2.初步证实中文版的MOCA可接受性好,具有很好的信度和效度。广州老年人群以女性及低文化水平者居多。同时MOCA分值客观的反映了广州老年人群的认知水平较低,其各

量表评估的内部一致性与克朗巴赫α系数的应用评价__

临床心身疾病杂志2009年1月第15卷第1期.,ClinPsychosomDis,Jan.2009·Voll5,No.185·讲座·量表评估的内部一致性与克朗巴赫Q系数的应用评价△苏中华李四劝成义仁【关键词】量表;评估;内部一致性;克朗巴赫a系数;信度系数;应用评价doi:10.3969/j.issn.1672—187X.2009.01.047.0085—02【中图分类号】R195.1【文献
推荐度:
点击下载文档文档为doc格式
31lp07122t1qw0b8cvba7dd7d92whi01amh
领取福利

微信扫码领取福利

微信扫码分享