细说试题的难度、区分度、信度和效度以及对高考复习的启示
一.试题的难度 (一)什么是难度
难度是指试题的难易程度,是评价考试的一个非常重要的一个指标。一个题目,如果大部分考生都能答对,那么这个题目的难度就小;如果大部分考生都不能答对,那么这个题目的难度就大。
客观题难度计算公式:P(难度指数)=试题答对人数/考生人数;主观题难度计算公式:P=试题平均得分/试题满分。试卷难度计算公式:P=为平均分,K为试卷满分值。易、中、难的标准为:易:P≥0.7,中:0.4≤P≤0.69,难:P≤0.39;P值越大,难度越低,P值越小,难度越高。一般来说,难度值平均在0.5最佳,难度值过高或过低,都会降低测验的信度。当然,在实际的评价过程中,测验的难度水平多高才合适,也还要取决于测验的目的。如果教师要对学生的知识准备状况进行一次诊断性测验,为了真实、准确地了解学生的知识掌握情况,测验难度大一点也是正常的。
(二)难度的计算
(1)客观性试题难度P(这时也称通过率)计算公式: P=k/N(k为答对该题的人数,N为参加测验的总人数) (2)主观性试题难度P计算公式:
P=X/M(X为试题平均得分;M为试题满分) (3)适用于主、客观试题的计算公式:
P=(PH+PL)/2(PH、PL分别为试题针对高分组和低分组考生的难度值)
在大群体标准化中,此法较为方便。具体步骤为:①将考生的总分由高至低排列;②从最高分开始向下取全部试卷的27%作为高分组;③从最低分开始向上取全部试卷的27%作为低分组;④按上面的公式计算。
例1:一次生物测试中,在100名学生中,高低分组各有27人,其中高分组答对第一题有20人,低分组答对第一题的有5分,这道题的难度为:
PH=20/27=0.74 PL=5/27=0.19 P=(0.74+0.19)/2=0.47
整个试卷的难度等于所有试题难度之平均值(包括主、客观试题)。 (三)试题难度的一般要求
就高考来说,难度以适中为宜,单个试题的难度以0.3--0.7之间为好,整卷以0.5--0.6之间为最佳。
一般将难度值大于和等于0.7的试题定为容易题;大于0.4和小于0.7的定为中档题;小于和等于0.4的试题定为难题。
命题时难度一般要按一定比例分配,如3:6:1或3:5:2,一般说来,容易题、难度系数为0.95-0.75,中档题为0.74-0.6,难题为0.59-0.20。
二.试题的区分度 (一)什么是区分度
区分度是指考试题目对考生心理特征的区分能力。区分度高的试题能将不同水平的考生区分开来,水平高的考生得高分,水平低的考生得低分。区分度高的考试,优秀、一般、差三个层次的学生都有一定比例,如果某一分数区间学生相对集中,高分太多或不及格太多的考试,区分度则低。
1 / 7
(二)区分度的计算
1.单个选择题目区分度的计算
将全体考生总分从高到低排列,将总分最高的27%考生定为高分组,总分最低的27%考生定为低分组,分别计算两组考生在某道题目上的通过率,两个通过率之差就是这道题的区分度(又叫鉴别指数)。
计算公式为:D=PH-PL. PH和PL分别为高分组和低分组的通过率。 2整个试题的区分度计算(常用) 计算公式为:D=2(XH—XL)/W
其中D为试卷区分度,XH 为27%高分组平均分,XL 为27%低分组平均分,W 为试卷总分。
一般也将全体考生总分从高到低排列,将总分最高的27%的考生定为高分组,总分最低的27%考生定为低分组,再分别计算各组的平均分。
如:一份满分100分的试卷,高分组平均得分90分,低分组平均得分60分,则区分度为2(90-60)/100=0.6
一道题值2分的试题,高分组平均得分1.5分,低分组平均得分0.5分,则区分度为2(1.5-0.5)/2=1
(三)试题区分度的一般要求
区分度(D)的取值范围介于-1.00至+1.00之间。通常D为正值,称为积极区分;D为负值称为消极区分;D值为0称为无区分作用。具有积极区分作用的试题,其D值越大,区分的效果越好。
试题的区分度在0.4以上表明此题的区分度很好,0.3~0.39表明此题的区分度较好,0.2~0.29表明此题的区分度不太好需要修改,0.19以下表明此题的区分度不好应淘汰。
高考的区分度一般要求在0.3以上,表示高分组的学生比低分组的学生能多得30%的分数。一般认为,区分度的数值达到了0.3,便可以接受;低于0.3的题目,区分能力就差了。
三.试题的信度
信度是指使用同一试卷对考生重复测验时,或两个平行试卷对考生测验时,所得测验分数的一致性和稳定性程度。信度除了要说明成绩的真实性之外,还要说明题目涉及的内容与教学的相关程度。
信度系数愈高即表示该测验的结果愈一致、稳定与可靠。系统误差对信度没什么影响,因为系统误差总是以相同的方式影响测量值的,因此不会造成不一致性。反之,随机误差可能导致不致性,从而降低信度。信度可以定义为随机误差R影响测量值的程度。如果R=0,就认为测量是完全可信的,信度最高。
信度的定义
信度主要是指测量结果的可靠性、一致性和稳定性,即测验结果是否反映了被测者的稳定的、一贯性的真实特征。和信度相关的一个概念是效度,信度是效度的前提条件。
信度只受随机误差的影响,随机误差越大,信度越低。因此,信度可以视为测试结果受随机误差影响的程度。系统误差产生恒定效应,不影响信度。
测试信度(test reliability)也叫测试的可靠性,指的是测试结果是否稳定可靠。也就是说,测试的成绩是不是反映了受试者的实际语言水平。例如,如果同一套测试在对同一测试对象(即受试者本身没有变化)进行的数次测试中,受试者的分数忽高忽低的话,则说明该测试缺乏信度。测试的信度与测试的效度有着密切的关系。一般说来,只有信度较高的测试才能有较高的效度,但效度较高不能保证信度也一定较高。测试的信度主要涉及到试题本身的可靠性和评分的可靠性这两个方面。试题本身是否可靠主要取决于试题的范围、数量、试题的区分度等因素;评分是否可靠则要看评分标准是否客观和准确。
测试的信度通常用一种相关系数(即两个数之间的比例关系)来表示,相关系数越大,信度则越高。当系数为1.00时,说明测试的可靠性达到最高程度;而系数是0.00时,则测试
2 / 7
的可靠性降到最低程度。在一般情况下,系数不会高到1.00,也不会降到0.00,而是在两者之间。对信度指数的要求因测试类别的不同而不同,人们通常对标准化测试的信度系数要求在0.90以上,例如“托福”的信度大致为0.95,而课堂测试的信度系数则以0.70-0.80之间为可接受性系数。测试信度的计算方法有很多种,以下仅介绍三种易于操作的方法:
1)重测法(the retesting method)。用同一套试卷在两个不同时间内来测试同一批受试者,这样便获得两组分数,然后计算出两组分数的相关系数。当然,在两次测试中,学生第二次的测试成绩理应比第一次的要高,因为在第二次测试时学生已经有了进步而且临场经验也更丰富了。但是若该试题是比较可靠的,每个学生在两次测试中的排名次序应该是基本不变的。
2)交替形式法(the alternative method)。对同一批受试者使用试题类型完全相同,难易程度相当,但具体题目不同的两套对等试卷先后进行两次测试,然后计算出两次得分的相关系数。
3)对半法(the split-half method)。测试只进行一次,但将整份试卷的题目按单、双数分成两组来分别计分,算出两组分数的相关系数,然后再用Spearman-Brown的公式计算整份试卷的信度系数。具体计算步骤是:将两组分数的相关系数乘以2,再除以1加两组分数的相关系数。
每一个测试的实得分数(X)总是由真实分数(T)和误差(E)两部分构成的,用公式表示如下:
X=T+E
如果我们讨论一组测验分数的特性时,可用方差代表具体分数,得到公式: S^2(x)=S^2(t)+S^2(e)
公式中,S^2(x)是实得分数的方差,S^2(t)是真分数的方差,S^2(e)是误差的方差
在测量理论中,信度被定义为:一组测量分数的真分数方差与中方差(实得方差)的比率。即:
r(xx)=S^2(t)/S^2(x)
由于真实分数的方差是无法统计的,因此转化为: r(xx)=S^2(x)-S^2(e)/S^2(x) =1-S^2(e)/S^2(x)
因此,信度也可以看做是总方差中非测量误差的方差所占的比例 信度的指标
一、信度系数与信度指数
大部分情况下,信度是以信度系数为指标,它是一种相关系数。常常是同一被试样本所得到的两组资料的相关,理论上说就是真分数方差与实得分数方差的比值,公式为:
r(xx)=r^2(xt)=S^2(t)/S^2(x)
公式中r^2(xt)是真分数标准差与实得分数标准差的比值,称作信度系数,公式为: r(xt)=S(t)/S(x)
可见信度指数的平方就是信度系数。 二、测量标准误
信度系数仅表示一组测量的实得分数与真分数的符合程度,但并没有直接指出个人测验分数的变异量。我们可以用一组被试两次测量结果来代替对同一个人的反复施测,于是有了信度的另一个指标,公式为:
SE=S(x)√1-r(xx)
公式中SE为测量的标准误,S(x)是所得分数的标准差,r(xx)为测验的信度系数,从公式我们可以看出测量的标准误与信度之间有互为消长的关系:信度越高,标准误越小,信度越低,标准误越大。
3 / 7