rhh?X?Y??XY??X2?(?X)2N238?2273864?N15??0.86222(?Y)23822724058?3769??Y?N1515
2)再代入公式(2)得:
2rhhru??(2?0.86)/(1?0.86)?0.92 1?rhh所以,该测验的分半信度系数(即信度)为0.92。
(4)影响信度的因素
影响信度的因素很多,比如测验内容、考试的环境、考生的状况等,都能导致测验分数的不一致,从而降低信度值。一般的成绩考试其信度系数在0.9以上为好。试题过易或过难都会影响信度。一般来说,题目多,信度就会高;区分能力强的题目越多信度也会越高;考生能力的差异越大,信度越高。在上述因素中,试卷长度是最重要的因素。
2 试卷的效度
所谓的效度,是指测量工具能够测出其所要测量的特征的正确性程度。效度越高,即表示测量结果越能显示其所要测量的特征。如果说根据某项特征能够区分人、物或事件,那么说某个测量该特征的测量工具是有效的,就是指它的测量结果能把具有不同特征的人、物或事件进行有效的区分。
教育测量学中的效度也称有效性,指的是一个考试所测量的内容达到预期的程度。从统计学的角度讲,效度指的是依据考试分数做出推论或预测的准确性程度。
效度的种类很多,在这里只介绍常用的内容效度和预测效度。 (1)内容效度
内容效度是指测量在多大程度上涵盖了被测量概念的全部内涵,测量工具代表概念定义的内容越多,内容效度就越高。
教育学上的内容效度指的是一个考试所测量的内容的代表性程度。也就是说,所考的内容是否反映了考试的目的、要求,是否考了应考的内容。内容效度的高低与我们通常说的“覆盖面”有关,也与各部分内容的轻重有关。
确定考试的内容效度最常用的方法是由专家对测验题目与考试要求或目标进行符合性判断。在学校的成绩考试中,教师要根据教学大纲和教材对所测验的题目进行系统的比较,看试卷是否能作为一个代表性的样本。
内容效度的确定方法是一种定性分析的方法,存在的局限性在于缺乏可靠的数量指标。然而在高考命题和会考命题中是非常重要的。在高考命题时,为了把握好内容效度常用制作命题双向细目表的办法进行控制。 (2)预测效度
衡量考试有效性的一个重要方法是评价这项考试的成绩所做出的预测是否成立。例如用高考的成绩来预测入学后的考生学习情况,如果准确性高则说明高考的预测效度较好。估价方法常把高考的成绩和学生进高校学习一年后的成绩进行比较,求其相关系数。但是
11
就其高考的预测效度而言,由于考生进校后,受种种因素的干扰,仅从分数上求相关性,在解释上应十分慎重。即使这样,我们在这方面的研究还有待进一步的开展。 (3)影响效度的因素
影响效度的因素很多,由于信度是效度的前提条件,因此影响信度的因素也是影响效度的因素。另外,下面的因素都影响考试成绩的效度:
1)试题和试卷的指导语是否明确。 2)题干用词和句子结构太难理解。 3)试题的难度水平不适宜或比例不当。 4)试题与考试目标一致性差。
5)对要测试的内容缺少足够的题量。 (4)信度与效度的关系
一项考试无论信度有多高,若效度很低,则该项考试便失去了意义。因此可信的测验未必有效,而有效的测验必定可信。换言之,信度是效度的必要而充分的条件。它们之间的关系可用下面的靶形图加以说明。
从图中可看出,图A的弹着点十分分散,表明信度和效度都不高;图B虽然集中,但远离靶心,说明信度高,效度不高;图C全部集中在靶心,表明信度和效度都高。
第三讲 命题通则
一 不超纲
在学校的教育考试中,期中、期末考试以及会考都不能脱离教学大纲的要求进行试题编制。在高考的命题中,要依据考试大纲。多年来中学教师和命题教师之间一直存在着对“超纲”问题的不同看法。由于高考是选拔性考试,重要的功能是“对特质不同的学生进行区分”。纵观这十多年的试题,是否个别试题存在超纲的问题呢?我认为个别是存在的。所谓超纲试题,一种是超出了教学内容的范围,另一种是超出了学生实际的思维能力。
例如,1989年的一道试题:
(1989)27. 人的正常眼睛看近的物体时,晶状体的调节过程是( )
A 睫状体的平滑肌收缩,悬韧带放松,晶状体曲度加大 B 睫状体的平滑肌松弛,悬韧带拉紧,晶状体曲度变小 C 睫状体的平滑肌收缩,悬韧带拉紧,晶状体曲度加大 D 睫状体的平滑肌松弛,悬韧带放松,晶状体曲度变小
答案:A
12
这道试题在内容上超出了大纲,课本中只讲到睫状体内含有平滑肌,有调节晶状体的作用,没有讲如何调节。另外,对晶状体悬韧带和睫状体之间的关系,只讲到它们的解剖位置。在命题时可能想考查学生从近视和远视的成像过程让学生推理出看物体时晶状体的曲度状态,以及所涉及到的平滑肌和悬韧带的状态,然而50秒左右,因此学生难以想象。选择题设计时,平均答题时间为该题无论在内容、能力层次和时间上都超出了考生的水平。
二 与教学内容的一致性
这项原则涉及到一张试卷中,测试不同内容的题目要有合理的配置,对一道试题来说,是指对不同的测试内容要选择不同的题型并赋以合理的分数。也就是说,试题的题型、数量和赋分要与教学内容的相对重要性有合理的量化关系。
例如,1981年有这样一道试题:
在棉花栽培管理过程中,为什么需要摘心?试根据生长素的作用加以说明。
该题为8分,在试卷总分为30分中占37%。考查 的是记忆能力,考试的内容是生长素的作用特点。
答案:(1)棉花的主茎顶端制造的生长素向下输送,使侧芽的生长素浓度过高,因而侧芽发育受到抑制。(4分)
(2)如果摘去主茎顶端(摘心),侧芽部位的生长素浓度就会降低,侧芽的抑制作用就解除了,侧芽可以发育成枝。(4分)
1992年为考查同一个知识点,编制了如下的试题:
12 在棉花栽培过程中,需要摘心(打顶)使侧芽的生长素量( )。 A 增加,以抑制其生长 B 增加,以利其生长 C 减少,以抑制其生长 D 减少,以利其生长
答案: 12.D
该题为1分,占试卷总分70分的1.4%。考查对同一个知识点的再认能力。而这个知识点在教学中的比重也基本上与此相符。两题相对照,便可看出前一道试题的题型和赋分与教学内容的比重严重失调。
三 题干精练、题意明确
试题是一种书面表达形式,具有指令性,因此它的每个名词的使用都要精确,文字和标点要规范。这样才能使考生进行趋同思维而不产生 歧义。这一点在有1000万多人参加的考试中是十分重要的。题干要求精练是因为一张试卷中文字的阅读量直接影响试卷的难度值,因此要把有效的时间尽量留给考生思考和作答,把非智力因素的干扰降到最低水平。
在题干中凡是不利于为考生进行解答而出现的信息对测试结果都是不利的。例如,1989年的一道试题:
为了证明在反射活动中,后根是传入神经,前根是传出神经,可以设计如下实验:制备脊蛙一只,暴露出支配两侧后肢的前根和后根。准备好浸有1%硫酸溶液的滤纸片作为刺
13
激(实验中可适当改变硫酸浓度)。每步实验后,去掉滤纸片,用清水冲洗被刺激的皮肤。先用该滤纸片贴在右后肢趾部皮肤上,右后肢出现反射活动,同时左后肢也可出现反射活动。再以同样方法将滤纸片贴在左后肢趾部皮肤上,左后肢出现反射活动,同时右后肢也可出现反射活动。 (1) 剪断 侧根,将备好的滤纸片贴在右后肢趾部皮肤上,左、右后肢都不出现反
射活动。 (2) 剪断 侧 根,将备好的滤纸片贴在左后肢趾部皮肤上,则左后肢不出现
反射活动,而右后肢可出现反射活动。
该题的题干字数近300个,而答案只有4个字。题中详细的操作过程和具有提示性的内容都可以省略,设问方式和所要求回答的内容也可以更精练和更深入。
1992年为“三南”高考编制了考查同样知识点的题目如下: 下面是有关脊蛙反射的实验(10分) (1) 若将引起脊蛙搔扒反射的浸有0.5%硫酸溶液的小纸牌贴在背部皮肤上,将引
起 ,若贴在足趾皮肤上,则将引起 活动。 (2) 暴露出脊蛙支配后肢的脊神经根,给予适当
的刺激,按右边甲、乙、丙三个示意图作答。 (A) 甲图:刺激后根,引起 ;刺激前根,
引起 。
(B) 乙图:刺激
刺激
(C) 丙图:刺激
刺激
答案: 34.(10分)
(1)搔扒反射(2分);屈腿反射(2分)
14
,引起 ;
, ;
, ;
;
(2)A.左右侧后肢活动(1分);左侧后肢活动(1分) B.右侧后肢活动(1分);不出现活动(1分)
C.不出现活动(1分);右侧后肢出现活动(1分)
该题以图代文,减少了冗长的文字叙述,不仅精练而且形象生动。设问方式简练,而答案又不具猜测性,考查分析能力和识图能力。通过这两道试题的比较,我们可以领悟到试题的编制是一个不断完善、改进的过程,需要反复的推敲、删改、润色才能达到一定的技术水平。
四 使用新情境、新材料
在试题中使用新情境、新材料的目的是让考生以不同于以前的思维方式使用所学过的原则和原理。试题材料的真实性和可信性有助于提高应试者的兴趣和自信心。
新的编题材料可来自各个方面,但所设问的内容绝不能超出考生的实际水平。 例如,1986年的一道很具有争议的分析说明题:
已知有膜的肺炎双球菌对动物无害。请仔细阅读下列实验过程和结果:(图略) (1) 注射有荚膜菌→使动物死亡→动物体内出现有荚膜菌。
(2) 注射杀死的有荚膜菌→对动物无害→动物体内不出现有荚膜菌。 (3) 注射无荚膜菌对动物无害→动物体内出现无荚膜菌。
(4) 注射无荚膜菌加杀死的有荚膜菌→使动物死亡→动物体内出现有荚膜菌 培养 后代有荚膜菌 注 射 使动物死亡。
(5) 注射无荚膜菌加杀死的有荚膜菌中提取的DNA→使动物死亡→动物体内出现有荚膜菌 培养 后代有荚膜菌 注 射 使动物死亡。
(6) 注射无荚膜菌加杀死的 有荚膜菌中提取的蛋白质→对动物无害→动物体内出现无荚膜菌。
根据以上实验结果,可以说明:
上面这道试题的材料来自大学课本中证明核酸是遗传变异物质基础的经典实验。该材料被生物化学、遗传学、微生物学广泛采用,但对中学生却是一种新材料。这种试题的类型属于材料分析题的类型,在国外被广泛采用。它考查了阅读能力、分析能力和自学能力。我认为选此材料命题是适宜的,但问题在于如何使用这份材料,如何设计适合考生水平的答案,在这里面需要再“创造”。该试题在设计中存在两个缺欠: (1)设问方式太笼统
其设问的方式为:根据以上实验结果,可以说明 。 该题所提出的问题没有对答案给以限定。根据思维逻辑,同一现象,人们可以对本质、原因做出不同的解释和推测。由于人们的思维方式不同,根据出发知识可以形成若干结论。因此,考生的答案必然五花八门。
(2)主观给定的标准答案超出了考生的水平
分析说明题中的第一到第三个实验过程基本上是题干中所提供的条件,也是分析问题的前提依据。关键的问题是如何分析第四个和第五个实验过程。用类比的分析方法可以分析出注射无荚膜菌加入杀死的有荚膜菌与加入由杀死的有荚膜菌中提取的DNA具有同样的实验结果。由此进一步推论动物体内出现的有荚膜菌与其DNA的存在有关系。第六个实验过程可以说明蛋白质与此现象无关,但DNA在这个现象中是如何起作用的,学生是无法回答的。而标准答案则要求学生回答DNA可使无荚膜菌转化为有荚膜菌。转化是个专门的分子遗传学的名词,有它特有的含意,考生是不知道的。所以标准答案的设计存在超纲的
15