如何进行试卷分析
景德镇七中-书信的格式范文
如何进行试卷分析
考试作为教学过程控制的重要环节,在学校教学工作中应受
到足够的重视,
并且发挥积极的教学评价与工作导向作用。我们从每次的考试分数中能获得许多
信息,如学生的学习兴趣、学术水平、教师的教学水平与教学中的薄弱环节等等,
而仅限于单科结业成绩
上报是远远不够的。传统的考试统计学方法只能对学生集
体水平给出总结性评价,对学生个体的差异没有
引起足够重视。而个体差异的确
存在,且对学生的学习和心理品质的形成有重要影响。因此,在对学生集
体水平
进行分析评价的同时注重学生的个体差异将是今后试卷分析工作的重点。
随着教育信息
技术的发展,现代教育手段和技术也为试卷分析工作提供了更
为广阔的发展平台。考试统计学势必要跟上
信息化的步伐,突破传统理论和技术
的弊端,不断完善和创新。
一、研究课题的提出
(一) 传统考试统计理论的不足
个体差异的普遍存在使“因
材施教”成为教育学的理想教育原则。虽然在现
实中我们很容易“……把表达思想不清楚的天才与表达思
想清楚的白痴区分开来
——表现为前者通过运算和结论,显示出对科学的深刻体会,但不大能够‘说出<
br>它是怎样的’;后者看上去充满恰当的词汇,却没有相应能力去利用这些词汇所
代表的观念;亦即
好的教育工作者凭籍其多年教学经验很快会对学生的天赋和潜
能做出判断。但借助于正式的测验却往往很
难达到应有的效果。因为当今的学绩
测验及智力测量主要是以再认或再现方式测量学生能够有意识提取的
外显记忆
知识以及对这种知识的运用能力,而对学生的内隐学习与内隐记忆等无意识加工
能力则
很难测出,但这种内隐加工能力却又确实存在,且对学生的学习及其基本
心理品质的形成具有重大影响。
对这种加工能力的测量将有助于对学生的全面理
解与因材施教,因为测评的目的不是为了给学生贴上优劣
的标签,而是为了将儿
童置于合适的教育环境中,尽可能帮助学生扬长避短,在加强外显记忆能力训练<
br>的同时注意开发其内隐心理潜能,多方位、多侧面地进行综合培养。
经典的测验理论在整个
测验的水平上分析测验结果,忽视了个体差异以
及不同的项目反应模式,混淆了相同测验分数所包含的不
同性质的特征。有研究
表明,相同数目的正确反应很可能是由于不同反应模式的结果,而这种反应模式<
br>的差异恰恰反映出真正的心理特征或某种心理定势。现代测量理论中的潜特征理
论及其发展即项目
反应理论则力图克服这一缺点,在一定程度上确定了测量结果
与那些不可直接观察测定的心理特征之间的
关系。
(二) 专门化统计分析工具的缺乏
由于考试统计学是一
门集教育学、数理统计学、计算机科学于一身的综合性
交叉学科,而目前市场上的统计分析软件面向各行
各业,单用于教育统计有很多
的功能浪费及功能不足,且分析结果过于抽象,不能深入浅出的阐明给使用
者。
因此,设计出专门化的考试统计分析工具,就成了提高考试质量的当务之急。
(三)
项目反应理论的崛起提供了数据分析的新工具
70-80年代,在测量理论中,最显著的进步是项目反
应理论的应用,它是继
经典测量理论之后的一个重要的测量里程碑。项目反应理论之所以优于经典测量<
br>理论,在于它克服了后者分析数据对“考分=能力”的局限,而将能力看作是一
个潜在的变量,又
将项目的难度、区分度等重要参数看作是项目本身的固有特性,
独立于被试团体。目前该理论主要应用于
客观性考试、试题库的建立、不同团体
被试在不同测验中能力反应的等值化、跨文化比较等多种测量领域
。在发达国家
的人才测评数据分析中,项目反应理论已经成为一种常规的分析工具。
二、研究目标及意义
首先介绍从宏观层面运用传统教育统计方法分析试卷,将试卷质量及学生
整
体水平的反馈信息提供给教学管理者,帮助其改进教学工作与决策。其次,针对
传统教育统计
方法的弊端,从微观层面进行试卷分析。运用项目反应理论,重视
学生内隐学习和内隐记忆,通过项目反
应模式的差异突破“考试=能力”的局限,
反映出学生真正的心理特征或某种心理定势,对试卷分析结果
进行形成性评价。
形成性评价(与总结性评价相比,形成性评价能提供更多的有关日常教学情况的
信息)的目的不仅在于要诊断和评价学生的学习状况,还要审查、评价教学内容
和教学方法。
试卷的宏观分析
一、试卷宏观分析的需求分析
测试可以在短时间内,省时省力地获
得有关教学的大量信息,有助于教学管
理者作出改进教学工作的决策,通过对试卷的分析获得反馈信息,
了解教师和学
生在教学中存在的问题。有计划的通过考试对教学措施进行检查和研究,是管理
者
改善教学管理的重要依据,也是管理者掌握教师教学情况,进行具体帮助、指
导和控制的重要依据之一。
教学管理者与学科教师通过对试卷的宏观分析,可以把握学生集体知识水
平、集体走向等重要信
息,及时调整教学策略与方法。
二、试卷宏观分析案例
本层面统计分析的主要内容为:试卷
分数的总体分布形态,平均值,总体难
度,差异系数,偏态量数,标准差及其频数与频率分布,试卷难度
及区分度分布,
试卷总体构成差异,试卷信度,试卷结构效度、内容效度等。
本案例对上海市复旦中学高一(2)班第二学期期末成绩SPSS(Statistics
Package for Social Science)用进行了全距、标准差、中位数、频数分布
、试卷难
度、试卷信度、试卷区分度的分析。分析结果如下。
(一)全距
全距是一群数据中最大值与最小值之差,它指的是两个极端值间的全部差
距,常用符号R表示:
RX
max
X
min
(2.1)
用全
距可以用来表示数据的离散程度或差异程度,如果全距R比较大,说
明考生的考分差异较大,如果R比较
小,则说明考生的考分比较集中,在这样
的状况下,如果能够再就试题的平均得分进行对比,就能很容易
地了解全体考生
该知识点掌握的水平高低。
由表中数据,数学试卷的全距为77,可见学生该
科目考试成绩差距较大,
而数学平均分为70.2708,说明总体水平较好但差生过差,要提起注意。
而语文、
历史和政治的全距较小,平均分也较高,说明总体水平较好,学生间差异不大。
这也体
现了理科与文科的差异。
(二)标准差
表示变量值与其平均值离散的程度,是反映事物发展
变化平均状况的数字指
标。在考试中可以用来衡量学生成绩的差异程度
[3]
,以便来
对此次考试的区分程
度有大概的了解,计算公式为:
S
(x
i
x)
2
n
(2.2)
式中,S为标准差;
x
i
为各观测值;
x
为平均数;N为观
测值的个数。一般情况
下每次考试的标准差控制在9-15分之间比较恰当。
如果标准差小于8分,说明
成绩分布较为集中,试卷区分度太小,中等难度的题目偏多;标准差如果大于
16分,则说明成绩过于分散。
考试的标准差控制在9-15分之间比较恰当,因
此数学和外语考试的成绩分
布正常。而政治、语文、物理、化学、历史的成绩过于集中,说明试题的区分
度
不够好。
(三)中位数
中学的成绩通常采用百分制,因此考试成绩分布并不会有
明显的集中趋势,
所以一般不采用众数这一统计量,而采用中位数计量。其公式为:
n1
中位数位置= (2.3)
2
以数学试卷
为例,众数为60,中位数为71。说明考分出现最多的是60分,
处于中间位置的分数为71。这表明
试卷难度适中,稍偏低。而外语试卷中位数
为56.5,说明试卷偏难,学生普遍成绩较低。历史试卷中
位数为90,相对简单,
学生普遍分数较高。
(四)频数分布
一般情况下,考试分
数接近正态分布,但在实际考试中,考试成绩有以下四
种分布形态(如图所示)。反映出试题质量信息各
自不同
图2.1 频数分布图
其中,A图反映出试
题难度分布正常;B图中,正态分布反映出低分人数较多,
平均分较低,说明难度大的试题占分比例较大
;负偏态分布说明高分人数较多,
平均分较高,难度小的试题占分比例较大;C图中,高峰形频数分布表
明学生分
数集中在平均分周围,中难试题占分比例较大;平峰形频数分布表明学生分数差
异较大
,易、中、难三类试题占分比例接近;D图反映出高低两类分数集中,试
题难度梯度大,中难试题占分比
例较小。
以数学试卷为例,全班48人的分数频数分布图如下:
由图可
知,数学试卷考生分数频数分布为负偏态分布。说明高分人数较多,
平均分较高,难度小的试题占分比例
较大;绝大部分考生分数在60~80之间;从
10~20到40~50有断层,即没有考生成绩在20
~40分,说明差生过差,应特别提
起注意。
(五)试卷难度分析
试卷总体难度的计算公式为:
p
试卷难度的评价标准为:
X
(2.4)
X
max
难度
标准
p
政治
大于0.55
交易
语文 数学
0.45~0.55
适中
外语 物理
小于0.45
较难
化学 历史
分析本次考试试卷难度得出:
0.8350 0.7500
0.7027 0.5650 0.8200 0.8650 0.9000
难度系数>0.55认为
试卷难度较易。可见七门学科试卷难度偏易,外语相对
较难而历史相对过于简单。但因为此次期末考试为
知识水平测试,不是选拔性考
试,所以认为试卷难度仍属正常。
(六)信度分析
信
度指标是测试结果可靠性的测评指标。它反映试题或试卷测试结果是否代
表了考生的真实水平。信度高的
试题很少受偶然因素的影响,对任何学生的多次
测定,都会产生比较稳定的、前后一致的结果。我们采用
库德- 里查逊
( Kuder-Richardson) 公式作为客观试题信度指标的度量,称为信
度系数,记作r
it
,
客观试题信度系数的计算公式:
pq
K
r
it
(1)
(2.5)
K1
S
2
式中,K—测试题目数;p —答对率,q —答错率,p+ q
= 1,S
2
—被试各
题得分之和的方差。
信度计算结果的参照标准如下:
信度指标
评价标准
0.60以上
可靠
0.40-0.59
一般
0.39以下
较差
以数学试卷为例:r=0.63,我们认为r>0.6信度可靠,因此该数学试卷可信。
试卷的微观分析
一、试卷微观分析的需求分析
学科教师通过对试卷的微观分析,可
以针对学生个体差异进行个别化教学。
帮助学生找到其问题之所在。
学生通过对试卷的分析,
可以正确地估计自己的成绩,判定自己以往学习的
优劣和活动方式、方法的优劣,并进而制定出较适合自
己具体学习情况的学习方
案,在今后的“教”“学”活动中,选择最佳的学习方法,消除和避开不利因素
,
发挥自己的优势,并努力配合教师的“教”,以取得更好的学习效果。另外,从
教学相长的角
度说,学生全面、深刻、细致的试卷分析也可以帮助教师认识学生
和做好自己的试卷分析工作。
二、相关理论综述
(一)项目反应模式
所谓项目反应模
式,简单来说,就是指测验中被试对项目所作反应的正误组
合形式。
[4]
不同的项目反应模式对应着不同的能力水平,反映了不同被试对学习内容的
掌握程度。特别是,在异常反
应模式中,包含了很多重要的诊断、评价信息。因
此,仅仅将测验总分作为教学评价的依据,我们将失去
很多有用信息。只有综合
总分与项目反应模式的分析结果,才能达到诊断学生学习状况和调整教学计划的
双重目的。日本学者佐藤隆博等人开发的S-P表分析法,则是一种把每一个学生
的答对、答错
模式与团体的反应模式进行对照分析,从而获得所需要的信息的方
法。
(二)教学模式识别
模式识别的功能结构如图所示:
信
息
输
入
信
息
采
集
预
处
理
特
征
提
取
分
类
识
别
结
果
输
出
图2:模式识别的功能结构
在课堂教学信息处理中,:
教学信息的采集:通过各种测验获得学生的得分和反应时间;
预处理:统计每个学生答对的每个项目和每个项目正答人数,然后进行排序;
特征提取:根据
原始数据和预处理的结果作进一步的分析与综合,以取得有
关教与学的各种特征参量值,作为分类识别的
依据。
最后进行模式分类,并对各种教学模式之优劣作出判断。
(三)形成性评价
形成性评价是指在教育活动进行过程中评价活动本身的效果,用以调解活动
过程,保证教育目标实现而
进行的价值判断。形成性评价这一概念是1967年由
美国哈佛大学的斯克里芬(n)在课程研究中提出
的。在具体的教学过
程中,形成性评价就是为了测定评价对象某一具体教学内容的掌握程度,并指出还没有掌握的那部分任务或者在学习过程中存在的问题和不足,其目的不是给学
生评定成绩或作学业
的证明,而是既帮助学生也帮助教师把注意力集中到要达到
的掌握知识的程度上。当然,在教学过程中,
教师要对学生进行形成性评价,教
师也可以对自己的整个教学工作进行形成性评价,以促进教师教学水平
的提高。
相比较而言,总结性评价侧重于对已完成的教学效果进行确定,属于“回顾
式”评价
;而形成性评价侧重于教学的改进和不断完善,属于“前瞻式”评价。
(四)S-P表分析法
所谓S-P表,是把考题的测验分数变成1(答对)或0(答
错)的数据,并
按一定规则排列的每人每题得分表,排表规则为:学生顺序按得分多少由上到下
排列,考题顺序按答对人数的多少由左到右排列。并画出学生的分曲线,称
S(Student)线,画
出考题答对人数曲线,称P(Problem)线,这就是所谓S-P表。
对于第I个学生回答第j个问题的得分,用
x
ij
来表示,
对于客观性试题,规定
x
ij
(答对)1
(答错)0
(得分1该题分值的60%)
(得分0该题分值的60%)
对于主观性试题,规定
x
ij
S线是学生得分分布线,它是这样画
出的,对于第I个学生,使该线左方的
数字个数等于该学生的得分总数
x
i
,
一般用实线表示,呈阶梯状。
P线是问题正答分布线,它是这样画出的,对于第j个问题,使该线上方
的
数字个数等于被正答题的总数
y
j
,一般用虚线表示,呈阶梯状。
通过观察S曲线,每个学生的到达度、全班学生的到达度分布以及平均水平
一目了然。P曲线给出的是
全部测验项目的答对率分布情况。在教学实践中,我
们认为用S-P表评价法评价考试成绩不失为一种很
好的选择。该方法的最大优点
是简单易行,直观形象,信息量大,它的主要评价功能有:(1)测量学生
总体的
学习倾向,测评学生群体的总水平,判断学生有无两极分化,了解学生的优势部
分和劣势
部分等;(2)评价学生个体的学习情况,如学习中的漏洞异常以及学生
在集体中所处的位置等;(3)
评价所出题目的难度、稳定性及信度和效度。
[5]
三、试卷微观分析案例
本案例引用长安大学工程机械学院设9910班的两次“理论力学”的考试成
绩绘制的s-
p表进行微观层面的分析。
(一)试题难度与信度:
在用S-P表分析法时,应首先对实体的难度和信度进行评价。如果试题的难
度和信度不正常则
对学生学习情况的分析与评价就毫无意义。
线幅反映了学生对试题的正答区间,反映了试题难易程度的
差别。P曲线中
间如出现较长的竖直部分,则说明试题难度出现两极分化现象,这将影响试题的
效度,P线上方“1”的个数越多,表明该题应答稳定性越好。
试题难度=1-平均正答率
试题信度=1-差异系数
一般来说,试题难度在0.5以内而信度在0.6以上较为
合适;从表1可以看
出,本次试题难度与信度正常。
(二)总平均答对率:
观察S-
P表时,首先注意到的是S曲线与P曲线所在的位置。S曲线左侧的
面积或P曲线上侧的面积占S-
P表总面积的比例,表示学生团体在该测验中的平
均答对率。因此,在S-
P表中,S曲线越偏右,或P曲线越偏下,学生团体的平
均答对率就越高。
S(Y)
P(x)Nnp
(3.1)
Y1
X1
Nn
1
nN
其中,
p
y
ij
,为S-P表的总平均答对率;
Nn
j1i1
S(Y)表示S曲线与X和Y轴在其左上方所谓的面积;
Y1
n
N
P(x)
表示P曲线与X和Y轴在其左上方所谓的面积;
X1
Nn表示S-
P表的总面积。
利用公式(3.1)得表1的学生总平均答对率:x1=0.69,认为可以接受。
(三)S-P曲线的偏离度
S曲线与P曲线之间的偏离程度的量化指标是差异系数。
(3.2)
N为学生数,n为问题数,p为总平均答对率。
利用公式(3.2)得 D1=0.10
本次考试的D值在0.1~0.2之间,该班的整体稳定性比较好。
从S-
P曲线形状可以看出:
S线幅的大小是学生得分范围的大小,它反映了学生之间的差别程度。从表1可以看出在S线中间部分的水平部分其长度均没有超过S线幅长的13以上,
因此可以认为S线没
有出现断层,表明该班学生成绩优劣不悬殊,群体中没有出
现两极分化现象。
S线左右两边“
1”和“0”的个数的多少反映了学生个体应答的稳定性。学
习稳定的学生,其“1”值应基本在S线左
边,例如表1中序号为1、2号的稳定
性较好,其次是3、4号学生,而27、28号学生稳定性较差。
(四)注意指数
1.学生注意指数:
(3.3)
在S-
P表中,异质反应模式的异质程度,实际上是根据全体学生的反应倾向,
即S-P表中所有的“1”和“
0”的分布状况来确定的。当大部分学生的答对和答
错的模式相同或相似时,S-P表中S曲线左侧和P
曲线上侧的“0”,以及S曲线
右侧和P曲线下侧的“1”就少,S曲线与P曲线之间的偏离也小。然而
,异质
反应模式的“0”、“1”分布,一般与整体分布状况明显不同。
例如表1中序号为3
0和31的学生,尽管这两人的测验分数都是5分,但他
们的反应模式却大不相同。将这两个学生的反应
模式与P曲线(项目的答对率分
布)进行对照,就可以看出,序号为30的学生答对的是团体中大部分学
生都答
对了的项目,而答错的都是答对率低,难度大的项目。这种项目反应模式意味着
序号为3
0学生的学习情况较为正常。然而,序号为31的学生答对的多是团体中
多数学生答错了的、难度大的项
目,而对大部分学生答对了的项目却总是答错。
这种项目反应模式是异质的,它意味着序号为31的学生
学习欠稳定。
一般认为,C.S=0为完全正常,C.S<0.5无需注意,C.S>0.5需引起注
意,而
C.S>0.75且正答率<0.85需引起特别注意。再以表1中序号为29的学生为例,由<
br>公式(3.3)得其注意指数为C.S=0.89,正答率0.55,需引起特别注意。
由于学
生注意指数所反映的是学生个体与整体应答倾向之间的偏离程度,因
此,学生是否被警告,不是取决于他
个人成绩的好坏,而是取决于他的正答题目
是否与大多数人正答题目相一致。
[6]
例
如表1中序号为1的学生与序号为33的
学生其成绩相差很大,但他们注意指数都为0,均不需警告。但
表1中序号为15
的学生,他的成绩并不差,但他的注意指数为0.83,且正答率小于0.85,需引
起
特别注意。而序号为30的学生成绩并不好,但他的注意指数仅为0.29,反而不
需警告。
因此从这个意义上说,注意指数对于学习成绩中等偏上的学生是一种督
促,促使其知识掌握得更全面、更
牢固,还需要指出的是,学生注意指数是一个
可以大于1的数。
2. 问题注意指数:
(3.4)
观察S-
P表,根据P曲线我们可以发现,有些问题的难度偏大(如表1第七
题),团
体中只有个别学生能正确回答。另外还有这样一类题目,其答对率与其
他试题大致相同,但团体中许多成
绩居于上位的学生却做错了。对于这种问题,
在S-P表的上方可以看到许多“0”。造成这种项目得分
排列模式的原因通常有测
验内容异质以及描述和说明不清楚等,它们极易导致学生看错题、理解错误,作
出错误的回答,使得测验分数不能正确地反映学生的学业水平。
以表1中第六大题为例,由公
式(3.4)得C.P=0,该题无需引起注意,说明
该题的难度、区分度良好。
在分析学习
到达度测验以及操练、练习等形成性测验的数据时,为了能对每
一个学生的学习作出正确诊断,重点要把
握的是“大部分学生都答对了的问题是
哪些?”和“多数学生答错的问题是哪些?”。对大部分学生都答
对了的问题,
需要把注意力集中在对答错了该问题的少数学生的异质反应模式的分析上;而对
于
多数学生答错了的问题,应该重点检查问题本身以及与之相关的学习内容、教
学方法是否适当,即进行题
目的反应模式分析。可见,在S-P表分析法中,学生
与问题的反应模式分析应该结合起来进行,也只有
这样,才能对学生的学习情况
和测验项目的质量做出正确地分析。
四、对案例分析结果的进一步思考
一般来说,如果教学内容和教学方法不恰当,学生的学习不
充分、理解不深
入,学生的学习积极性较差,测验内容与教学内容不一致,或出题方法不佳,那
么两曲线之间的偏离程度就比较大。
例如,在学习到达度测验或操练、练习题的S-P表中,如果S曲
线与P曲线
偏离过大,就说明其中可能存在问题。当偏离异常时,应当从以下方面进行形成
性评
价。
教学指导不充分;
学习目标和内容与到达度测验的内容不一致;
测验项目的安排顺序以及各项目的前后关系的配置欠妥,项目的内容、表达
方式和要求 不恰当;
教学与测验之间的时间间隔太长;
练习不够,学生的学习没有得到巩固;
在居于中位和上位的学生中,学习成绩不稳定者居多;
学生的学习积极性不高;
评分标准不一致,评分点不明确;
误判或计分错误。
检查以上种种因素,就可能找出异常偏离的原因。
当S曲线与P曲线过于接近时,可从以下几方面找原因:
学生的学习所达到的水平在整体上都很低;
学习到达度测验对学生团体来说太难;
团体中两极分化现象严重;
测验项目区分度低;
S曲线与P曲线非常接近可能表示多种情况,因此,我们在考虑两条曲线接
近程度的同时,还要研究S曲线与P曲线的形状,只有将两者综合起来考虑,
才能找到一场的真正原因
。
研究反思及展望
针对教育工作者不同层面的需求,将试卷分析分为:宏观分析,运用传统
考
试统计方法(经典考试统计方法)分析学生集体水平,把分析结果提供给教育管
理者;微观分
析,弥补传统统计方法的不足,分析学生的异质反应模式,将分析
结果提供个学科教师和学生个人,促进
教学相长。
对于任课教师来说,试卷分析本身就是教学工作的一部分,它是改进教学,
提高教
学质量的环节。因此,任课教师作试卷分析,着重应对学生考试成绩作统
计描述,并对实体的质量及其失
分的主要原因进行分析。对于实施教考分离的命
题、组卷人员来讲,作试卷分析的目的,主要为今后的进
一步提高命题组水平与
试题质量积累经验,为建立与完善题库奠定基础。因此,主要应分析与试卷、试<
br>题质量有关的项目。作为教学管理部门除了组织、指导、督促上述两类人员做好
有关项目的试卷分
析外,通过试卷分析主要为掌握本校各专业、各班级、各课程
的教学动态,从中发现教学与考试中存在的
问题和评价过程中存在的倾向性问
题,总结经验,提出对策,为今后指导教学、教学评价及教务等方面的
工作提供
依据。因此,在任课教师或命题组卷人员做好试卷分析的基础上,教学管理部门
或教学
研究部门,还可以对全校各专业、各班级、各课程的考试成绩特征与分布
状况、合格率或达标率等作动态
分析与质量监控,并检查有关评卷、印卷等方面
的工作质量。