宋丽红:多维标准参照测验下分数报告质量评价指标论文

宋丽红:多维标准参照测验下分数报告质量评价指标论文

摘要:标准参照测验主要关注学生在特定内容、知识或技能上的掌握程度和表现水平.分数报告中表现水平的分类信度和效度,通常采用分类一致性和分类准确性进行评价.首先介绍多维测验下的分类决策规则;然后介绍多维项目反应理论模型下3类分类一致性和分类准确性指标,一类是基于总分量尺的指标、另外2类分别是基于似然函数和信息矩阵定义在能力量尺的指标;同时还介绍了这些指标的作用;最后指出分类一致性和分类准确性可以用于评价标准参照测验子分数的分类信度和效度,还可以指导计算机分类测验选题和组卷.

关键词:多维项目反应理论;分数报告;决策规则;分类准确性;分类一致性

0 引言

标准参照测验(criterion-referenced tests,CRT)主要报告学生在特定内容、知识或技能上的掌握程度和表现水平.标准参照测验一般在各个维度上将被试分为2个水平(掌握、未掌握)或3个水平(初级水平、熟练水平、高级水平)等表现水平.根据CRT分数报告结果及结果解释,教师可改进教学侧重点,学生也可根据自己的强项和弱项进行针对性学习.因此,CRT有助于发挥考试的诊断功能和促进学生个性化学习[1].标准参照测验已经广泛应用于水平、资格和成就考试等,例如国际学生评价项目、国际阅读素养测评项目、国际数学和科学成就趋势调查、美国国家教育进步评价、美国研究生入学考试、中国国家基础教育质量监测等[2-3].随着新课程标准的建立,基于新课程标准的标准参照测验也有待开发.因为一旦建立和采用新标准,就需要开发新测试,以测量学生是否达到相关标准[4].

任何测量都存在测量误差.测验信度和效度指标可用于评价测量各种随机和系统误差大小.CRT通常会估计和报告学生在特定内容、知识或技能上的子分数或能力分数,再结合专家划定的标准或划界分数,给出学生的表现水平.一般而言,测验题量、难度分布、题目质量、测量模型、子分数或能力分数估计方法等均会影响表现水平的分类信度和效度,并且分类结果会影响分数报告使用者的决策.因此,表现水平分类结果的稳定性和准确性对于分数报告十分重要.分类一致性和分类准确性指标,成为研究者关注的重点[5-6].作为信度指标的分类一致性,它是指2次重复测量中被试观察分类或表现水平一致的比率,主要衡量分类结果的稳定性.作为效度指标的分类准确性是指被试观察分类与其潜在真实分类相同的比率[6-7].

下面先简要介绍分类一致性和分类准确性指标的发展概况[8-15].最早是采用平行测验的方式来估计分类一致性和分类准确性.因为平行测验在实际中较难实现,后来有研究考虑如何从单个测验数据估计分类一致性和分类准确性.随着单维和多维项目反应理论(multidimensional item response theory,MIRT)的发展,基于经典测验理论分类一致性和分类准确性指标,逐渐推广并应用于项目反应理论下指标估计.考虑到项目反应理论的优势,本文主要关注单个测验和项目反应理论模型下分类一致性和准确性指标及其估计方法.按照分数报告所采用的量尺不同,这些指标主要分为2类[9]:基于观察分数(测验总分)的决策指标和基于潜在能力分数的决策指标.其中,基于观察分数的决策指标主要采用W.C. Lee[7,11]提出的方法进行估计,基于潜在能力分数的决策指标主要采用Guo Fanmin[8]或L.M. Rudner[13]提出的方法进行估计.

文献[7-8]的方法开始主要用于单维项目反应理论模型下指标估计.众多实证研究发现,前面提到的许多大型标准参数测验均为多维测验[16-20].这极大地推动了MIRT相关理论和应用研究迅速发展[21-28].伴随着MIRT的发展,对于多维测验,有些研究[14-15]采用文献[7]的方法估计不同内容维度分数的分类一致性和分类准确性,其采用的MIRT模型主要有简单结构多维模型、双因子模型和题组模型.近年来有些研究[9]发现,基于能力分数指标比基于观察分数指标更高.因此,最近一些研究者[29-31]将基于能力分数的文献[8]的方法、文献[13]的方法推广到MIRT模型,并比较了各方法的表现.本文在介绍多维项目反应理论模型之后,重点介绍分类决策规则以及3类分类一致性和分类准确性指标.

1 多维等级反应模型

下面先简要介绍后面要使用的多维等级反应模型(multidimensional graded response model,MGRM).MGRM是等级反应模型的多维模型,是多维能力下有序多值评分项目的测量模型.约定以下记号:样本中被试数为N,即被试i=1,2,…,N;测验项目数为J,即项目j=1,2,…J;项目j的最低分数等级为0,最高分数等级为Kj,对应等级分数k=0,1,…,Kj;被试i在项目j的得分记为yij,它的取值为0~Kj的整数;测验结构的潜在能力维度记为d;被试i的潜在能力列向量记为θi=(θi1,θi2,…,θid)′;αj表示项目j与区分度有关的参数向量;βjk是项目j的第k个等级难度,它满足严格递增关系βj1<βj2<…<βjKj.若采用双参数Logstic模型,则能力为θi的被试i得分为k及以上分数的概率为

其中j=1,2,…,J,k=1,2,…,K.βjk越小表示被试越容易得到等级分数为k或更高等级分数.该模型假设P(yij≥0|θi,αj,βj)=1和P(yij≥Kj+1|θi,αj,βj)=0,且项目j的各个等级难度是严格单调递增.由此可知,能力为θi的被试i恰得k分的概率等于得k分或更高分的概率与得k+1分或更高分的概率之差:

(1)

其中k=0,1,2,…,Kj.

MGRM定义了给定能力为θi的被试i在项目j上作答反应为yij的条件分布.已知作答反应矩阵或得分阵,有计算机程序或软件(包)可用于多维模型的项目参数和被试能力估计[32],如BMIRT(bayesian multivariate item response theory)、IRTPRO软件和R软件下mirt包等.在局部独立假设下,给定项目参数估计(α和β)与观察数据yi,最大化下面似然函数可得到被试能力估计:

(2)

其中示性函数定义为

2 决策规则

决策规则直接影响测验分类结果的信度和效度.根据教育与心理测量标准,对于学生有重要影响(如升学、录取)的决策,不能仅基于单个方面的测验分数做决策[33],而要求使用多重测量(multiple measures)结果做决策,以提高测量的信度、效度、公平性等[34-35].多重测量结果一般按照一定决策规则生成合成分数(composite score).合成方法通常可采用联合(conjunctive)、补偿(compensatory)、联合和补偿混合、验证(confirmatory)规则.相关规则已经应用于英语考试、通识考试和学业评价等[33-34,36-37].其中,联合规则要求被试在各个测量目标上达标,补偿规则允许测量结果之间补偿,验证规则用于用一个测量去证实或评估其他测量结果的质量.研究生入学考试同时规定考试科目单科分和总分最低要求,这属于混合型决策规则.MIRT能细致地反馈学生在各个内容、知识和技能方面的信息,它特别适合于分析和合成多重测量结果[25,38].下面主要在MIRT框架下介绍3种多维潜在能力下的决策规则[29-31].

1)基于各个能力分数的决策规则,决策区域定义如下:

R1k={θ=(θ1,θ2,…,θd)|τ0k<θk<τ1k,-∞<θk′<+∞,k′=2,3,…,d},

Rhk={θ=(θ1,θ2,…,θd)|τ(h-1)k≤θk<τhk,-∞<θk′<+∞,k′=1,…,k-1,k+1,…,d},

其中h=2,3,…,H,τhk为第k维能力分数量尺上的划界分数,满足-∞=τ0k<τ1k<…<τHk=+∞.

2)基于合成能力分数的决策规则,决策区域定义如下:

R1(H+1)={θ=(θ1,θ2,…,θd)|τ0(H+1)<

Rh(H+1)={θ=(θ1,θ2,…,θd)|τ(h-1)(H+1)≤

其中h=2,3,…,H,wk表示第k维能力上的权重,τ(h-1)(H+1)表示合成能力分数量尺上的划界分数,满足-∞=τ0(H+1)<τ1(H+1)<…<τH(H+1)=+∞.

3)基于各个能力和合成分数的决策规则,决策区域定义如下:

3 分类一致性和分类准确性

3.1 基于文献[7]方法的分类一致性和分类准确性指标

记g(θ)表示能力分布的密度函数.根据测验总分将被试分为H类(或表现水平),设置划界分数或划界点:s0,s1,…,sH,满足0=s0<s1<…<sH-1<sH=+∞且当被试观察总分<s1时,被试判为第1类;当s1≤被试观察总分<s2时,被试判为第2类;依次类推,当被试观察总分≥sH-1时,被试判为第H类.

3.1.1 分类一致性指标 被试的测验总分随机变量X的概率分布为

g(θ)dθ1…dθd,

其中随机变量X的观察值它表示被试在测验总分的可能取值,且表示能力为θ的被试在含J个项目的测验总分为x的条件概率.在项目反应理论的局部独立假设成立情况下,对于测验长度为J、能力为θ的被试在测验上总分为x的条件概率的递推公式为

(3)

PJk(θ)由(1)式计算,它表示能力为θ的被试在项目J恰得k分的概率,PJ-1(X=x-k|θ)表示前J-1个项目上总分为x-k的概率.(3)式也可以写成容易理解的公式:

还可以定义条件假阳性率(the conditional false positive error rate)或高估概率、条件假阴性率(the conditional false negative error rate)或低估概率分别为

(4)

3.2.1 分类一致性指标 文献[8]的方法是由似然函数计算分类一致的概率.给定被试i的得分yi、项目参数估计α和β,由似然函数和决策区域可计算被试i被分到第h类表现水平的概率为

1.家长助教可以拓展课堂教学内容和有效补充教师专业知识的不足。家长资源是幼儿园不可或缺的可利用资源,家长利用自身资源将其专业知识、工作经验和社会经验带入课堂中,不仅可以帮助幼儿园和教师完善人力资源、物质资源、信息资源等方面的不足,还可以拓展课堂教学内容,丰富幼儿相关的知识经验。如,在开展体育活动中,体育教师一个人的精力有限,无法组织幼儿完成大型体育活动游戏,而有了家长的参与和帮助,教师便可以更好地带领大家共同完成内容丰富的体育活动;另外,对于专业性较强的特色课程内容,家长助教也可以补充教师专业知识的不足。

根据给定能力θ下测验总分X的条件分布、决策规则中指定的观察分数量尺上的划界分数,可以得出能力为θ的被试测验总分X位于表现水平第h类所在区间的概率,即能力为θ的被试被分到第h类表现水平的概率为

pθ(h)=PJ(s(h-1)≤X<sh|θ)=

(5)

其中h=1,2,…,H.

由此可以计算出能力为θ被试的条件分类一致性指标φ(θ),即2个平行测验上能力为θ的被试分类一致的概率为

γ(θ)=pθ(h),若τ(θ)∈[τh,τh+1).

为消除随机一致分类偶然概率的影响,Kappa系数对因随机分类的偶然概率(the chance probability)进行修正,由此可采用下式计算φ对应的Kappa系数:

11、座果后膨果期间如遇上连雨天,应把握好下雨停雨间空期,抢在间空期及时喷内吸性强的杀菌剂,雨后再补喷,就可避免各种病害发生。

κ=(φ-φc)/(1-φc),

其中φc表示由于随机一致分类偶然概率,其计算公式为

可是,很多家用的跑步机,动辄要数千上万元,买回去又大又沉又占地儿,对于小户型的家庭来说,真的是放哪哪碍事儿。

结合(5)式和能力分布,可计算边际分类概率p(h)为

3.1.2 分类准确性指标 先计算能力为θ的被试的期望总分或真分数:

(6)

设真分数量尺上划界分数为τ0,τ1,…,τH,其中τ0=0,划界分数将被试分为H类.根据划界分数,确定能力为θ被试的“真实”类,即当被试真分数满足τ(θ)∈[τh,τh+1)时,第h类视为被试的“真实”类.再计算能力为θ被试的条件分类准确性指标γ(θ),即能力为θ的被试分到其“真实”类的概率

科学技术的持续发展使得某些现象发生了改变,公司的财务管理先进性和公司的业务水平因为网络的迅速发展而出现了所谓“拖后腿”的现象。在“互联网+”时代,公司的发展情况一般是呈正比例型的,换句话说,公司每一份业绩都会带来公司发展的实际的并且较为均匀的增长。而在“互联网+”的背景下,却出现了一个从未有过的阈值,企业的发展需要在突破阈值后才能进入一个快速发展的模式,在这之前业务能力会出现明显的“拖后腿”现象。

条件分类一致性指标只是反映固定能力水平的测验分类一致性.测验对整个能力空间上能力的分类一致性,只需计算φ(θ)的期望,即可得到测验或边际分类一致性φ为

那么,支持民营企业发展壮大,司法部都有哪些“大动作”?《意见》的出台将给民营企业发展带来哪些利好?本刊专访了司法部部长傅政华。

抓好体制机制建设,健全完善食品安全监管体系。第一师阿拉尔市食品药品监管局严格按照机构改革开展监管工作。在人员、编制未增加的情况下接管食品生产、流通环节监管工作,确保安全监管“无死角”。同时健全团场、连队、街道社区食品安全协管机构,建立起横向到边、纵向到底的食品安全监管网络,并将食品安全纳入辖区各团(场、处)绩效考核。

条件分类准确性指标只是反映给定能力处的测验分类准确性.测验对整个能力空间上能力的分类准确性,只需计算γ(θ)的期望,即可得到测验或边际分类准确性γ为

分类准确性指标γ对应的Kappa系数为

κ=(γ-γc)/(1-γc),

其中若τ(θi)∈[τh,τh+1),则wih=1,否则wih=0.

2.3.2 医护工作者职业认同的学历差异 对医护工作者职业认同进行学历的方差分析(见表6),结果表明:不同学历医护工作者职业情感、职业期望维度得分存在显著性差异,而其他维度不存在显著性差异;大专学历医护工作者职业认同程度高于其他学历医护工作者,中专及以下学历医护工作者认同程度最低。

若τ(θ)∈[τh,τh+1),

若τ(θ)∈[τh,τh+1).

边际假阳性率γ+和边际假阴性率γ-分别为

麦村又恢复了落寞和平静,秋去冬来,北风像无形的巨手把地上的花花草草枝枝叶叶全都撸走了,把世间一下子撸空了,村庄也显得格外冷清、肃杀和凄凉;每当夜深人静时,房前屋后的树枝上传来北风呜呜的哭泣声,不由得让人悲从心生。留守在麦村的老人和妇孺们,缩在冰冷的被窝里扳着手指数日子,到过年还有多少天?到男人们返村还有多少天?盼着他们从城里启程,回到自己的身边,将这群枯燥、焦渴和守身如玉的女人,印染成别样的景色。

(7)

(8)

3.2 基于文献[8]方法的分类一致性和分类准确性指标

决策规则是将整个能力空间划分为多个互不相交区域的函数.若将d维能力向量空间Rd划分为H个互不相交的决策区域,分别记为R1,R2,…,RH,这H个决策区域对应H个不同的表现水平.

(4)式表示给定能力θ下的所有满足测验总分为x的所有可能得分向量(y1,y2,…,yJ)的联合概率或似然函数之和.

其中h=1,2,…,H,似然函数L(yi|θ,αj,βj)见(2)式.

分类一致性为平行测验下各个表现水平上所有被试被分到相同类的比率,即分类一致性φ为

分类一致性φ对应的Kappa系数为

κ=(φ-φc)/(1-φc),

其中

3.2.2 分类准确性指标 下面定义基于文献[8]方法的分类准确性指标.矩阵W=(wih)N×H用于标识被试的表现水平的估计.如果使用真分数量尺上划界分数,根据被试能力的极大似然估计θ,由(6)式可计算被试的期望总分或真分数τ(θ),再根据划界分数,确定能力为θ的被试的“真实”类.当被试期望总分满足τ(θ)∈[τh,τh+1)时,记wih=1,否则wih=0.wih指示被试的“真实”类.若使用潜在能力量尺上的决策规则,则可根据被试的能力估计确定wih.由于第h类可视为被试i的“真实”分类,pih即表示被试i被分到第h类的期望正确分类概率,则正确分类概率或分类准确性指标γ为

分类准确性指标γ对应的Kappa系数为

κ=(γ-γc)/(1-γc),

其中

经考古发现,坎布拉附近有古文化遗址多处,包括5 000年前新石器时代晚期至3 000多年前青铜器时代的马家窑、齐家、卡约等文化类型,出土有不同时期的陶器、石片、动物骨骼等,记录了远古时期先民们生活及生产活动的情况。

类似于(7)式和(8)式,边际假阳性率γ+和边际假阴性率γ-分别为

其中表示被试i的“真实”分类.

3.3 基于Rudner方法的分类一致性和分类准确性指标

在多维项目反应理论模型下,测验信息量可用于评价能力估计的误差.例如,能力向量极大似然估计的渐近协方差阵是信息量矩阵的逆矩阵[39].多维项目反应理论模型下项目信息量矩阵[40-41]定义如下:

Ij(θ)=-E(∂2logL(Yj|θ)/∂θ∂θT),

还如乐善秦腔秦剧《二进宫》,徐彦昭在《黑叮本》一折戏中,近700字的大段念白,语音、语调、语气,层层深入,把人物的感情、剧情的发展推向一个高潮,这种摒弃音乐渲染、让人物凄楚哀伤、句句流入观众心田、巧妙表现人物心曲的形式,这种没有音乐歌唱的无曲、空白处理,具有此时无曲胜有曲的艺术感染力。

在局部独立假设条件下,项目信息量具有可加性[42],由此得到能力点θ处的测验信息量矩阵为

其中l=1,2,…,d.单维模型下信息量计算公式的可参见相关文献[22,42-43].项目信息量矩阵Ij(θ)非主对角线元素计算公式如下:

《办法》规定省级盐业主管部门要建立健全食盐储备制度,承担政府储备责任;食盐定点生产、定点批发企业承担企业食盐储备责任。另外,《办法》规定县级以上地方人民政府要采取必要措施,保障边远地区和民族地区的食盐供应。同时,盐业主管部门应当会同有关部门制定食盐供应应急预案,在发生突发事件时,协调、保障食盐供应。

基于前文对现状的分析以及上述原因,本文认为在对乐山地区居民进行普通话培训时,要注重基础知识的课程设置,这必须引起教学上的重视,要针对不同的人群设置适合其学习的时间、授课方式以及学习内容。

其中L(Yj|θ)表示项目j上的似然函数,可由(2)式变化而来.对于多维等级反应模型下项目信息量矩阵Ij(θ)主对角线元素计算公式如下:

其中l,l′=1,2,…,d,l≠l′.项目信息量矩阵Ij(θ)的公式如下:

下面介绍基于信息量矩阵的分类一致性和分类准确性指标.能力向量的极大似然估计渐近服从多元正态分布,记为由多元正态分布可计算被试i分到第h类的期望概率为

其中表示能力点处的测验信息量矩阵.该积分式可通过数值积分方法的蒙特卡罗模拟方法计算.由此,可计算分类一致性和分类准确性指标分别如下:

基于Rudner方法的分类一致性和分类准确性指标对应的Kappa系数,可类似于文献[8]的Kappa系数计算.

4 分类一致性和分类准确性的价值

CRT根据测验分数和决策规则只将被试在各个维度掌握程度上分成少数几类表现水平.因为分类的类数少,在各个内容维度只需较少试题便可得到较好的分类精度,特别适合于大规模测评等.前已述及,许多大型CRT具有多维性.若不同能力维度之间存在相关性,则由于MIRT可以互借不同维度信息从而提高分类结果的信度和效度,因此,MIRT是分析多维测验数据的重要方法之一.众多研究者介绍了分类一致性和分类准确性指标及其估计方法,有必要分析其应用条件、应用场合及其价值.

这些指标可用于估计单个测验的分类一致性和分类准确性.无需进行重复测量,也无需采用能力分布和项目参数估计模拟平行测验再估计分类一致性和分类准确性.测验的分类一致性尽管可以通过重复测量计算,但重复测量条件比较苛刻,在实际应用中较难获得重测数据[11].而对于测验的分类准确性,在真实测验情景下被试的真实能力未知,无法计算估计能力与被试真实能力分类相同的比率.

勒菲弗尔在《翻译、改写以及对文学名声的控制》一书中首次引入了“改写”这一概念,认为翻译就是一种对原文的改写,而改写就是操作。他认为“所有的改写,不管其目的如何,都反映了某种意识形态和诗学,从而操作文学在特定的社会里以特定的方式其作用”。而在电影字幕翻译中,出于迎合目的语观众的口味以及娱乐化的价值取向,可以对原文内容进行适当的改写。翻译是戴着脚镣跳舞,改写必须把握好适度原则,不可以脱离原文,随意改写。

能力分数或观察总分的条件标准误差[1]也可用来评价CRT的分类误差,但是它并不能直接等同于测验的分类准确性.条件标准误差反映能力估计值与能力“真值”之间的渐近误差大小,在测验长度较短时可能未必合适.条件标准误差可反映测验在各个能力处的标准误差,并未直接显示测验的整体分类准确率.不过,当单维IRT模型能力误差分布为正态分布时,条件标准误差与测验分类准确性存在非线性转换关系[45].在多元正态分布假设下,理论上这种关系在MIRT模型中很可能仍然成立,但有待深入研究.

本文介绍的指标及估计方法可用于模拟研究和实证研究.只需在调用MIRT模型的参数估计程序之后再调用指标估计的实现算法,就可基于测验作答数据、项目参数估计、估计的能力分布和决策规则(或划界分数),也可计算或估计真实测验的分类结果的分类一致性和分类准确性指标,用于反映分类结果的信度和效度.另外,基于观察分数量尺的分类一致性和分类准确性指标已经用于评价真实测验的分类信度和效度.例如,在单维IRT模型或其他统计模型下,已有研究[10]表明文献[7]的方法已经用于评价许多真实测验的分类结果质量,并且已经开发了专门的商业或免费软件供用户使用.

这些方法或指标可用于评价复杂决策规则和多维模型下域分数(domain scores)或子分数(subscores)的质量.域分数或子分数可反映被试对某个内容、知识或技能的掌握程度,它比量表分数解释性更好,大众接受度也更高[46].因为IRT或MIRT具有参数不变性和成熟的等值方法、可以利用维度间信息相关从而提高各个子分数的分类信度和效度等优势,基于IRT或MIRT模型的领域分数或子分数更具优势.

5 结论

本研究介绍了MGRM下的分类一致性和准确性指标,下面对已有研究的相关结论进行归纳和总结:3类方法均可较好地用于多维模型下的分类一致性和准确性估计,可用于多维CRT表现水平的信度和效度评价;类似于单维模型的结论,在多维模型下,基于潜在能力量尺分数的2类方法(文献[8]方法和文献[13]方法)比基于观察分数的方法(文献[7]方法)所得到的分类一致性略高,在能力之间相关性较大时分类准确性更高;3类方法中涉及的求和或积分可通过蒙特卡罗模拟方法估计;基于潜在能力量尺的2类方法比基于观察分数量尺的方法应用范围更广,可适用于多种决策规则指标估计(既适合于能力分数指标估计,还适合于内容或技能子分数、合成分数等指标估计);在总分决策规则和无信息先验分布下(即先验分布为均匀分布),文献[7-8]方法下分类准确性指标估计量依概率收敛于同一真值.

6 讨论

不同于Rudner的方法[12-13],文献[8]方法可适用于非正态性数据,无需借助能力估计误差渐近正态性假设[8],这样可避免分数正态转换过程可能引起分类结果差异的问题[5].测验长度越长,极大似然法估计的渐近正态性满足越好.已有研究并没有考虑在能力估计误差分布为非正态分布条件下各指标的表现.当能力估计误差分布为非正态分布时,各指标尤其是Rudner指标的稳健性如何,有待研究.在不同条件下,有待将本文介绍的指标估计方法与非参数估计方法[10]进行比较.

因为各指标的估计方法均依赖于测量模型,在实际应用中不能单纯考虑分类一致性和分类准确性的高低,还需要考虑模型-资料拟合等其他信度和效度的影响因素.例如,文献[8]方法需要基于项目反应函数计算似然函数;文献[13]方法需要利用能力估计的信息矩阵,信息矩阵同样依赖于似然函数;文献[7]方法也同样依赖于似然函数或联合概率分布.另外,能力向量的信息矩阵还可以采用不同的估计方法得到,信息矩阵的不同估计方法对指标估计的影响如何,也有待考虑.

若以合成能力分数信息量最大或分类准确性最高为目标求取分数合成的权重[47],则不等权重的合成分数是否可显著提高分类结果的分类一致性和准确性值得探讨.在特定应用中,需要综合考虑测验目的、结构效度、内容效度、分数解释性、测验公平性和决策风险等因素决定决策规则.对于计算机分类测验,分类一致性和分类准确性指标在计算机自动组卷、计算机多阶段自适应测验构建中的应用,也需要探讨.

7 参考文献

[1] 戴海琦.心理测量学 [M].北京:高等教育出版社,2010.

[2] 甘良梅,余嘉元.标准参照测验分数体系的探讨研究 [J].心理学探新,2006,26(3):79-83.

[3] 辛涛,李勉,任晓琼.基础教育质量监测报告撰写与结果应用 [M].北京:北京师范大学出版集团,2015.

[4] Duncan A.Address by the secretary of education at the 2009 governors education symposium:states will lead the way towards reform [EB/OL].http://www2.ed.gov/news/speeches/2009/06/06142009.pdf.

[5] Douglas K M,Mislevy R J.Estimating classification accuracy for complex decision rules based on multiple scores [J].Journal of Educational and Behavioral Statistics,2010,35(3):280-306.

[6] 陈平,李珍,辛涛,等.标准参照测验决策一致性指标研究的总结与展望 [J].心理发展与教育,2011(2):210-215.

[7] Lee W C,Brennan R L,Wan L.Classification consistency and accuracy for complex assessments under the compound multinomial model [J].Applied Psychological Measurement,2009,33(5):374-390.

[8] Guo Fanmin.Expected classification accuracy using the latent distribution [J].Practical Assessment,Research and Evaluation,2006,11(6):1-6.

[9] Lathrop Q N,Cheng Ying.Two approaches to estimation of classification accuracy rate under item response theory [J].Applied Psychological Measurement,2013,37(3):226-241.

[10] Lathrop Q N,Cheng Ying.A nonparametric approach to estimate classification accuracy and consistency [J].Journal of Educational Measurement,2014,51(3):318-334.

[11] Lee W C.Classification consistency and accuracy for complex assessments using item response theory [J].Journal of Educational Measurement,2010,47(1):1-17.

[12] Wyse A E,Hao Shiqi.An evaluation of item response theory classification accuracy and consistency indices [J].Applied Psychological Measurement,2012,36(7):602-624.

[13] Rudner L M.Expected classification accuracy [J].Practical Assessment Research and Evaluation,2005,10(13):1-4.

[14] Yao Lihua.Classification accuracy and consistency indices for summed scores enhanced using mirt for test of mixed item types [EB/OL].[2018-12-16].http://www.bmirt.com/8220.html.

[15] LaFond L J.Decision consistency and accuracy indices for the bifactor and testlet response theory models detecting heterogeneity in logistic regression models [EB/OL].[2018-12-21].https://ir.uiowa.edu/etd/1346.

[16] Debeer D,Buchholz J,Hartig J,et al.Student,school,and country differences in sustained test-taking effort in the 2009 pisa reading assessment [J].Journal of Educational and Behavioral Statistics,2014,39(6):502-523.

[17] Makransky G,Mortensen E L,Glas C A W.Improving personality eacet scores with multidimensional computer adaptive testing:an illustration with the Neo Pi-R [J].Assessment,2012,20(1):3-13.

[18] Rijmen F,Jeon M,von Davier M,et al.A third-order item response theory model for modeling the effects of domains and subdomains in large-scale educational assessment surveys [J].Journal of Educational and Behavioral Statistics,2014,39(4):235-256.

[19] Yao Lihua,Boughton K A.A multidimensional item response modeling approach for improving subscale proficiency estimation and classification [J].Applied Psychological Measurement,2007,31(2):1-23.

[20] Zhang Jinming.Calibration of response data using MIRT models with simple and mixed structures [J].Applied Psychological Measurement,2012,36(5):375-398.

[21] Cai Li.High-dimensional exploratory item factor analysis by a metropolis-hastings robbins-monro algorithm [J].Psychometrika,2010,75(1):33-57.

[22] Reckase M D.Multidimensional item response theory [M].New York:Springer,2009.

[23] 刘红云,骆方,王玥,等.多维测验项目参数的估计:基于SEM与MIRT 方法的比较 [J].心理学报,2012,44(11):121-132.

[24] 杜文久,肖涵敏.多维项目反应理论等级反应模型 [J].心理学报,2012,44(10):1402-1407.

[25] 康春花,辛涛.测验理论的新发展:多维项目反应理论 [J].心理科学进展,2010,18(3):530-536.

[26] 涂冬波,蔡艳,戴海琦,等.多维项目反应理论:参数估计及其在心理测验中的应用 [J].心理学报,2011,43(11):1329-1340.

[27] 许志勇,丁树良,钟君.高考数学试卷多维项目反应理论的分析及应用 [J].心理学探新,2013,33(5):438-443.

[28] 詹沛达,王文中,王立君,等.多维题组效应Rasch 模型 [J].心理学报,2014,46(8):1208-1222.

[29] 汪文义,宋丽红,丁树良.复杂决策规则下MIRT的分类准确性和分类一致性 [J].心理学报,2016,48(12):1612-1624.

[30] Wang Wenyi,Song Lihong,Ding Shuliang,et al.Estimating classification accuracy and consistency indices for multidimensional latent ability [EB/OL].[2018-10-12].https://link.spriger.com/chapter/10.1007%2F978-3-319-38759-8-8.

[31] Wang Wenyi,Song Lihong,Ding Shuliang.An extension of rudner-based consistency and accuracy indices for multidimensional item response theory [EB/POL].[2018-12-11].www.doc88.com/p-3149195293902.html.

[32] Chalmers R P.MIRT:a multidimensional item response theory package for the r environment [J].Journal of Statistical Software,2012,48(6):1-29.

[33] Henderson-Montero D,Julian M W,Yen W M.Multiple measures alternative design and analysis models [J].Educational Measurement:Issues and Practice,2003,22(2):7-12.

[34] Chester M D.Multiple measures and high-stakes decisions a framework for combining measures [J].Educational Measurement:Issues and Practice,2003,22(2):32-41.

[35] McBee M T,Peters S J,Waterman C.Combining scores in multiple-criteria assessment systems:the impact of combination rule [J].Gifted Child Quarterly,2014,58(1):69-89.

[36] Carroll P E,Bailey A L.Do decision rules matter?A descriptive study of english language proficiency assessment classifications for english-language learners and native english speakers in fifth grade [J].Language Testing,2016,33(1):23-52.

[37] Abedi J.The no child left behind act and english language learners:assessment and accountability issues [J].Educational Researcher,2004,33(1):4-14.

[38] Chang Huahua.Making computerized adaptive testing diagnostic tools for schools [C]∥Lissitz R W,Hong Jiao.Computers and their impact on state assessment:recent history and predictions for the future.Charlotte,NC:Information Age Publisher Inc,2012:195-226.

[39] Wang Chun.On latent trait estimation in multidimensional compensatory item response models [J].Psychometrika,2015,80(2):428-449.

[40] Ackerman T A.Full-information factor analysis for polytomous item responses [J].Applied Psychological Measurement,1994,18(3):257-275.

[41] Yao Lihua,Schwarz R D.A multidimensional partial credit model with associated item and test statistics:an application to mixed-format tests [J].Applied Psychological Measurement,2006,30(6):469-492.

[42] Chang Huahua.The asymptotic posterior normality of the latent trait for polytomous irt models [J].Psychometrika,1996,61(3):445-463.

[43] Samejima F.Estimation of latent ability using a response pattern of graded scores [J].Psychometrika,1969,34(1):1-97.

[44] Chang Huahua,Stout W.The asymptotic posterior normality of the latent trait in an irt model [J].Psychometrika,1993,58(1):37-52.

[45] Cheng Ying,Liu Cheng,Behrens J.Standard error of ability estimates and the classification accuracy and consistency of binary decisions [J].Psychometrika,2015,80(3):645-664.

[46] 辛涛,谢敏.群体水平领域分数及其估计方法 [J].心理发展与教育,2010(4):416-422.

[47] Yao Lihua.Multidimensional linking for domain scores and overall scores for nonequivalent groups [J].Applied Psychological Measurement,2010,35(1):48-66.

TheQualityEvaluationIndexforScoreReportinginMultidimensionalCriterion-ReferencedTests

SONG Lihong1,WANG Wenyi2

(1.Elementary Education College,Jiangxi Normal University,Nanchang Jiangxi 330022,China;2.College of Computer Information Engineering,Jiangxi Normal University,Nanchang Jiangxi 330022,China)

Abstract:For criterion-referenced tests,classification consistency and accuracy are important indicators for evaluating the reliability and validity of classification results in scores reporting.Numerous procedures have been proposed to estimate these indices in the framework of unidimensional item response theory(UIRT).Multidimensional item response theory(MIRT) has been devoted to models that include more than one latent trait to account for the multidimensional nature of complex constructs.MIRT has been successfully employed to analyze many criterion-referenced tests.Because MIRT has enjoyed tremendous growth,the purpose of this study will give a brief review of decision rules and three types of classification consistency and accuracy.The first one is the classification accuracy and consistency based on total sum scores,the second is the likelihood-based consistency and accuracy,and the last is the information-based consistency and accuracy.Finally,two practical implications of this research have been identified.First,it is easily to estimate classification consistency and accuracy indices for subscores or composite scores in each knowledge,content or skill area when the true cut scores were on the total score or latent ability scale.Second,they might be useful for developing test construction method in a multistage testing which is a form of computerized adaptive classification testing for making classification decisions.

Keywords:multidimensional item response theory;score reporting;decision rule;classification accuracy;classification consistency

收稿日期:2019-02-17

基金项目:江西省教育科学“十二五”规划一般课题(13YB032)资助项目.

作者简介:宋丽红(1981-),女,江西新干人,副教授,博士,主要从事教育测量研究.E-mail:viviansong1981@163.com

文章编号:1000-5862(2019)04-0368-08

中图分类号:B 841.7

文献标志码:A

DOI:10.16357/j.cnki.issn1000-5862.2019.04.07

(责任编辑:冉小晓)

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

宋丽红:多维标准参照测验下分数报告质量评价指标论文
下载Doc文档

猜你喜欢