刘馨婷:双因子模型下CAT测验优化设计及其效果验证论文

摘要：在2种传统的BCAT测验设计的基础上,提出了4种新的BCAT测验设计,并采用国际上通用的MonteCarlo模拟实验的方式,从被试能力参数估计精度、题库使用的曝光率及测验的效率等3大指标来验证新开发的4种BCAT测验设计,再与传统的BCAT测验设计进行比较,以验证该文提出的4种新的BCAT测验设计的科学性、效果及优势.最后,对BCAT测验设计在实际应用中的选用提出了具体的意见与建议,以供实际应用者参考及借鉴.

关键词：双因子模型;计算机化自适应测验;双因子模型计算机化自适应测验;多级评分

0 引言

因素分析方法(Factor Analysis,FA)是国内外心理学研究中经常使用的一种统计分析方法,它主要用于探明或验证人类心理特质的结构与维度,对人们进一步认清心理学本质有着的重要影响.双因子模型(Bifactor Model)是一种特殊的因素分析方法,又被称为全局-局部因子模型(general-specific factor model)或是嵌套模型(nested model)[1].双因子模型起始于斯皮尔曼的智力二因素理论,双因子模型假定所有项目均测量了一般因子(general factor),也称为G因子;但同时每题最多只能测量1个特殊因子(specific domain factor),也称为S因子;且假设所有因子间(G因子与S因子间以及S因子间)正交,即相互独立.大量研究表明双因子模型符合认知能力、心理特质、精神病理等多类测验的结构特征.

计算机化自适应测验(Computerized Adaptive Testing,CAT)采用自适应的测量方式,即电脑根据被试的特点智能化采用适合测量被试的题目进行测量,从而突破了以往测量中所有被试作答完全相同测验或量表的缺陷,真正实现了因人施测、减少了测验长度并同时提高了测量的精度.正因CAT具有以上多重优点,目前CAT被很多大型的国际测评采用,如美国研究生入学考试(GRE)、经企管理研究生入学考试(GMAT)、军队职业倾向测验(ASVAB)、注册护士执照考试(NCLEX-RN)等.

1.3.4 挖防寒沟：温室前底角外侧挖防寒沟，沟深要达到1.5米（即当地最大冻土层厚度），宽度0.5～0.8米。

为了充分发挥全息项目双因子分析模型及计算机化自适应测验(CAT)的优点,有研究者提出将两者结合,提出了全息项目双因子模型的计算机化自适应测验(BCAT),并成功将BCAT的思想用于心理测评实践.如R.D. Gibbons等[2-3]将BCAT应用于抑郁症(depression)和焦虑症的测评,其中R.D. Gibbons等[2]的研究表明:在基于BCAT的抑郁症测评系统(CAT-D)评估中,CAT-D平均每个患者只需用12题就可以达纸笔测试中被试做389题的效果(两者能力估计值间相关高达0.95,即CAT-D只需12题就可以达到传统纸笔测验389题的效果),大大减轻了患者的测试负担,这充分表明BCAT在实践中具有较强的应用价值和应用前景.

虽然BCAT在实践中的应用价值不断突显出来,但目前国际上针对BCAT方法本身及相应的算法的研究仍有许多有待进一步深入的地方,尤其是BCAT测验设计的研究有待进一步深入与探讨.目前国际上仅提出了2种BCAT测验设计(详见下文):一种为单维视角的BCAT测验设计[4],另一种是基于多维视角的BCAT测验设计[5-6].然而,在单维视角的BCAT测验设计中,一般先施测G因子,待G因子测试完后再测试S因子,直至所有S因子测试完毕.即用多个单维CAT测试模式来处理1个多维的BCAT,这种测验设计模式最大的不足是没有充分利用项目的多维性特点,而且使得测验的长度更长.更为重要的是在这种测验设计中,题目仅仅使用了1个维度上的信息,例如在测量G因子时,仅仅使用了项目在G因子上的信息(即仅仅利用了在G因子上的区分度参数)而没有充分利用该项目同时也包含了S因子的信息(即没利用该项目在S因子上的区分度参数),造成了浪费.而在多维视角的BCAT设计中,往往需要计算信息量矩阵的逆矩阵,在一些情况下可能会出现逆矩阵不存在的情况,因此这种方法依然存在一定的局限.为了充分利用全息双因子模型的多维性以及各因子间的正交性(即相互独立性),本文拟针对当前BCAT测验设计的不足,分别在单维视角BCAT和多维视角BCAT上,提出4种新的BCAT测验设计,一方面进一步优化当前BCAT测验设计,另一方面提升BCAT对被试能力参数的估计精度,并为实际应用者提供新的方法支持.

1 传统的BCAT测验设计

目前国际上关于BCAT的测验设计主要有2种:一是单维视角的BCAT(Unidimensional BCAT,UBCAT),另一种是多维视角的BCAT(Multidimensional BCAT,MBCAT).

旅游业往往以盈利为主要目的，对资源及环境以不计后果的开发方式来谋取最大利润，而在可持续发展观念中，资源、环境、经济和环境保护协调发展与人类学的理念是一致的。人类学向来坚持“以人为本”“整体性”的理念，在旅游开发及活动中更应注重环境、生态的承载力，注重作为旅游目的地的社区人民的感受和生活质量。因此，从人类学角度出发，景区发展应有整体性的发展规划，构建一个良性的循环系统。

1.1传统的基于单维视角的BCAT设计(UBCAT)

双因子模型最大的特点是所有因子间(一般因子G因子和特殊因子S因子)相互独立,即G因子与S因子间、S因子间均是相互独立的,因而有学者提出基于单维视角的BCAT(UBCAT)[4].即将每1个维度当成是1个独立的维度,分别进行单维的选题和估计,并按照单维的终止策略终止测验.

都说是为了国家级生态乡镇，无话可说。我知道江苏生态村镇创建工作起步较早，2003年常熟市海虞镇获得全国第一批环境优美乡镇称号（后更名为国家级生态乡镇）；2008年该省多个行政村成功创建“第一批国家级生态村”。2015年10月中旬，《江苏省委省政府关于加快推进生态文明建设的实施意见》下发，该《意见》听说在全国各省份中属于率先发布，突出了率先指向、问题导向和改革取向。2016年，该省获得国家生态乡镇命名的地区基本实现生活污水处理设施、生活垃圾转运体系全覆盖。目前为止，该省累计建成国家级生态乡镇635个，省级生态乡镇449个，国家级生态乡镇、村数量在全国均位于前列。

在UBCAT中,一般因子与特殊因子的施测过程是分开序列进行的,首先施测一般因子(G因子),当一般因子测试精度达到要求后,接着逐个施测特殊因子(S因子).由于在施测一般因子的项目同时测量了1个特殊因子,因此UBCAT会根据在某个特殊因子上项目的作答估计被试在特征因子上的能力值,并将该特殊因子的能力值作为UBCA的能力初始值进行该特殊因子单维的CAT选题.

UBCAT在选题时,每次只考虑1个因子维度,被试每完成1个题目,当即估计被试在当前施测维度上的潜在特质水平(θ),而且这时使用到的区分度参数仅仅是该项目在该维度上的区分度参数,而不使用该项目在其他维度的区分度参数,即单维的算法.在整个BCAT过程,由于每次只进行1个维度的自适应,因此BCAT自始至终都是使用传统的单维CAT的单维能力估计、单维选题策略及单维终止策略.

学校坚持以诗文诵读为先导，以经典文学作品为载体，让经典诗文诵读活动唱响校园文化，用经典文化涵养美德，濡养心灵，提升精神，完善人格。此项活动由学校德育室主导，教务处组织协调，各教研组负责具体实施，经典诵读比赛活动分初赛、复赛、决赛三个赛程。经典诵读活动把握时代脉搏、结合时代主题，在学生中弘扬社会主义核心价值观，从小培养学生的民族自豪感、自信心及爱国主义精神，蕴含在经典文化中的人文精神培养了学生的历史使命感、社会责任感和人道主义精神。

1.2传统的基于多维视角的BCAT设计(MBCAT)

传统的基于多维视角的BCAT设计(MBCAT)[5-6]充分考虑了双因子模型的多维特征.与UBCAT的单维思路不同,MBCAT使用了多维CAT的思路来完成MBCAT,即采用多维能力估计、多维选题策略和多维终止策略.

在MBCAT中,一般因子(G因子)与特殊因子(S因子)的施测过程是同时进行的,选题时同时考虑一般因子和多个特殊因子,被试每完成1个题目,当即估计被试在一般因素与所有特殊因素上的潜在特质水平(θ).MBCAT测验设计本质上是沿用多维CAT(MCAT)的方法.

2 BCAT的优化设计

在BCAT的测验设计中,涉及一般因子与特殊因子能力估计的先后顺序、选题策略、能力估计方法与终止策略等算法.本研究中的BCAT优化设计包括以上算法的设计与优化,具体如下.

2.1基于单维视角的BCAT优化设计(UBCAT_optimality)

2.1.1 基于单维视角的优化设计1 UBCAT_optimality1方法是在传统UBCAT方法的基础上,被试测试完后,最后一次采用多维IRT的方法同时估计被试的G因子和S因子上的能力特质水平.它一方面综合了所有题目的信息,另一方面充分利用了每题测量2个维度(G因子和S因子)的信息,而传统单维能力估计仅仅利用了每题测量1个维度的信息,因而UBCAT_optimality1有望进一步提高UBCAT的G因子能力和S因子能力的参数估计精度.

2.1.2 基于单维视角的优化设计2 UBCAT_optimality2设计建立在UBCAT_optimality1基础上,UBCAT_optimality2不是在整个UBCAT结束时而是在UBCAT的整个过程中自始至终都采用多维能力的估计方法.

2.2基于多维视角的BCAT优化设计(MBCAT_optimality)

在多维的CAT中,要求所有的维度都要达到设定的标准,才会停止选题.因为选题的过程中会综合考虑待选题目在所有维度上的信息,在这个过程中,有可能出现某些维度已经满足了精度标准,但还会继续选用该维度的题目,从而导致施测总题数变长.为了防止这种情况,需要对已经满足精度标准的维度进行控制,一旦维度满足标准,就让这个维度的剩余题目退出选题.在接下来的施测过程中,只关注那些剩余的还未满足的维度.由此基于传统MBCAT方法以及单维信息量终止的MBCAT方法,提出以下第2种新的MBCAT优化设计.

传统MBCAT的测验设计实质上是沿用了多维CAT的思路.一般情况下,在施测多维CAT的过程中,希望每1个维度的精度均能达到理想的标准,但是在多维CAT中常用的一些多维终止策略(如T规则[7]),即采用方差协方差矩阵的迹小于事先界定的标准来终止测验.这种方法是保证整体达到标准,但是并不能保证在测验终止时每个维度的估计精度均能达到指标.为了避免出现这样的问题,Wang Chang等[7]提出采用信息矩阵逆矩阵对脚线元素最大值小于标准的方式终止测验:

限于篇幅,关于传统的基于单维视角的BCAT设计(UBCAT)的详细介绍,感兴趣的读者可参考文献[4].

即让每个维度的估计方差都小于预先设定的标准d,这样可以保证每个维度的精度都能达到标准.因此,在本研究中MBCAT的终止策略采用上述方法作为MBCAT的终止策略.

2)BCAT测试效率指标.根据以往研究,本文主要采用被试使用的平均题长(Max_ Length)作为测验效率(Test Efficiency,TE)指标,即在相同精度下,平均使用的题目量.

在Wang Chun等[7]研究中同时还指出,在MIRT模型下,某一维度θk的信度可以采用下式定义:

一松了口气，她浑身疲软像生了场大病一样，支撑着拿起大衣手提袋站起来，点点头笑道：“明天。”又低声喃喃说道：“他忘了有点事，赶时间，先走了。”

其中表示信息矩阵的逆矩阵中对角线元素的第k个元素,表示维度k的方差,因为在研究中假设各维度服从均值为0,方差为1的多元正态分布,所以

根据公式rxx=1-(SEx/σx)2,其中σx=1,可以推出,当为单维、估计标准误时,所以,在多维终止策略中,d的设置标准为1/x.

采用上述方式作为终止策略,因为需要计算信息量矩阵的逆矩阵,在一些情况下可能会出现逆矩阵不存在的情况,因此上述方法依然存在一定的局限性.同时,采用方差协方差矩阵的对脚线元素小于标准终止测验的方法并不能保证其结果能够与UBCAT下的方法进行比较.因此,根据双因子的单维特性,可以考虑在施测过程中,采用单维的终止策略来结束测验,与UBCAT方法下的终止策略保持一致.基于传统MBCAT方法,提出以下2种优化的设计.

2.2.1 基于多维视角的优化设计1 MBCAT_optimality1与传统MBCAT过程相似,不同点在于每选出1个题目估计出被试的当前能力之后,还需要计算每个能力维度的单维信息量,采用单维的信息量作为终止策略,若所有维度的单维测验信息量都达到要求,就终止测验.

双因子模型因不同维度间相互独立,因此双因子模型中的每个维度均具有单维性特点,但同时双因子模型中的每个项目一般同时测量了2个因子(1个G因子和1个S因子),因此它又具有项目内多维的特征,故也可以考虑从多维的角度进一步优化MBCAT.

2.2.2 基于多维视角的优化设计2 MBCAT_optimality2施测的过程与单维信息量终止的MBCAT相似.采用多维选题、多维估计,每选出1个题目,估计完被试在各维度上的特质水平,就计算各个维度上的单维测验信息量.与方法7相似,不需要等所有维度都达到精度标准才能终止测验.如果有维度的测验信息量已经满足标准,在接下来的选题过程中,就不再选择这个维度的题目.

3 实验研究

采用Monte Carlo模拟的方法进行实验研究,验证本研究中新开发的5种BCAT优化设计方法的科学性与合理性,并与2种传统的BCAT方法进行比较.

3.1 研究设计

当下，我国的养护成本管理和精细化、科学化管理还存在一定的差距，因此我国的高速公路养护成本是比较高的。按照工程量的大小，我们一般将养护费用划分为小修保养、大中修工程、预防性养护和应急工程几个部分，除了预防性养护之外，其它的项目又被称为矫正性养护。[1]据相关的研究数据显示，当高速公路的路面累计的车辆达到一定的数值的时候，公路的各项性能和指标都会呈现线性递减的趋势。由此我们可以得出，在达到临界值之前的养护成本比矫正性的养护费用少得多。

无关变量的控制:(i)在UBCAT框架下,一般因子初始题的选取采用随机选题,单维的选题策略采用最大Fisher信息量选题,单维的估计方法采用的是单维EAP估计(每个维度选取[-3,3]上的31个积点),终止策略采用的是计算单维的测验信息量来终止测验.关于测验信息量终止的标准选取,主要是参考了R.D. Gibbons等[2-3]的标准.当维度的精度SE≤0.3时,就终止测验,相当于在其研究中,终止时的信息量约为11.11.在本研究中采用与之相近的信息量标准,即保证每个维度的测验信息量大于12(I≥12),就是每个维度的测验标准误在MBCAT框架下,多维的选题策略采用D.O. Segall等[5-6]提出的D优化方法,能力估计方法为多维EAP.因为各维度的估计标准误SE设置为根据前文中的推导,多维的终止策略按照信息矩阵的逆矩阵对角线元素单维的终止策略为单维测验信息量≥12.(iii)同时,为了防止因题库和被试差异导致的误差,本研究中所有BCAT设计下的题库参数及被试参数相同.

系统上电后单片机对各个模块进行初始化，震动传感器、蜂鸣器、发光二极管、红外遥控处于关闭状态，SIM908模块进行初始化，开启GPS和GSM功能。通过红外遥控器发送布控指令，HX1838红外接收头接收到指令后，SW-420震动传感器将车辆当前情况实时反馈给单片机处理。单片机通过对电平的判断，确定车辆目前的情况，从而决定是否开启声光报警，当发生误触时，控制者也可通过红外遥控器手动关闭报警。当车辆被盗后可以通过短信发送指令，控制SIM908模块发送车辆的实时地理位置信息。系统主程序流程图如图7所示。

表1BCAT及其几种优化的测验设计

类型BCAT设计维度测试设计选题策略终止策略能力估计方法UBCAT传统UBCAT序列测试G→S1→S2…单维信息量选题策略每个维度均达到了事先界定的信息量单维能力估计UBCAT-optimality1序列测试G→S1→S2…单维信息量选题策略每个维度均达到了事先界定的信息量单维能力估计+多维能力估计:测试过程中使用单维能力估计,但测试结束后,使用所有题目及多维能力估计方法估计所有能力维度UBCAT-optimality2序列测试G→S1→S2…单维信息量选题策略每个维度均达到了事先界定的信息量多维能力估计方法MBCAT传统MBCATG与S同时兼顾D优化法多维终止策略,多维信息矩阵逆矩阵对角线元素最小值达到事先界定的要求多维能力估计方法MBCAT-optimality1G与S同时兼顾D优化法单维终止策略:每个维度均达到了事先界定的信息量多维能力估计方法MBCAT-optimality1G与S同时兼顾D优化法,但当某个维度达到事先界定要求,则随后不选择测量了该维度的题单维终止策略:每个维度均达到了事先界定的信息量量多维能力估计方法

3.2 评价指标

1)能力估计精度指标.均方根误差(RMSE):能力估计值和真值之间均方根误差,其值差异越小,估计精度越高.

研究采用单因素(即BCAT设计)的实验设计,探讨并比较6种BCAT设计(详见表1)的效果,主要比较6种BCAT设计的能力估计精度指标、BCAT测试效率指标、题库曝光率指标.

新闻报纸并没有想象中那么公正客观，它是意识形态的传播工具，更多的是代表其所属国家的利益。本研究从语言学的角度分析了中美两国对“一带一路”战略的观点和态度，从中也可以看出，国家间的关系并非一成不变，而是由它们之间的共同利益决定的。因此，人们也可以从不同的新闻报道中看出国家之间关系的转变。本研究也提醒广大读者们用批判的思维去阅读新闻报道，把握其中的真相。同时也希望国内的媒体朋友们通过更好地使用语言工具打造积极的中国形象，从而助力“一带一路”的伟大实现。

1.3 统计学处理采用SPSS19.0统计软件进行资料分析。计数资料部分如两组MDRO感染终末消毒流程缺陷率比较使用χ2检验。部分计量资料如年龄的比较，使用两独立样本t检验。P＜0.05为差异有统计学意义。

3)题库曝光率指标.采用卡方指标(χ2)和测验重叠率(TOR)来反应题库曝光率,前者越大或后者越小说明题库的曝光率越高.

3.3 蒙特卡洛模拟

好的问题应当具有开放性，留给学生思考的空间，学生才能有所思考．问题过于直白，会代替了学生的思考，将最有价值的部分忽略掉．本节课中，反复的一个问题是：“你对该图形有哪些认识？”这个问题看似比较模糊，实际经过反复的打磨，就是希望把“想”和“说”的权利还给学生，让学生有时间去思考如何认识图形，应当从图形的形状、大小和位置关系去观察．教学中的提问不一定要多，但给学生 “想” 和“说”的时间一定要多，这样建立师生良好的沟通平台，这就是好问题的作用．

3.4 选题策略

在UBCAT中,选题策略采用最大Fisher信息量法,在多维等级反应模型下的计算公式为

在本研究中模拟的题库大小为300题,题库的结构为双因子模型,其中特殊因子5个,一般因子1个,共6个能力维度.所有项目测量了一般因子(G),但每题只测量了5个特殊因子中的1个.共模拟产生300题,每个特殊因子均被60题测量,项目计分方式为0-3的4级评分.采用F. Samejima[8]的多维等级反应模型(MGRM),其项目反应函数为且bi1<bi2<bi3,题目区分度对数标准正态分布生成,即ai～logN(0,1).被试能力真值从独立的多元标准正态分布中生成.

在MBCAT中,借鉴D.G. Seo等[6]的做法,选题策略采用常用的D-优化方法,即选择那些使测验的Fisher信息量矩阵行列式达到最大的题目,计算公式为

其中为根据已经施测过的n-1题估计出的特质水平向量；为已经施测的n-1个题目在处的信息量；为剩余题库中题目在处的信息量.

4 研究结果

4.1 不同BCAT设计下被试能力估计精度比较

表2是不同BCAT设计下能力参数估计精度指标(RMSE).由表2可以看出,本文提出的4种BCAT设计,不论是一般能力因子G还是特殊能力因子S,能力参数估计精度均高于传统的UBCAT和传统的MBCAT设计.本文提出的4种优化设计中,能力参数估计精度最高的是单维信息量终止的MBCAT(MBCAT_optimality1),其次是带维度约束单维信息量终止的MBCAT(MBCAT_optimality2),再次是重新多维估计的UBCAT(UBCAT_optimality1)以及单维选题多维估计的UBCAT(UBCAT_optimality2).

这说明基于多维的BCAT(MBCAT)设计比基于单维的BCAT(UBCAT)设计在参数估计精度上更具优势.在UBCAT的3种设计中,相比于只进行单维估计(传统UBCAT设计),采用多维估计(UBCAT_optimality1和UBCAT_optimality2)不仅能够提高一般因子上的参数估计精度,同时还能够提高特殊因子上的能力估计精度.同时,在传统UBCAT设计与UBCAT_optimality1设计中,2者使用的题目是完全一样的,唯一不同的是UBCAT_optimality1设计只是在传统UBCAT设计的基础上,用已经选出的题目重新再估计一次,因此不存在题目长度不同而导致的精度不同的情况.UBCAT_optimality1和UBCAT_optimality2都是属于单维选题、多维估计的类型,但是不同之处在于UBCAT_optimality2是在自适应过程一开始就采用了多维估计,而UBCAT_optimality1则是在自适应过程中采用单维估计,等所有的题目满足了标准之后才采用多维估计,2种方法的能力估计精度都比较接近,这说明无论是在自适应过程中还是在自适应结束之后采用多维估计方法都能够提高能力估计精度.

表2不同BCAT设计下下RMSE指标比较

类型条件方法GS1S2S3S4S5S平均G和S平均传统UBCAT0.5010.6220.5510.5680.5310.5560.5660.555BCATUBCAT_optimality10.3920.4490.3960.4060.3990.4110.4110.409UBCAT_optimality20.4030.4530.4010.4170.4020.4150.4170.415传统MBCAT0.3890.4610.4490.4490.4520.4480.4520.441MCATMBCAT_optimality10.3570.4180.3760.3800.3770.3850.3860.382MBCAT_optimality20.3750.4370.3940.4020.3980.4000.4050.401

4.2 不同BCAT设计下题库曝光率比较

题库的曝光率结果见表3.从表3可看出,在UBCAT下,由于传统UBCAT设计与UBCAT_optimality1使用的测验项目是完全一样的,因此,这2种方法在题库使用情况上是完全相同的.就其他BCAT设计而言,传统MBCAT设计的题库使用中具有最小的验重叠率(TOR)和χ2等曝光指标,相比较而对题库的使用最为均匀,其余BCAT设计的题库使用情况指标基本接近,但总体来讲基于MBCAT的设计在题库的使用上略优于基于UBCAT的设计.

表3不同BCAT设计下题库使用指标比较

类型条件方法χ2 TORER_minER_max传统UBCAT107.1850.4460.0050.914MCATUBCAT_optimality1107.1850.4460.0050.914UBCAT_optimality2112.8260.4660.0030.932传统MBCAT80.5120.4110.0160.920MCATMBCAT_optimality196.1870.4570.0070.959MBCAT_optimality2108.6440.4550.0020.950

4.3 不同BCAT设计下测验效率的比较

评价CAT效率的1个重要的指标就是被试平均使用的测验长度,即TE指标,结果如表4.从表4可知,对于UBCAT 3种设计,无论是否采用多维估计各维度特质水平,测验效率基本相当且都比较高(TE指标低),即平均题目数量最少；而对于MBCAT的3种设计,带有维度约束单维信息量终止的MBCAT(MBCAT_optimality2)平均题目长度也比较短,和UBCAT的平均题非常接近.主要原因在于MBCAT_optimality2限定,凡是某个维度达到事先界定的信息量则随后的不再选择含有该维度的项目,这一点与UBCAT的设计是相同的,因此与UBCAT设计在题目使用数量上比较接近.而传统的BMCAT设计与MBCAT_optimality1没有“凡是某个维度达到事先界定的信息量则随后的不再选择含有该维度的项目”这一限定,即已满足精度条件的维度的题目不进行控制,那么就有可能会使得一部分已经满足条件的维度的题目被继续选择进行测试,从而使得测验的长度变长,测验效率降低,因此就出现表4中传统的BMCAT设计与MBCAT_optimality1的测验效率较低.同时总体来看,传统的MBCAT设计是所有6种BCAT设计中平均使用题目量最大,因此测验效率相对最低.

表4不同BCAT设计下测验效率指标比较

类型条件方法平均题长(N)NminNmax传统UBCAT26.81019136UBCATUBCAT_optimality126.81019136UBCAT_optimality226.8912086传统MBCAT42.7825300MBCATMBCAT_optimality140.93720300MBCAT_optimality228.0491892

5 结论与讨论

本研究在传统BCAT 2种测验设计的基础上,提出了4种新的BCAT设计,并采用国际上通用的Monte Carlo模拟实验的方式,从能力参数估计精度、题库使用的曝光率及测验的效率等3大指标来验证新提出的4种BCAT设计,并同时与传统的BCAT 2种设计进行比较.模拟研究与实证应用研究结果表明:本研究新提出的4种BCAT设计在能力参数估计精度普遍优于2种传统的BCAT设计,体现新方法的优越性.在题库使用率或曝光率方面,基于MBCAT的设计在题库的使用上略优于基于UBCAT的设计,整体来看,传统的MBCAT及本文提出的MBCAT_optimality1在曝光控制上最优；在测验效率方面,基于UBCAT 3种设计的平均使用题长基本相当,而基于MBCAT的设计中本文提出的2种新MBCAT设计优于传统的MBCAT,整体比较而言,基于UBCAT的测验效率优于基于MBCAT的测验效率.

工匠精神一词的出现并非偶然，它体现了我们国家经济社会建设步入新阶段的新诉求，是党和国家在准确把握社会发展的基础上提出的新方向。从历史和现实的角度看，不难发现，提倡工匠精神是时代发展的必然诉求。

1)在UBCAT设计下,不同BCAT测验设计的选用.在UBCAT设计中:本文提出的UBCAT_optimality1方法拥有最高的能力估计精度、最优的曝光控制和最优的测验效率,因此整体上是UBCAT设计中最优的设计,也是首推实际使用者使用的设计.而考虑到传统的BCAT设计是所有设计中能力参数估计精度最差,虽然这2种方法下过度曝光题目数量不多,测验效率上也有一定的可取之处.但在BCAT的实际应用中,需要的是既能够高效地评估,更要能够准确评估的方法,因此,不推荐实际运用者选用传统的BCAT设计.当然,这也从另一个侧面说明本研究的必要性与重要性.

2)在MBCAT设计下,不同BCAT测验设计的选用.在MBCAT设计中:本文提出的MBCAT_optimality1方法拥有最高的能力估计精度、次高的曝光控制和次高的测验效率,整体上是MBCAT设计中最优的设计,也是首推实际使用者使用的BCAT设计.而传统的MBCAT与本文提出的MBCAT_optimality2各有优劣,前者最大的优点是曝光控制比较理想,但缺点是能力参数估计的精度稍差;MBCAT_optimality2具有最优的测验效率,但缺点是曝光控制稍差.

限于时间及研究精力,本研究还有很多值得进一步研究及探讨的地方.如本文未探讨D.G. Seo等[6]在其研究中指出的不同因子结构下,本文新开发的4种测验设计的效果；同时在MBCAT测验设计中,选题策略采用的是D-优化法,未来还可以进一步探讨其他选题策略的效果,如基于贝叶斯的D-优化方法[9]、互信息法[10]等方法；同时本研究BCAT的终止策略为不定长CAT,定长的BCAT以后还有待深入.

6 参考文献

[1] Chen Fangfang,West S G,Sousa K H.A comparison of bifactor and second-order models of quality of life [J].Multivariate Behavioral Research,2006,41(2):189-225.

[2] Gibbons R D,Weiss D J,Pilkonis P A,et al.Development of a computerized adaptive test for depression [J].American Journal of Psychiatry,2013,69(11):1104-1112.

[3] Gibbons R D,Weiss D J,Pilkonis P A,et al.Development of the cat-anx:a computerized adaptive test for anxiety [J].American Journal of Psychiatry,2014,171(2):187-194.

[4] Weiss D J,Gibbons R D.Computerized adaptive testing with the bifactormodel [EB/OL].[2018-06-12].http://publicdocs.iacat.org/cat2010/cat07weiss&gibbons.pdf

[5] Segall D O.Multidimensional adaptive testing [J].Psychometrika,1996,61(2):331-354.

[6] Seo D G,Weiss D J.Best design for multidimensional computerized adaptive testing with the bifactor model [J].Educational & Psychological Measurement,2015,75(6):954-978.

[7] Wang Chun,Chang Huahua,Boughton K A.Deriving stopping rules for multidimensional computerized adaptive testing [J].Applied Psychological Measurement,2013,37(37):99-122.

[8] Samejima F.Graded response model [M]∥van der Linden W J,Hambleton R K.Handbook of modern item response theory.New York:Springer-New York Press,1997:85-100.

[9] Mulder J,van der Linden W J.Multidimensional adaptive testing with optimal design criteria for item selection [J].Psychometrika,2009,74:273-296.

[10] Mulder J,van der Linden W J.Multidimensional adaptive testing with Kullback-Leibler information item selection [EB/OL].[2018-09-16].doi:10.1007/978-0-387-85461-8.

TheOptimizationofTestingDesignforCATwithBifactorModelandItsApplication

LIU Xinting,PENG Siwei,TU Dongbo*

(College of Psychology,Jiangxi Normal University,Nanchang Jiangxi 330022,China)

Abstract:Four new type of testing designs of computerized adaptive testing with bifactor model (BCAT) has been proposed on the basis of two traditional testing designs for BCAT.Two proposed optimality testing designs belong to the unidimensional BCAT,which are called as UBCAT_optimality1 and UBCAT_optimality2,respectively.Another two proposed optimality testing designs belongs to the multidimensional BCAT,which are called as MBCAT_optimality1 and MBCAT_optimality2,respectively.Results showed that:(i)The proposed four optimality designs for BCAT overall had higher parameter estimation precision of both general factor and special domain factor,than two exiting designs for BCAT.(ii)As for item bank exposure rate,the MBCAT designs were better than the UBCAT designs.The proposed MBCAT_optimality1 and the exiting MBCAT performed best in item exposure control.(iii)On test efficiency,the UBCAT designs used fewer items than those of the MBCAT designs.

Keywords:bifactor model;computerized adaptive testing;BCAT;polytomously score

中图分类号:B841

文献标志码:A

DOI:10.16357/j.cnki.issn1000-5862.2019.02.03

文章编号：1000-5862(2019)02-0128-07

收稿日期：2018-10-21

基金项目：国家自然科学基金(31660278,31760288)资助项目.

通信作者：涂冬波(1978-),男,江西南昌人,教授,博士,博士生导师,主要从事心理统计与测量的研究.E-mail:tudongbo@aliyun.com

(责任编辑:冉小晓)

标签：多维论文; 因子论文; 维度论文; 测验论文; 信息量论文; 哲学论文; 宗教论文; 心理学论文; 心理学研究方法论文; 《江西师范大学学报(自然科学版)》2019年第2期论文; 国家自然科学基金(31660278; 31760288)资助项目论文; 江西师范大学心理学院论文;