黄玉:多级评分多策略认知诊断方法论文

摘要：多级评分比2级评分能提供更全面更丰富的诊断信息,更好地反映被试对知识的掌握状况.考虑到存在不同认知诊断策略对应不同属性层级关系的情形,甚至在某种评分规则下,存在同一个项目使用不同策略,对应的满分值也不同的复杂情况,该文利用项目反应理论等值的做法,处理这种复杂情况.Monte Carlo模拟实验表明:对含有多策略的多级评分反应数据,这种处理方法有助于提高认知诊断模型分类的准确性.

关键词：认知诊断;多级评分;多策略认知诊断;Q矩阵

0 引言

认知诊断(CD)将当代心理测量学与认知心理学的理论方法相融合,它不仅仅是停留在对个体(被试)的能力评价上,更主要是根据被试对项目的作答反应,诊断被试的知识状态(Knowledge State,KS),为对被试进行个性化补救提供依据.

2017年5月4日下午5点，周晓枫从四川奉节打来电话，告诉我胡冬林当日早晨去世，可能是心脑血管病突发致猝然死亡，吉林省作协已成立治丧委员会处理后事。晓枫是通过我认识胡冬林并知道我俩亲密关系故立即通知我。我迅即打电话给吉林几位作家朋友，得到了证实。这一噩耗给我的打击，犹如我失去了家中一位亲人。我和老伴闻讯悲痛之极，潸然泪下。从此我俩再也见不到他了，再也听不到他从长白山打来的电话了，再也看不到他打算编写的长白山森林年历了，再也不可能听到他在我家里讲他山居的轶闻趣事了……

在大多数认知诊断模型中,假定每个被试在解答同一个任务时的答题策略以及基本心理过程等均相同[1],这可能与实际情形不相符,被试的年龄和工作记忆会对其采取的策略产生影响[2].例如,小学算术运算题,国外小学生大多使用数手指、出声计算、直接提取和分解等策略[3];我国小学生从2年级开始就会熟记九九乘法口诀表,对于简单的乘法运算无需计算就可以快速作答[4].又如,对于问题“1+2+3+…+100=?”,低年级学生一般采用逐个直接相加的方法,高年级学生可能会使用“(1+100)+(2+99)+…+(50+51)=5050”方法.显然,在答题时不同的被试可能采用不同的解题策略[5],这种情况下如果仅仅使用第1种策略进行诊断,必然无法为使用第2种策略的被试进行有效诊断.在认知测试中,考虑答题策略的多样化能够更准确地判断被试的知识状态[6].

随着考试形式的多样化,多级评分的试题在考试中占有举足轻重的比例,如计算题和论述题等,往往这类测试题更能反映出考生对知识的掌握状况.查阅国内外的研究文献,发现多数的认知诊断模型采用单策略0-1评分模式,而对于多策略的多级评分研究较少,因而有必要进行此类评分模式的认知诊断方法的研究.

右丞相樗里疾表示反对，因为秦国到韩国的路途遥远，不仅劳民伤财，还有腹背受敌的风险。左丞相甘茂却提出，宜阳对秦国非常关键，伐韩势在必行。而他们现在首先要做的是破坏韩魏联盟，一旦魏国助秦，韩国被孤立，就算宜阳城池坚固、兵精粮足，也可能被秦军攻破。

1 多级评分多策略认知诊断方法的提出

1.1 多策略认知诊断研究进展

在2级评分方式下,de la Torre等[5]将单策略DINA扩展到多策略DINA(MS-DINA)模型.涂冬波等[6]在此基础上结合广义距离判别法[7]以及修正的Q矩阵理论[8],提出了MSCD方法.刘铁川[9]将混合IRT模型与DINA模型结合,提出了混合DINA (Mix-DINA)模型.戴步云等[10]针对CD-CAT进行多策略研究,将RRUM(缩减的再参数化统一模型)[11]拓展为MS-RRUM(多策略RRUM模型).祝玉芳等[12]在文献[6]的基础上开发了一种多策略的多级评分认知诊断方法.

祝玉芳等[12]在利用多级评分的广义距离法[13]对某学校750名学生在“进位计数制”进行认知诊断过程中,通过对学生的访谈发现一些被试在某些题目上使用了不同的解题策略,并在文献[6]的基础上提出了解决“进位计数制”测验中多策略问题的多策略多级评分认知诊断方法.该诊断过程分成2个步骤:(i)测验蓝图的制定,不同策略对应不同测验蓝图;(ii)对于不同测验蓝图,分别做策略诊断和认知诊断.由于策略的使用不受评分方式的影响,而多级评分可以提供更加丰富的诊断信息.因此,先将得分看成0-1评分进行策略诊断,再进行多级评分认知诊断.由于使用不同策略解答同一个题目,可能满分值不同,对在不同测验蓝图中相同题目对应不同得分,需采取某种方式进行转换.

本文针对多级评分多策略认知诊断展开研究,采用基于IRT的认知诊断模型,通过测验观察得分直观、有效、稳定地反映被试的潜在特质以及项目的参数指标.考虑到祝玉芳等[12]采用先诊断被试答题使用的策略,再诊断其知识状态的2步诊断法;由于在诊断策略前的分值转换的处理方式可能造成信息的缺损,因此,本文提出了基于IRT的多级评分多策略的模式分类(认知诊断)方法,即若对同一个题目使用不同的策略,则规定的满分值会不同,采用IRT等值的做法,将不同Q矩阵和不同知识状态对应的所有期望反应模式与所有观察反应模式放在一起做IRT参数估计,这时项目的参数就在相同量尺上,可以相互比较.

1.2 多级评分多策略认知诊断方法

本文在祝玉芳等[12]的基础上进一步对多级评分多策略认知诊断方法进行探讨.使用多个不同的Q矩阵,每个Q矩阵表示一种属性层级结构不同的策略,运用GDD-P(多级评分的广义距离法)[13]以及多级评分认知诊断测验蓝图的设计[14-15].

卵巢囊肿，卵巢囊肿通常是因为先天性内生殖器异常导致的，因此，卵巢囊肿病症比其他要少，通常表现为卵巢一定程度的发散扭转，通常以右侧多见，原因是右侧盲肠蠕动多，并且盆腔的活动范围大[5]。

众所周知,评分方式(即评分规则)会对被试的测验得分产生影响.本文的评分规则为:若被试每掌握项目所需的一个属性,则得分加1[13,16].

表示被试的测验得分向量与期望反应模式之间的GDD-P,公式如下:

其中J为项目总数,Yi=(Yi1,Yi2,…,YiJ)为被试i的测验得分向量,为策略m下第t种期望反应,为在项目j上被试i的测验得分与策略m下第t种期望反应之间的GDD-P值,θi为根据观察作答反应估计出的被试i的能力值.比较所有的值,并将使值最小的对应的理想掌握模式作为被试的知识状态,对应的解题策略即为该被试的解题策略.

1.3 多级评分多策略认知诊断过程

本文方法模拟过程已详细介绍,以下为祝玉芳等[12]的方法模拟过程,其中步骤(i)～(iii)模拟方法与第2节一致.

2 多级评分多策略认知诊断方法与多级评分单策略认知诊断方法的比较

2.1 实验设计

情景1多级评分单策略,所有被试均采用策略A答题.

表2为单策略和多策略认知诊断方法在2种测验情景下关于3个评价指标的比较.

2.2 策略数据(Q矩阵)的模拟

多数研究实际上隐含了一个假设,即不同策略的属性对应相同的层级关系,只要考察它们使用的Q矩阵就可以证实,因为Q矩阵是属性层级结构的数学表示.也可能存在不同策略对应的属性层级不同的情况.由此,假设测验中存在2种答题策略,各自对应的5个属性的层级结构如图1所示(策略A的A1～A5与策略B的A1～A5相同).

②车广吉等.论构建学校、家庭、社会教育一体化的德育体系[J].东北师范大学学报( 哲学社会科学版),2007 (4):155-156.

图1 2种策略对应属性间的层级结构图

由此可导出每种策略的可达矩阵R、潜在Q矩阵(Qr阵)、学生Q矩阵(Qs阵)(详细计算方法见文献[8]).对每种策略的Qr阵重复若干次得到相应的测验Q矩阵,测验Q阵涵盖了各自的R阵,因此理想掌握模式与期望反应模式一一对应[17-18].测验Q阵设计如表1所示.

表1 模拟的Q矩阵

项目策略AA1A2A3A4A5fjABA1A2A3A4A5fjB1 1000011000012 1100021100023 1110031010024 1111041101035 1111151100136 1000011110037 1100021111048 1110031110149 11110411011410 11111511111511 10000110000112 11000211000213 11100310100214 11110411010315 11111511001316 10000111100317 11000211110418 11100311101419 11110411011420 11111511111521 10000110000122 11000211000223 11100310100224 11110411010325 11111511001326 10000111100327 11000211110428 11100311101429 11110411011430 111115111115

注:fjA和fjB分别为策略A和策略B的项目满分值.

2.3 Monte Carlo模拟过程

根据上节的方法固定属性、策略以及测验Q阵.以下是多级评分多策略的模式分类方法具体过程.

针对诊断结果计算模式判准率(Pattern Match Ration,PMR)、属性边际判准率(Average Attribute Match Ratio,AAMR)、策略判准率(Strategy Match Ration,SMR),计算公式分别为

(i)被试知识状态真值模拟.由每个策略对应的属性层级可知,策略A的理想掌握模式有6种,策略B有11种.这17种属性模式各分派100名被试,即共1 700名被试,其中600人使用策略A,1 100人使用策略B.对于知识状态为全0的被试,无法诊断其采用的答题策略,因此在实际的诊断测验中,不对这种类型的被试进行诊断分析.

(v)诊断被试的知识状态和答题策略.计算被试的测验得分向量与每种策略下每种期望反应之间的GDD-P值.使得GDD-P值最小的期望反应对应的理想掌握模式和策略即为被试的知识状态和使用的答题策略.

(iii)模拟被试的测验得分.将每种期望反应在给定slip(即失误概率)分别为2%、5%、10%和15%下波动100次得到(具体做法见文献[19]).

(iv)估计项目参数与被试能力值.本文使用F. Samejima等级反应模型(GRM)[20]拟合数据,其原因在于GRM是适用于多级评分并且不包含猜测参数的简单模型.利用多序列相关系数法[21]估计项目参数和被试能力.将所有被试的测验得分矩阵ORP与所有的期望反应模式矩阵IRP联合估计项目参数,并采用最大后验估计被试的能力.

现阶段，中职学校中学生的基础都比较差，而且他们学习的状态不太好，如果不及时调整教学的现状，会直接影响着学生学习的积极性和学生的能力。本文试图结合中职机械专业教学实际入手，探索提高中职机械专业教学质量的方法。

(ii)计算每种策略下的期望反应模式.每种策略下的被试在不发生失误和猜测答题情形下,根据测验的评分方式得到其期望反应.例如,策略A下属性掌握模式为(1 1 1 1 0)的被试,在1～6个项目上的期望反应为(1 2 3 4 4 1);策略B下属性掌握模式为(1 1 1 0 1)的被试,在1～6个项目上的期望反应则为(1 2 2 2 3 3).策略A下属性的理想掌握模式为(1 1 1 1 0),在前6个项目上的期望反应为(4 4 4 3 2 3);策略B下同样的理想掌握模式,在前6个项目上的期望反应则为(2 2 2 3 1 2).

其中N为被试总数,K为属性总数,Ni为是否判对第i个被试的整个知识状态,对为1,错为0;Nik为是否判对第i个被试的第k个属性,对为1,错为0;Ni-strategy为是否判对第i个被试的答题策略,对为1,错为0.

2.4 评价指标

Wallace（1991）[1]指出促进教师发展的有效方式之一为反思性教学。Wallace认为通过反思性实践使教师的经验性知识（experiential knowledge）不断转化为接受性知识（received knowledge），以促进教师专业发展。Wallace（1991）[1]还强调反思性教学实践的重要性，提到外语教师需不断反思自身教学实践并在教学中不断修正。

(vi)为了降低实验偏差,每种测验均重复实验30次.

2.5 实验结果

情景2多级评分多策略,一部分使用策略A答题,另一部分使用策略B答题.比较传统单策略认知诊断结果和本文提出方法的诊断结果,检验该方法的性能.

表2表明:作答数据含有多策略反应后,使用多策略的诊断结果要明显好于单策略的诊断结果,其结果的模式判准率(PMR)在4种失误率下的平均值为97.40%,当失误率为2%时,其模式判断准确率高达99.78%;属性边际判准率(AAMR)在4种失误率下的平均值为99.35%,且SMR的平均值为93.25%;其中,使用策略A的被试诊断结果的PMR、AAMR和SMR在4种失误率下的平均值分别为94.74%、98.61%和99.98%,使用策略B的被试诊断结果的PMR、AAMR和SMR在4种失误率下的平均值分别为98.73%、99.72%和89.89%.若采用传统的单策略的诊断方法进行诊断,则发现PMR和AAMR在4种失误率下的平均值分别为45.28%和82.08%.

表2 单策略和多策略认知诊断方法的判准率比较(实验30次的平均值)

情景slip单策略APMRAAMR多策略PMRAAMRSMR策略APMRAAMRSMR策略BPMRAAMRSMR单策略2%0.999 70.999 9---0.999 70.999 91.000 0---5%0.998 40.999 7---0.998 40.999 71.000 0---10%0.992 60.998 5---0.992 60.998 51.000 0---15%0.983 80.996 7---0.983 40.996 60.999 7---平均值0.993 60.998 7---0.993 50.998 70.999 9---多策略2%0.464 50.834 10.997 80.999 60.933 30.993 50.998 71.000 00.999 91.000 00.900 0 5%0.461 90.826 80.994 40.998 90.933 20.984 50.996 91.000 00.999 40.999 90.899 810%0.452 90.818 30.978 20.995 30.932 20.946 50.988 60.999 90.994 00.998 70.898 4 15%0.431 90.804 00.925 60.980 10.931 40.865 00.960 00.999 10.956 00.990 20.897 5平均值0.452 80.820 80.974 00.993 50.932 50.947 40.986 10.999 80.987 30.997 20.898 9

3 多级评分多策略认知诊断方法的性能

3.1 实验设计

在同样的多策略实验情形下,采用祝玉芳等[12]的多策略的多级评分认知诊断方法与本文提出的新方法分别进行诊断分析,并比较2种方法的诊断结果.策略数据及评价指标与第2节相同.

三是开拓创新，求真务实，积极做好老年服务工作。创新是一个民族的灵魂，是社会发展的不竭动力，开创老年工作的新局面同样需要创新。我们要结合企业的实际，认真研究本企业老年工作的规律和特点，积极探索适合企业自身特点的老年工作方法、制度等，在具体的处理方式上要求新、求变，以不断适应改革开放新形势的发展要求。一改以往企业老年工作只要每年组织开展几次活动，仅仅停留在满足于完成上级布置的任务的心理状态，要彻底纠正这种无所作为的思想，要更新观念，重新认识该项工作的重要性，要实现企业老年服务工作的理论和实践“双创新”。

3.2 Monte Carlo模拟过程

具体的诊断过程如下:(i)根据不同策略的认知模型,计算所有可能的策略下被试理想的知识状态(理想掌握模式),进而获得每一种理想的知识状态在测试项目上的理想反应(期望反应);(ii)在所有被试都完成作答得到测验得分后,将每种策略下的期望反应模式与观察反应联合,使用适合的项目反应理论模型进行参数估计;(iii)使用认知诊断模型GDD-P[13]对每位被试进行诊断分类,分别计算被试的观察作答反应(测验得分向量)与每种策略下每种期望反应模式之间的GDD-P值,根据GDD-P的最小值确定被试的知识状态和答题策略.

(iv)确定被试的策略参数.将所有被试多级评分的观察作答反应以及每个策略下的所有理想反应模式全部转换成0-1评分.将所有被试0-1评分的测验得分与期望反应模式拼接进行参数估计,利用GDD值确定被试的答题策略.

(v)估计项目参数与被试能力值.将被诊断出使用相同策略的被试的测验得分与相应策略的期望反应模式组合估计项目参数和被试的能力参数.

建立了一种快速测定CoCl2净化液和Co(NO3)2净化液中Cu、Fe、Ni、Cd、Zn、Mn、Ca、Mg、Na、Si、As、S等12种杂质元素的分析方法。样品不经预处理，无需进行基体匹配，采用内标法有效地克服了基体效应及仪器波动所产生的影响。方法也可用于金属Co、Co3O4、Co(OH)2等钴产品中上述元素的测定。同时，该方法具有所需试剂量小、操作简单、快速、成本低、绿色环保、灵敏度高等优点，并具有推广价值。

2.加强社会组织党建工作，是推进油田科学和谐发展的需要。要革除旧体制的弊端，就必须对旧有的利益关系进行再调整，这就需要党组织围绕中心、服务大局，按照党章要求履行职责，研究和解决油田改革发展过程中出现的各种难题，为中心工作和生产经营任务的完成保驾护航。要发展就必须最大限度地调动组织成员的积极性和创造力，这也要求党组织组织动员党员和员工群众共同为企业发展服务，努力把基层党组织的组织资源转化为科学发展资源、组织优势转化为科学发展优势、组织活力转化为科学发展活力。必须明确，油田改革和发展，都离不开党组织作用的发挥，加强社会组织党组织建设与促进油田的改革和发展是一致的。

⑥精英档案求解:删除档案中重复的成员,根据密集距离降序排列档案内成员,得到较优的存档。同时,根据密集距离,采用比例选择法为每个粒子选取全局最优;

(vi)诊断被试的属性掌握模式.分别计算被试的测验得分向量与判定的策略下的每种期望反应模式之间的GDD-P值,诊断被试的知识状态(属性掌握模式).

(vii)重复实验30次.

3.3 实验结果

表3为在多级评分多种策略测验中分别采用本文提出的认知诊断方法和祝玉芳等[12]的认知诊断方法进行诊断,并在3个评价指标上进行比较.

表3表明:在多策略多级评分测验情形中,本文提出的诊断方法在各个slip下对于被试的模式判准率分别为99.78%、99.44%、97.82%和92.56%,平均值为97.40%,它们均高于祝玉芳等[12]方法的模式判准率93.10%、92.63%、90.48%和84.70%及平均值90.23%.实验结果表明祝玉芳等[12]的分值转换损失了部分信息.

表3 本文的方法和文献[12]的方法判准率比较(实验30次的平均值)

slip方法多策略测验情形PMRAAMRSMR策略APMRAAMRSMR策略BPMRAAMRSMR2%本文0.997 80.999 60.933 30.993 50.998 71.000 00.999 91.000 00.900 0文献[12]0.931 00.972 90.931 30.993 50.998 70.994 50.899 70.959 90.899 75%本文0.994 40.998 90.933 20.984 50.996 91.000 00.999 40.999 90.899 8文献[12]0.926 30.971 90.926 10.984 80.996 90.983 80.897 10.959 40.897 310%本文0.978 20.995 30.932 20.946 50.988 60.999 90.994 00.998 70.898 4文献[12]0.904 80.966 80.907 00.966 30.992 90.962 70.874 00.953 80.879 215%本文0.925 60.980 10.931 40.865 00.960 00.999 10.956 00.990 20.897 5文献[12]0.847 00.951 10.861 00.937 80.985 30.943 90.801 60.934 00.819 5平均值本文0.974 00.993 50.932 50.947 40.986 10.999 80.987 30.997 20.898 9文献[12]0.902 30.965 70.906 40.970 60.993 50.971 20.868 10.951 80.873 9

4 结论、讨论与展望

本文在祝玉芳等[12]的研究基础上提出了一种新的基于IRT的多级评分多策略认知诊断数据处理方法,利用GDD-P诊断被试的知识状态和答题策略.研究结果表明在多级评分的测验中答题策略不唯一时:(i)本文方法的诊断结果要明显优于单策略诊断方法;(ii)祝玉芳等[12]的分值转换造成了信息的缺损.模拟实验结果表明,新方法能提高分类的准确性.

本文在模拟研究的过程中,通过计算被试的测验得分向量与每种策略下每种期望反应模式之间的GDD-P值来确定被试的知识状态及其答题策略.然而,这与祝玉芳等[12]的方法有所不同,他们的研究对于每个被试先判定策略再诊断知识状态,提到由于评分规则不会对答题策略的采用产生影响,故先将被试的测验得分和所有的期望反应均转化成0-1评分,随后用GDD值确定被试在作答时的策略,最后用GDD-P诊断被试的知识状态.

值得注意的是,由于本文的评分方式会导致同一个项目采用不同的答题策略涉及到的属性内容和个数以及满分值有所不同.故项目的满分值取所有被试在该项目上测验得分中最高的分值.对此,祝玉芳等[12]指出在估计参数之前需要进行不同策略之间的分值转换.由于其研究的项目满分最多为3分,分值转换相对简单,若满分值过大,则这种分值转换方法无法推广,且随机性大.因此,本文在模拟祝玉芳等[12]的诊断方法时没有进行分值转换.

在认知测试中,属性层级关系反映被试对属性认知过程的层次性[22].被试在作答每个项目时使用不同策略所需的属性内容、属性个数以及对于这些属性的认知过程可能有所不同.因此,不同的策略所对应的属性层级也可能有差异.注意到属性层级关系可以使用可达阵(或者必要Q矩阵)表达,不同的策略对应的可达阵可能不同[23].因此本文探索在这种情景下的认知诊断问题,先假设测验中2种不同解题策略分别对应不同的属性层级结构.当然,这样的假设的合理性还有待深入研究.

5 参考文献

[1] Rupp A A,Mislevy R J.Cognitive foundations of structured item response models [C].New York:Cambridge University Press,2007.

[2] 丁晓,吕娜,杨雅琳,等.工作记忆成分的年龄相关差异对算术策略运用的预测效应 [J].心理学报,2017,49(6):759-770.

[3] Geary D C,Hoard M K,Byrd-Craven J,et al.Cognitive mechanisms underlying achievement deficits in children with mathematical learning disability [J].Child Development,2007,78(4):1343-1359.

[4] Zhou Xinlin,Chen Chuansheng,Dong Qi,et al.Event-related potentials of single-digit addition,subtraction,and multiplication [J].Neuropsychologia,2006,44(12):2500-2507.

[5] de la Torre J,Douglas J.Model evaluation and multiple strategies in cognitive diagnosis:an analysis of fraction subtraction data [J].Psychometrika,2008,73(4):595-624.

[6] 涂冬波,蔡艳,戴海琦,等.一种多策略认知诊断方法:MSCD方法的开发 [J].心理学报,2012,44(11):1547-1553.

[7] 孙佳楠,张淑梅,辛涛,等.基于Q矩阵和广义距离的认知诊断方法 [J].心理学报,2011,43(9):1095-1102.

[8] 丁树良,祝玉芳,林海菁,等.Tatsuoka Q矩阵理论的修正 [J].心理学报,2009,41(2):175-181.

[9] 刘铁川.Mix-DINA模型功能开发及其与DINA、MS-DINA模型的模拟与实证比较 [D].南昌:江西师范大学,2012.

[10] 戴步云,张敏强,焦璨,等.基于CD-CAT的多策略RRUM模型及其选题方法开发 [J].心理学报,2015,47(12):1511-1519.

[11] Hartz S M.A bayesian framework for the unified model for assessing cognitive abilities:blendding theory with practicality [D].Urbana:University of Illinois at Urbana-Champaign,2002.

[12] 祝玉芳,王黎华,丁树良,等.多策略的多级评分认知诊断方法的开发 [J].江西师范大学学报:自然科学版,2015,39(4):371-376.

[13] Sun Jianan,Xin Tao,Zhang Shumei,et al.A polytomous extension of the generalized distance discriminating method [J].Applied Psychological Measurement,2013,37(7):503-521.

[14] 丁树良,罗芬,汪文义.多级评分认知诊断测验蓝图的设计:独立型和收敛型结构 [J].江西师范大学学报:自然科学版,2014,38(3):265-269.

[15] 丁树良,汪文义,罗芬.多级评分认知诊断测验蓝图的设计:根树型结构 [J].江西师范大学学报:自然科学版,2014,38(2):111-118.

[16] 田伟,辛涛.基于等级反应模型的规则空间方法 [J].心理学报,2012,44(1):249-262.

[17] 丁树良,杨淑群,汪文义.可达矩阵在认知诊断测验编制中的重要作用 [J].江西师范大学学报:自然科学版,2010,34(5):490-494.

[18] 丁树良,汪文义,杨淑群.认知诊断测验蓝图的设计 [J].心理科学,2011,34(2):258-265.

[19] Leighton J P,Gierl M J,Hunka S M.The attribute hierarchy method for cognitive assessment:avariation on Tatsuoka′s rule-space approach [J].Journal of Educational Measurement,2004,41(3):205-237.

[20] Samejima F.Estimation of latent ability using a response pattern of graded scores [J].Psychometrika,1970,35(1):139.

[21] 陈青,丁树良,朱隆尹,等.3参数等级反应模型及其参数估计 [J].江西师范大学学报:自然科学版,2010,34(2):117-122.

[22] Leighton J P,Gierl M J.Cognitive diagnostic as-sessment for education:theory and applications [J].Journal of Qingdao Technical College,2007,45(4):407-411.

[23] 丁树良,罗芬,汪文义,等.Q矩阵探微 [J].江西师范大学学报:哲学社会科学版,2017,50(1):71-79.

TheMultiple-StrategyCognitiveDiagnosisMethodwithPolytomousScoring

HUANG Yu,LUO Fen,XIONG Jianhua,DING Shuliang,GAN Dengwen*

(College of Computer Information Engineering,Jiangxi Normal University,Nanchang Jiangxi 330022,China)

Abstract:Cognitive diagnosis (CD) is the product of the combination of modern psychometrics and cognitive psychology.Polytomous scoring items can provide more comprehensive information,and better reflect the KS of the examinees.Taking into account the existence of different cognitive strategies corresponding to different attribute hierarchies,even under some scoring rules,there is a complex situation in which the same item uses different problem-sovling strategies maybe corresponding to different values,borrowing the equivalent approach of project response theory to deal with this complex situation.Monte Carlo simulation experiments show that in the polytomous scoring test when the response data of examinees contained multiple-strategy responses:The diagnosis results using multiple-strategy CD method pattern match ration (PMR) better than the single-strategy CD method.The method,the PMR in various slip all higher than other methods,their method the score conversion caused the lossing of information.

Keywords:cognitive diagnosis;multiple-strategy cognitive diagnosis;polytomous;Qmatrix

收稿日期：2018-10-17

基金项目：国家自然科学基金(31500909,31360237,31300876)和教育部人文社会科学研究青年基金(BYJC880060)资助项目.

通信作者：甘登文(1956-),男,江西奉新人,教授,主要从事智能教学软件和应用统计方面的研究.E-mail:gdw8120429@126.com

文章编号：1000-5862(2019)04-0376-06

中图分类号:B 841.7;TP 301.6

文献标志码:A

DOI:10.16357/j.cnki.issn1000-5862.2019.04.08

(责任编辑:冉小晓)

标签：策略论文; 认知论文; 评分论文; 测验论文; 方法论文; 哲学论文; 宗教论文; 心理学论文; 心理学研究方法论文; 《江西师范大学学报(自然科学版)》2019年第4期论文; 国家自然科学基金(31500909; 31360237; 31300876)教育部人文社会科学研究青年基金(BYJC880060)论文; 江西师范大学计算机信息工程学院论文;