导读:本文包含了测验等值论文开题报告文献综述、选题提纲参考文献,主要关键词:测验,模型,参数,项目,理论,线性,解释性。
测验等值论文文献综述写法
黄菲菲,张敏强[1](2019)在《线性Logistic测验模型的测验等值研究》一文中研究指出在测验等值研究领域中,非等组锚题设计在大规模测验中的应用最为广泛。然而,随着互联网的快速发展,这种设计常常面临锚题曝光的问题。目前,国外的学者提出了许多新的替代非等组锚测验设计的方法和思路。虽然许多研究只是在理论层面提出,但这些替代性方法的科学性和合理性有待进一步验证。相比于国外,国内在这方面的研究较少。在当前教育改革对测验等值有较高需求的社会环境下,尽快实现测验等值是国内许多大型考试所共同面临的重要任务。因此,很有必要结合我国大型考试的实际情况,研究替代非等组锚测验设计的新方法和思路。本研究通过一个模拟研究和一个实证研究对线性Logistic测验模型在测验等值的应用方面进行深入研究,旨在解决以下叁个问题:(1)线性Logistic测验模型在测验等值应用方面的可靠性和精确性如何?(2)考生样本量、试题数量、预测变量个数等因素对线性Logistic测验模型的测验等值精确性是否会产生影响?(3)和传统等值设计下的测验等值结果相比,线性Logistic测验模型在测试实践中的精确性如何?研究结果发现:(1)线性Logistic测验模型在测验等值过程中能有效估计考生能力参数和题目区分度参数。其中,对考生能力参数的估计几乎接近真值。但是,在估计题目难度参数时出现明显的偏差。(2)线性Logistic测验模型的测验等值精确度受到考生样本量、题目数量和参数预测变量个数不同程度的影响。在题目数量方面,当题目数量在20道或者40道时,线性Logistic测验模型的参数估计表现较为稳定。当题目数量增至80道时模型的参数估计会出现较大的偏差。在考生样本量方面,线性Logistic测验模型在考生能力参数和题目区分度参数的估计误差随着样本量的增大而减小。但是,题目难度参数的估计误差并没有随着样本量的增大而减小。在预测变量个数方面,当题目参数预测变量个数越多,线性Logistic测验模型在估计题目难度参数时表现越差。(3)和传统等值设计下的测验等值结果相比,线性Logistic测验模型在测试实践中能够很好地估计考生能力参数和题目区分度参数。但是,在题目难度参数的估计出现了明显的偏差。(本文来源于《第二十二届全国心理学学术会议摘要集》期刊2019-10-19)
尹俐,张敏强[2](2019)在《IRT框架下不同模型选择对含题组的测验等值的影响》一文中研究指出等值保证测验的公平性,也是题库建设的需要,为了避免使用不同版本试卷的考生受到不公平的对待,避免命题和试卷编制中的盲目性和偶然性,因此研究测验等值具有非常现实的意义。同时,由于题组(Testle,指依赖于同一背景的一簇题目)在教育测验实践中具有节约时间和成本、接近真实情景、提供更丰富的信息等优势,因此题组型题目形式被广泛应用于国内外很多大型测验中,如SAT、汉语水平考试等;英语能力水平测试(如IELTS、英语四六级考试)也存在题组项目,如阅读理解、完形填空等题型,这使得研究含题组的测验等值更加具有实践意义。但是题组导致项目间存在局部依赖,采用传统的IRT模型,可能会因为忽略题组效应而影响参数估计和等值的精度。因此,本研究以某次大型英语模拟考试的实证数据为例,基于项目反应理论(Item Response Theory,IRT),采用传统的两参数Logistic模型(2PLM)和两参数题组反应模型(2PTM),运用同时估计方法,对叁套英语试卷进行等值。共有872个被试同时参加叁个测验,采用平衡组设计。本研究以传统的等百分位等值作为参考标准,比较采用传统的两参数Logistic模型(2PLM)和两参数题组反应模型(2PTM)进行参数估计,对含题组的测验分数等值的影响。研究结果表明:(1)采用不同的IRT模型进行参数估计,对含题组的测验等值结果影响不同;(2)相比于忽略题组效应,使用题组反应模型参数估计时的等值结果更好。(本文来源于《第二十二届全国心理学学术会议摘要集》期刊2019-10-19)
杨钰萍[3](2019)在《共同总体假设下基于虚拟人的测验等值研究》一文中研究指出在大规模教育测验中,为了测试题本的安全以及减少学生的作答时间,同一测验项目中需要构建多份不同形式的测试题本。不同考生可能作答的测试题本不一样,这样得到的分数不具有可比性。以浙江英语高考为例,通过控制每年两次的试题难度不变,使参加不同测验的考生成绩具有可比性。目前我国高考试题难度控制主要依赖于命题专家多年的经验,但是2018年浙江英语高考事故充分说明了经验并不完全可靠,以此控制试题难度是困难的。因此我们通过对测验结果进行等值,使得参加不同测验的考生成绩可比。国外对等值的研究和运用已经较为成熟,较为常用的方法是通过在测验中加入锚测验进行测验等值。但是以我国高考为例,试题施测以后便不再具有保密性,锚题曝光的必然性严重威胁到锚题设计的有效性,因此本文提出引入共同虚拟人的做法,在无锚题情况下进行测验等值。本文分为叁个研究,全部基于共同总体假设。研究一和研究二分别在经典测验理论(Classical Test Theory,CTT)和项目反应理论(Item Response Theory,IRT)框架下进行有无共同虚拟人对等值稳定性影响的研究,研究叁通过比较不同共同虚拟人比例下60次抽样IRT等值分数标准差,考察了共同虚拟人比例对等值稳定性的影响。每个研究下均使用模拟数据和实证数据进行假设验证,以期验证结论是否具有普适性和可推广性,其中模拟数据通过编写R程序得到,实证数据选取某地区2015年,2016年的2套(理科)数学测验。研究一在经典测验理论框架下,通过模拟研究和实证研究比较发现无共同虚拟人的等值与引入共同虚拟人的等值分数标准差均值之间具有显着差异,且引入共同虚拟人后进行测验分数等值的稳定性优于无共同虚拟人的测验分数等值。研究二将研究一中基于CTT等值的方法推广到IRT等值下,模拟研究和实证研究发现无共同虚拟人的等值与引入共同虚拟人的等值分数标准差均值之间具有显着差异,且引入共同虚拟人后进行测验分数等值的稳定性优于无共同虚拟人的测验分数等值。结合研究一和研究二的模拟研究和实证研究,发现在IRT下引入共同虚拟人的等值稳定性较CTT下均有提升,且模拟数据的等值稳定性一直维持在较高水平(99.59%和100%),而实证数据的等值稳定性提升幅度较大(从CTT下的75.96%到IRT下的99.74%)。研究叁讨论了IRT下共同虚拟人比例对等值稳定性的影响,结果表明在模拟研究和实证研究中,当共同虚拟人比例为1/2时,也即共同虚拟人与被试样本数量一致时,等值均是最为稳定的。在上述叁个研究中,基于0-1计分的模拟数据和非0-1计分的实证数据均得到的相同的结论,意味着本文的研究结论具有较好的可推广性。(本文来源于《江西财经大学》期刊2019-06-01)
张飘[4](2019)在《IRT框架下对含题组的语文阅读测验的等值分析》一文中研究指出在含题组的语文阅读测验中应用传统的IRT模型可能会影响参数估计和等值的精度,进而影响大规模施测的公平性。以某省语文阅读测验A、B卷的实测数据为例,基于项目反应理论,采用标准的二参数Logistic模型(2PLM)和二参数题组模型(2PTM)进行实证分析,比较参数估计和等值的效果。研究发现:1)语文阅读测验中的题组测验存在不可忽略的题组效应,且不同题组之间的题组效应不同;2)题组效应对项目参数估计和等值结果具有显着性影响,题组模型更适合于含题组的语文阅读测验的等值。(本文来源于《中国考试》期刊2019年04期)
张园,李亚男,杨琳静[5](2019)在《HSK和MHK测验等值分析》一文中研究指出本研究通过随机选取2382名考生,采用共同组等值设计和线性等值法,对MHK叁级与HSK叁级、四级、五级、六级的考生成绩进行了等值,等值结果包括听力、阅读、书面表达各分测验分数及测验总分。(本文来源于《考试研究》期刊2019年01期)
肖灵韵,黎光明,张敏强[6](2018)在《测验等值中的准锚应用探究》一文中研究指出测验等值是对考查同一心理特质的多种测验形式做出测验分数的转换,进而实现这些不同测验形式的测验分数间的可比性。运用等值技术则需要使用合适的等值设计收集测验数据,目前在大型测验中应用广泛的等值设计为基于"锚题"思想的非等组锚题设计。这种设计通过不同试卷中的共同题(即锚题)来进行等值,使用限制条件较少,受到很多学者的青睐。但在真实测验情境中,由于测验的安全性等问题,测验之间无法设置锚题,为了使不同测验分数能进行比较,需要找到可替代的方法。本研究旨在不同测验中,根据统计特征性(如难度、区分度)构造共同题,形成"准锚",以此来进行等值,并对"准锚"的等值准确性进行考察。本研究所用数据为"广州市中小学教育质量阳光评价"项目于2017年及2018年初叁数学学业测试数据。该项目两年测试已存在锚题,为了考察"准锚"的实用性与等值准确性,本研究选取与原锚题数量一致的区分度及难度相近的试题构成准锚。根据连续两年的"阳关评价"初叁数学测验数据进行等百分位等值,使用原锚题和"准锚"分别进行等值,得到叁种等值结果,以等百分位等值结果为参照判断准锚与原锚题的等值准确性的差异。通过此研究,望能够为无法设置锚题的测验情境提供易操作且具有一定准确性的等值策略。(本文来源于《第二十一届全国心理学学术会议摘要集》期刊2018-11-02)
黄菲菲,张敏强,李哲,郭凯茵[7](2017)在《题组测验的等值方法比较研究》一文中研究指出在平时的许多测验中都会用到同一试题材料下有两道及以上的题目的测验形式,这就是我们所熟知的题组。在以往的研究中,人们发现题组测验常常会违反项目反应理论中的局部独立性假设。通常而言,学者们忽视项目间相依性的影响,直接采用单维的IRT模型。但是在项目反应理论的框架下,题目间的相依性会影响项目参数的精确估计。随后,学者们提出了用于解决项目相依性问题的题组反应模型,该模型在叁参数逻辑斯蒂模型的基础上纳入了题组因子。按照项目反应理论,同一项目在不同的单位系统上虽然数值的表现形式不一样,但是实质是一样的。因此,可以将新测验上的参数转换到基准测验上。Haebara(1980)通过最小化两种测验间的差异发展出了一种最小二乘法,称为项目特征曲线等值法(简称为Haebara法)。随后,Stocking和Lord (1983)提出了一种更精确复杂的方法。他们通过极小化各测验间的真分数之差提出了测验特征曲线等值法(简称为SL法)。受到卡方检验的启发,Xiong和Ding (2005)发展出了一种Haebara加权法,他们通过模拟研究发现该方法优于Haebara法。同年,他们又提出了平方根等值法,这是受到Freeman-Turkey多项分布拟合检验的启发而形成的,这种方法也可以看作是一种Haebara加权法。该方法具有答对的概率和答对的概率同时出现而不能够相互替换的特点。因此,平方根等值法可以极易从二级评分模型转换到多级评分模型中。在许多大型测验项目中,测验等值对于考试的公平性、题库建设和计算机自适应测验都具有重要意义。将题组模型应用于不同形式的题组测验等值是非常有必要的。然而,大多数都对题组测验等值方法的研究相对较少。因此,本研究的主要目的就是将等值方法应用于题组等值中,并且通过实证研究和模拟研究比较这些等值方法的表现。本研究首先通过两个实证数据比较不同等值方法的表现。这些实证数据来源于一个英语测验。每一个测验包含五个题组,每个题组有3至20道的题目不等。共有815个被试同时参加了两个测验,采用的是平衡组设计。实证研究将传统的等百分位等值作为评价标准。结果表明,Haebara加权法的表现优于Haebara法,SL法和平方根等值法的估计结果和传统的等百分位等值法较为接近。模拟研究通过改变样本量、题组效应大小和题目数叁个条件来比较不同等值方法的表现。模拟研究结果和实证研究的结果较为一致。(本文来源于《第二十届全国心理学学术会议--心理学与国民心理健康摘要集》期刊2017-11-03)
罗照盛,张飘[8](2017)在《IRT框架下题组测验的等值方法在中文篇章阅读测验中的应用》一文中研究指出随着社会的进步和教育的发展,现代教育测验越来越重视测验的公平性,同时也意味着测验等值问题在现实中应用的范围也越来越广。题组测验是教育测验中一种常用的测验形式,篇章阅读测验作为题组测验的一种典型,在语文学科考试等测验和语文教育质量等评估中应用地也越来越频繁。但由于语文学科的特殊性、被试理解的主观性,在中文篇章阅读测验中的等值问题也显得更为复杂。本研究立足于该研究背景,以项目反应理论(IRT)和题组反应理论(TRT)为基础,采用标准的叁参数逻辑斯蒂模型(3PLM)与叁参数题组模型(3PTM),用IRT项目特征曲线法进行锚测验等值,采用不同的等值准则,以等值系数误差的大小为衡量标准,分别从项目参数、随机误差、题组内项目间的相依程度等方面比较篇章阅读题组测验的等值效果,以探索适用于题组测验尤其是篇章阅读测验等值的模型和方法,并探讨在叁参数情况下,题组测验中的猜测参数对等值结果的影响。本研究先进行大量蒙特卡洛(MCMC)模拟实验,再对某省语文教育质量监测中篇章阅读测验A、B、C、D卷的作答数据进行等值分析,应用并验证研究结果。研究发现,考虑题组效应影响的3PTM的等值误差比忽略题组影响的3PLM的等值误差更小,且具有显着性差异,得出3PTM更加适用于含中文篇章阅读测验的题组等值。研究进一步考察了不同的等值准则对中文篇章阅读测验等值的有效性和适用性,旨在对含有篇章阅读测验的语文类科目考试和相关教育质量评估的等值问题带来可借鉴的应用方法。(本文来源于《第二十届全国心理学学术会议--心理学与国民心理健康摘要集》期刊2017-11-03)
刘育明[9](2017)在《测验等值与量表研究的最前沿——美国《测验等值、量表制订、联结的方法和实践》(中文版)即将出版》一文中研究指出《测验等值、量表制订、联结的方法和实践》一书的作者为美国爱荷华大学的Michael J.Kolen教授和Robert L.Brennan教授。该书自出版以来,被业界誉为"有关测验等值和量表制定方面最好、内容最全面的教材"。该书第一版于1995年出版,第二版于2004年出版,第叁版于2014年出版。目前,2014年的版本已译成中文,即将出版。(本文来源于《教育测量与评价》期刊2017年11期)
景春丽,马洁,章建石[10](2017)在《全国英语等级考试锚测验非等组设计中样本量对等值结果的影响》一文中研究指出本研究采用锚测验非等组设计,探究了锚测验样本量的变化对等值结果的影响。数据来自全国英语等级考试(PETS),使用以Bigsteps为核心的自主改进软件,基于Rasch模型估计题目参数。为了探究等值结果对合格分数线的影响,本研究对比了不同样本量锚测验参数估计值与锚题参数给定值的差异,并对不同样本量锚测验得出的实考试卷等值结果与最大样本量锚测验得出的实考试卷等值结果进行了差异分析。结果表明,当锚测验样本量达到150时,等值结果比较稳定。这一结果表明,PETS设定的300人左右的锚测验样本量是合理的。(本文来源于《中国考试》期刊2017年06期)
测验等值论文开题报告范文
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
等值保证测验的公平性,也是题库建设的需要,为了避免使用不同版本试卷的考生受到不公平的对待,避免命题和试卷编制中的盲目性和偶然性,因此研究测验等值具有非常现实的意义。同时,由于题组(Testle,指依赖于同一背景的一簇题目)在教育测验实践中具有节约时间和成本、接近真实情景、提供更丰富的信息等优势,因此题组型题目形式被广泛应用于国内外很多大型测验中,如SAT、汉语水平考试等;英语能力水平测试(如IELTS、英语四六级考试)也存在题组项目,如阅读理解、完形填空等题型,这使得研究含题组的测验等值更加具有实践意义。但是题组导致项目间存在局部依赖,采用传统的IRT模型,可能会因为忽略题组效应而影响参数估计和等值的精度。因此,本研究以某次大型英语模拟考试的实证数据为例,基于项目反应理论(Item Response Theory,IRT),采用传统的两参数Logistic模型(2PLM)和两参数题组反应模型(2PTM),运用同时估计方法,对叁套英语试卷进行等值。共有872个被试同时参加叁个测验,采用平衡组设计。本研究以传统的等百分位等值作为参考标准,比较采用传统的两参数Logistic模型(2PLM)和两参数题组反应模型(2PTM)进行参数估计,对含题组的测验分数等值的影响。研究结果表明:(1)采用不同的IRT模型进行参数估计,对含题组的测验等值结果影响不同;(2)相比于忽略题组效应,使用题组反应模型参数估计时的等值结果更好。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
测验等值论文参考文献
[1].黄菲菲,张敏强.线性Logistic测验模型的测验等值研究[C].第二十二届全国心理学学术会议摘要集.2019
[2].尹俐,张敏强.IRT框架下不同模型选择对含题组的测验等值的影响[C].第二十二届全国心理学学术会议摘要集.2019
[3].杨钰萍.共同总体假设下基于虚拟人的测验等值研究[D].江西财经大学.2019
[4].张飘.IRT框架下对含题组的语文阅读测验的等值分析[J].中国考试.2019
[5].张园,李亚男,杨琳静.HSK和MHK测验等值分析[J].考试研究.2019
[6].肖灵韵,黎光明,张敏强.测验等值中的准锚应用探究[C].第二十一届全国心理学学术会议摘要集.2018
[7].黄菲菲,张敏强,李哲,郭凯茵.题组测验的等值方法比较研究[C].第二十届全国心理学学术会议--心理学与国民心理健康摘要集.2017
[8].罗照盛,张飘.IRT框架下题组测验的等值方法在中文篇章阅读测验中的应用[C].第二十届全国心理学学术会议--心理学与国民心理健康摘要集.2017
[9].刘育明.测验等值与量表研究的最前沿——美国《测验等值、量表制订、联结的方法和实践》(中文版)即将出版[J].教育测量与评价.2017
[10].景春丽,马洁,章建石.全国英语等级考试锚测验非等组设计中样本量对等值结果的影响[J].中国考试.2017