陈冠宇:解释性项目反应理论模型：理论与应用论文

解释性项目反应理论模型：理论与应用<span class="superscript">*</span

解释性项目反应理论模型：理论与应用*

陈冠宇陈平

(北京师范大学中国基础教育质量监测协同创新中心, 北京 100875)

摘要 解释性项目反应理论模型(Explanatory Item Response Theory Models, EIRTM)是指基于广义线性混合模型和非线性混合模型构建的项目反应理论(Item Response Theory, IRT)模型。EIRTM能在IRT模型的基础上直接加入预测变量, 从而解决各类测量问题。首先介绍EIRTM的相关概念和参数估计方法, 然后展示如何使用EIRTM处理题目位置效应、测验模式效应、题目功能差异、局部被试依赖和局部题目依赖, 接着提供实例对EIRTM的使用进行说明, 最后对EIRTM的不足之处和应用前景进行讨论。

关键词解释性项目反应理论; 广义线性混合模型; 非线性混合模型; 测量不变性; 解释性测量

1 引言

以Binet和Simon (1904)的开创性工作为起点, 项目反应理论(Item Response Theory, IRT)经过百余年发展, 已广泛用于题目的标定与分析、被试的拟合与评分、测验的设计以及大规模教育评价等领域中(van der Linden, 2018), 是心理与教育测量领域最为重要的分析方法之一。虽然研究者针对作答评分、测验维度以及层级数据(hierarchicaldata)等实际问题提出一系列不同的模型并拓展IRT的应用情境, 但是绝大部分IRT模型只能刻画被试与题目之间的关系, 限制了IRT模型在心理与教育研究中的应用。

本文将基于广义线性混合模型(Generalized Linear Mixed Models, GLMM)和非线性混合模型(Nonlinear Mixed Models, NLMM)构建的IRT模型, 定义为解释性项目反应理论模型(Explanatory IRT Models, EIRTM; De Boeck & Wilson, 2004)。EIRTM是一个综合的解释性模型框架, 它允许在IRT模型的基础上加入预测变量, 在刻画被试和题目间关系的基础上, 进一步解释相关变量影响, 因而拓展IRT模型的应用范围。EIRTM之所以重要, 主要有以下几个方面的原因：

首先, EIRTM摆脱传统IRT模型的限制, 它不仅是测量模型, 而且被称为解释性测量(explanatory measurement)模型。EIRTM能够将题目特征和被试特征纳入模型并解释作答反应如何受到这些变量的影响, 所以EIRTM可用于处理各种测量准确性问题：比如, 题目位置效应(Item Position Effect, IPE)、测验模式效应(TestMode Effect, TME)、题目功能差异(Differential Item Functioning, DIF)以及局部依赖(Local Dependencies, LD)等等。

其次, EIRTM提出一个综合的模型构建观点。现有的IRT模型采用不同的术语标注和建模方法, 使得研究者很难意识到IRT模型之间存在的共性(Rabe-Hesketh & Skrondal, 2016)。但是, 绝大部分IRT模型实际上可以等价地构建为GLMM和NLMM的形式[1] (De Boeck & Wilson, 2004, 2016; Rijmen, Tuerlinckx, De Boeck, & Kuppens, 2003)。另外, EIRTM体现IRT和回归分析的统一, 是一个更为广义的分析框架。广义线性模型(Generalized Linear Models, GLM)涵盖以logit回归、probit回归和基本线性模型(basic linear models)为代表的常用回归模型(Gill, 2000), 而且GLM和大部分IRT模型都是GLMM和NLMM的特例(Stroup, 2012)。因此通过引入EIRTM的框架, 研究者能够将回归模型和IRT模型涵盖在一个更为广义的分析框架之下, 从而形成更为完备的统计测量观。

最后, 应用EIRTM的最大优势在于对预测变量的直接建模和估计, 即“一步法”。虽然在实际应用中也可以采用“两步法”进行分析(即第一步先使用IRT模型得到不同测验情境[2]的参数估计值; 第二步再对不同情境得到的参数估计值进行显著性检验, 或者以参数估计值为因变量进行回归分析), 但是“一步法”要优于“两步法”：(1)“两步法”容易低估测量误差, 尤其是第一步分析中产生的测量误差经常会被忽视, 从而导致犯第一类错误的概率增大(刘红云, 骆方, 2008); (2) 相比于事先采用等组设计或事后采用多组比较的“两步法”, 采用“一步法”的EIRTM更为简便、也能处理更复杂的情况(Debeer & Janssen, 2013); (3) 使用EIRTM可将预测变量的效应与题目难度、被试能力分离, 这有助于对预测变量进行分析和解释(聂旭刚, 陈平, 张缨斌, 何引红, 2018)。

综上, EIRTM提供一个灵活且综合的解释性模型框架。在EIRTM中, 研究者可以自主地构建研究所需要的IRT模型, 从而更好地解释数据。鉴于EIRTM的理论意义与应用价值, 本文将简单介绍EIRTM的基本理论并着重介绍EIRTM的应用情况, 以期能够帮助读者更加深入地了解和使用EIRTM。本文将按以下顺序进行组织：第2节概述EIRTM的基本概念以及参数估计方法; 第3节介绍如何使用EIRTM解决测量准确性问题; 第4节将提供一个具体例子对EIRTM的使用进行说明; 第5节讨论EIRTM的不足之处以及今后的研究方向。

2 EIRTM的基本概念与模型参数估计

因为GLMM本质上是回归模型的拓展, 所以为了更好地理解GLMM, 先简单引入线性回归模型(linear regression model)：

一方面，对于马克思异化理论的研究。马克思对自由的探寻和信仰其现实的根基在于对现实不自由的反思和批判。马克思异化理论正是其展开对自由真切追寻的理论前提。关于马克思的异化理论的研究目前已经达成了共识性的认识，那就是马克思异化思想的生成源自于对资本主义制度下，人在社会生活的诸多领域尤其是生产劳动过程中的种种不自由状态的揭露和批判。异化的生存状态使人根本无法获得全然属于自我的发展空间和生活意境。因此，只有通过对于异化特别是异化劳动的积极扬弃，才能实现人类对自由的价值诉求。

(1)

其中p代表被试,i表示处理,为截距,为斜率,为预测变量的值,为残差。GLMM是线性回归模型的一般形式。下面将具体介绍GLMM及NLMM。

2.1 EIRTM的基石：GLMM和NLMM

在预测变量与观测值建立连接之前使用连接函数(link function)进行转换的模型, 即GLM。GLM实际上就是经典回归模型的普遍化, 之所以称为“广义(generalized)”是因为连接函数可以任意选取。公式(1)所示的线性回归模型即用线性函数连接预测变量和观察值, 即本身连接函数(identity link function)。如果GLM中还包含随机效应(random effect), 那么模型就被称为GLMM (Stroup, 2012)。随机效应是指预测变量的效应不是一个常数, 而是来源于一个概率分布, 具有期望和方差[3]; 与之对应的是固定效应(fixed effect), 是指预测变量的效应是一个常数, 没有测量误差[4]。在公式(1)中, 截距和斜率都是固定效应。

超声软指标是产前诊断工作中不可忽视的一部分，但不应过分夸大其临床价值，造成患者及家属的过分恐惧，导致一些不必要的引产。当发现胎儿存在软指标异常时，应进一步遗传咨询，并结合其他筛查项目综合判断，必要时行染色体检查以排除染色体数目或结构异常具有十分重要的意义。

GLMM由三个部分组成(De Boeck & Wilson, 2004)：

(1) 随机成分(random component), 即观测变量及其期望的分布函数, 对应IRT中被试p在题目i上的作答反应及其均值的分布函数。当作答反应为二分时, 其分布函数为独立的伯努利分布(Bernoulli distribution), 记为, 其中表示被试p在题目i上的正确作答概率且。

当然EIRTM也存在一些问题：(1) 算法比较复杂, 运算时间相对较长。对于蒙特卡洛(Monte Carlo)模拟研究以及自适应测验而言, 只能尝试通过提高计算机的计算性能来改进效率。但是对于不需要重复的应用研究来说, 现有软件的运行速度基本可以接受; (2) EIRTM的使用对数学能力和编程能力要求较高, 这不太利于一般研究者的使用。EIRTM涉及的算法比较复杂, 非统计学/数学专业的研究者不容易理解; 而且目前没有简单易用的专用软件可供使用, 必须由研究者自己编写程序, 并设定模型参数。总之, 尽管EIRTM也存在一些不足, 但是考虑到EIRTM的重要理论意义与应用价值, 未来必定能在测量领域大有作为。

为将校企合作的煤矿特色虚拟仿真实践平台落到实处，应该从学校层面上设立专门的校企合作管理小组，并由教务处、科学技术研究院、发展规划与学科建设处、教育培训处以及学院教学院长和科研院长等成员组成。管理小组主要负责指导并接洽与企业合作的具体事宜[4]。

CW信号频点单一，发射和接收处理相对简单。LFM信号工作时，作为发射机负载的水声换能器阻抗在工作频带内起伏很大，阻抗失配问题严重。图4为信号实现流程,其中匹配电路的用途是使发射机负载的阻抗起伏变小，实现换能器与功率放大器宽频带内的阻抗匹配，达到功率放大器最大功率传输增益，实现宽带LFM信号的发射。目前，采用宽带信号体制的蛙人探测声呐已研制成功并投入使用，各项技术性能指标均能达到设计要求。

(3) 系统成分(systematic component), 即预测变量的线性函数, 记为。在GLMM中, 预测变量可以分为两类, 具有固定效应的预测变量和具有随机效应的预测变量：

(2)[5]

其中i对应题目,p对应被试;Q和J分别表示固定效应和随机效应的个数,和为预测变量。此处假设为题目的指示变量(indicator variable), 即题目的虚拟编码(dummy code)变量, 当i=q时, = 1, 当iq, = 0; 同理,也可视为维度的指示变量。记, 有, 即服从均值向量为0、协方差矩阵为的多元正态分布[6]。在GLMM中,只由线性成分构成, 对应Rasch模型簇。但是对于包含区分度参数的IRT模型来说, 还包括非线性成分(参数相乘), 属于NLMM[7]。因此, 通过GLMM和NLMM构建EIRTM, 就能从更一般的视角拓展IRT模型, 详见第4节的EIRTM实例部分。

2.2 EIRTM的参数估计

EIRTM的参数估计方法有很多, 但都涉及复杂的统计知识, 此处仅做简单介绍：(1)全似然分析(full-likelihood analysis), 即对EIRTM的边际似然函数进行数值逼近(numerical approximation)以求得估计值使边际似然函数达到最大值。此类方法包括高斯−厄尔米特求积(Gauss-Hermite quadrature)与蒙特卡罗积分(Monte Carlo integration)等直接最大法[对应的统计软件(包)为SAS PROC NLMIXED (SAS Institute, 2015)、STATA的GLLAMM (Rabe- Hesketh, Skrondal, & Pickles, 2004)和HLM (Raudenbush, Bryk, Cheong, Congdon Jr, & Toit, 2011)]以及使用EM算法的间接最大法[对应的软件有MULTILOG (Thissen, 1991)和ConQuest (Adams, Wu, & Wilson, 1988)]; (2)线性分析近似(linearized analytical approximations), 即对EIRTM的边际似然函数中含有的积分求近似解, 包括拉普拉斯近似(Laplaceapproximation)、带惩罚的拟似然法(Penalized Quasi-Likelihood Method, PQL)和边际拟似然法(Marginal Quasi-Likelihood Approach, MQL), 对应的软件(包)有R语言的lme4包(Bates, Mächler, Bolker, & Walker, 2015)、HLM和SAS PROC GLIMMIX (SAS Institute, 2015); (3)贝叶斯方法, 即采用马尔科夫链蒙特卡洛 (Markov chain MonteCarlo, MCMC)方法, 典型的分析软件有OpenBUGS (Spiegelhalter, Thomas, Best, & Lunn, 2014)。更详细的算法介绍与比较可以参见Bolker等(2009)的综述。

目前尚未发现不同方法得到的估计结果之间会存在显著差异。De Boeck和Wilson (2004)对6种统计软件的估计结果进行比较, 发现差异不大, 而且采用同一类估计方法的软件的估计结果更加接近。Jeon, Rijmen和Rabe-Hesketh (2013)基于模拟数据对WinBUGS[8]、PROC NLMIXED、GLLAMM以及含逻辑斯蒂回归节点的贝叶斯网络(BayesianNetworks with Logistic Regression Nodes, BNL; Rijmen, 2006)进行比较, 结果发现：不同软件估计的结果相似, 差别在于BNL的估计速度远快于其他软件。另外, Jeon, Rijmen和Rabe-Hesketh (2014)还在BNL的基础上, 开发了R语言的FLIRT包。总之, 目前用于分析EIRTM的软件种类繁多, 但是不同软件估计结果接近, 研究者可以根据自己的需要进行选择。

3 使用EIRTM处理测量准确性问题

3.1 题目位置效应(Item Position Effect, IPE)

IPE是指同一个题目在不同测验间因题目位置的变化而导致题目参数的变化(聂旭刚等人, 2018)。IPE违背了IRT的参数不变性(parameterinvariance)特征, 使得基于IRT的测验公平性分析、计算机化自适应测验(Computerized Adaptive Testing, CAT)以及矩阵抽样设计(matrix sampling design)等重要应用都受到影响。因此, 很有必要对IPE进行检测及解释。

用于检测IPE的EIRTM可以分为三类(聂旭刚等人, 2018)：第1类模型记为模型IPE-1 (Hohensinn, Kubinger, Reif, Schleich, & Khorramdel, 2011)：

(3)

其中p表示被试,i表示题目(),q表示变量(), 且Q=I;为能力参数,为指示变量, 当i=q时,,否则取0;如前文所述, 对应题目难度; 表示的是IPE。此时为固定效应, 它只与题目位置有关, 所有题目在同一位置的难度变化都相同[9]。此模型本质上是对题目难度进行分解, 从而得出IPE。

急性扁桃体炎诊断标准参照《中医病证诊断疗效标准·乳蛾的诊断依据》[1]：①以咽痛、吞咽困难为主要症状，可伴有发热。②起病急，病程短。③扁桃体充血肿胀、表面有脓点。④白细胞总数及中性粒细胞增高。

第2类模型记为模型IPE-2 (Debeer & Janssen, 2013)：

(4)

注意此处被定义为随机效应,, 其余参数含义同上。此模型假设IPE受题目的影响, 即不同题目在同一位置上的难度变化不同。

本文关于共享领域的安全头盔的CMF的研究分析主要体现在材料、工艺和颜色带来的美观性、安全性、可用性上。

习近平总书记强调，现在我国经济已由高速增长阶段转向高质量发展阶段，要坚持新发展理念，使长江经济带成为引领我国经济高质量发展的生力军。推动长江经济带农业农村绿色发展，唱响质量兴农、绿色兴农、品牌强农主旋律，加快推进农业由增产导向转向提质导向，大力推进质量变革、效率变革、动力变革，有利于促进长江经济带农业高质量发展，推进生态宜居的美丽乡村建设，把绿水青山变成金山银山，实现生态美、百姓富的有机统一。

(5)

其中是随机效应,, 表示IPE。此时, IPE可以被视为一个新的维度, 有研究者将它解释为毅力(persistence)或考生努力(examinee effort; Debeer, Buchholz, Hartig, & Janssen, 2014)。此模型假设IPE与被试有关, 即不同位置的题目难度受到被试的影响(Weirich, Hecht, Penk, Roppelt, & Böhme, 2017)。Debeer和Janssen (2013)对上述三类模型进行比较后认为第三类模型更有优势, 即将IPE解释为被试层面的属性更符合实际。

IPE-1假设由题目难度分解得到, 而且不同题目的相同。本质上,是预测变量的固定效应：对于所有题目都取1,就是所有题目IPE的均值。IPE-2加入的是基于题目的随机效应, 表示不同题目的IPE可以不同。IPE-3加入的, 则是基于被试的随机效应, 它表示不同被试的IPE可以不同。其实, 固定效应和随机效应的选择完全基于研究者的需要, 类似于“HLM中设定斜率和截距是固定还是随机”。如果研究者认为IPE具有跨题目一致性, 就可将IPE设定为固定效应; 如果IPE在不同题目上不同, 则可以用一个概率分布(随机效应)来表示IPE。所以在EIRTM中, 设定效应为固定或随机是非常灵活的：通常作为固定效应处理的题目也可以视为随机效应(De Boeck et al., 2011), 这等于带误差项的线性逻辑斯蒂克测验模型(Linear Logistic Test Models, LLTM; Janssen, 2016; Weirich, Hecht, & Böhme, 2014)。

3.2 测验模式效应(TestMode Effect, TME)

国际大规模测评项目正在经历由纸笔测验(Paper-Based Assessment, PBA)形式向计算机化测验(Computer-Based Assessment, CBA)形式的转变。在国际学生能力评估项目(Programme for International Student Assessment, PISA) 2015的技术报告中(OECD, 2017a)将TME定义为：被试在一种测验模式(如PBA)中的表现与在同一个测验的另一种测验模式(如CBA)中的表现相比, 出现的功能性差异。TME反映的是同一测验在不同测验模式下的结果不可比问题, 它本质上是对测量不变性(measurement invariance)的研究。

为探究TME的实际影响, PISA 2015使用了3个EIRTM模型, 模型1记为TME-1：

(6)

其中i代表题目(), 当时, 表示的是PBA中的题目, 当时, 表示的是与前I道题相同的题目, 只是测验形式变成CBA; q表示变量(q= 1,2,L,Q,Q = 2I);是指示变量, 当时, 否则取0, 即是不同测验模式的虚拟编码变量;m表示模式,即TME;如前文所述, 表示题目区分度; 其余参数含义同上。假设, 于是根据模型有, 且假设。此模型表示任意PBA中的题目转换为CBA形式后, 题目难度都受到相同的TME ()影响, 但题目区分度不受影响。

第2个模型记为TME-2：

(7)

最后, 值得一提的是JAGS采用的是贝叶斯方法, 可以通过离差信息指数(Deviance InformationCriterion, DIC)来评估模型的整体拟合情况, DIC越小说明模型的预测能力越好。这4个模型中, 模型3的DIC最小(DIC = 7855.3), 即拟合最好。

第3个模型记为TME-3：

(8)

其中是另一个斜率参数, 称为模式斜率(mode slope), 反映被试的TME在不同题目上的影响不同;是另一个潜变量, 表示TME, 为随机效应。假设两个随机效应不相关, 即。类似地, 对于前I道题目而言, 其中题目j的线性成分为; 对于后I道题目而言, 其中题目j的线性成分为。此模型假设TME是基于被试的效应, 也即不同被试具有不同的TME。

综上, TME-1和TME-2采用基于题目的固定效应(和)表示TME, 而TME-3则使用基于被试的随机效应()表示TME。如果认为是不同测验模式的分组变量, 那么可以更准确地将定义为被试和模式交互的随机效应。与IPE模型相比, 建构TME模型的思路非常类似：IPE-1和TME-1都加入一个跨题目一致的固定效应; 而IPE-2和TME-2都是从题目的角度出发, 认为效应跨题目不一致性, 只不过IPE-2定义的效应是随机效应, 而TME-2定义的是固定效应; IPE-3和TME-3则都是从被试的角度出发, 认为模型都受到基于被试的随机效应的影响。

国内网间互联：DDoS统一管理平台通过骨干网运维系统对网间互联 S 路由器发送黑洞路由，实现对特定电信运营商、特定区域或全部流量封堵。

PISA采用真实数据对上述三个模型进行比较, 结果发现：TME-3的相对拟合指标最好, TME-2的结果接近TME-3, TME-1的拟合最差; 综合考虑模型的复杂性和数据拟合情况, TME-2的表现最优。基于TME-2的结果还有：绝大多数的题目满足强测量不变性(strong measurement invariance), 即斜率和难度参数在不同测验模式下不变; 部分题目满足弱测量不变性(weak measurement invariance), 即斜率参数不变、难度参数发生变化。可见, CBA的使用确实会对评估学生成绩造成影响(Cosgrove & Cartwright, 2014; Logan, 2015)。值得注意的是, Jerrim (2016)发现中国上海的学生在PISA 2015出现显著的成绩降低, 并且原因很可能就是CBA的使用。无独有偶, 新西兰教育研究委员会(New Zealand Council for Educational Research, NZCER)对PBA和CBA进行比较, 也发现学生成绩出现显著下降(Eyre, Berg, Mazengarb, & Lawes, 2017)。总之, TME的存在已被证实, 考虑TME相比不考虑修正TME能够更好地提升测验质量(Jerrim, Micklewright, Heine, Salzer, & McKeown, 2018)。

3.3 题目功能差异(Differential Item Functioning, DIF)

DIF是指具有相同能力的被试(组)在作答相同题目时出现的功能性差异, 这种差异是由被试所处群体的不同而造成的。DIF也属于测量不变性问题, 反映的是题目受到与测验无关因素的影响。

用于DIF分析的EIRTM描述如下, 记为DIF-1 (De Boeck et al., 2011)：

2.4 转归 3例患者死亡，从原发病确诊至死亡时间为7、14、77 d；死亡原因分别为合并嗜血综合征、多脏器功能衰竭，并发纵隔气肿、弥散性血管内凝血(disseminated intravascular coagulation，DIC)、多脏器功能衰竭，并发多重感染(细菌、真菌、病毒)未控制至呼吸衰竭。目前存活2例在随访中。

(9)

其中是目标组(focal group)和参照组(reference group)的总效应, 也即两组被试能力均值之差; g表示组,是被试组别的指示变量, 当被试p属于参照组时,, 当被试p属于目标组时,即题目i上DIF的效应量,本质上是被试组别和题目的交互, 而且只存在于目标组作答的题目i上, 因为这时且; 其余参数含义不变。当被试p属于目标组时, 题目j的线性成分为：; 当被试p属于参照组时, 题目j的线性成分为：。

注意此模型同时加入两个固定效应：(1)用于控制目标组和参照组的能力均值差异, 即被试群体间的真实能力差异, Osterlind和Evenson (2009)称之为“影响(impact)”。由于基于被试的组别得到, 所以它是基于被试的固定效应。如果有证据支持两组之间没有能力差异或者已经通过匹配等手段进行控制, 则可以移除此效应; (2)是被试组别和题目交互的固定效应, 反映题目难度在组别上的变化。公式(12)假定参照组中所有题目都可能存在DIF (通过指示变量定义), 实际上也可以自定义需要估计DIF的题目(如果不需要估计题目j的DIF, 则从中移除含的项即可)。如何选取需要估计DIF的题目以及是否需要将有DIF嫌疑的题目从匹配标准中排除, 则属于纯化(purification)的问题。

在IRT领域中, LPD出现的主要原因是被试群组效应(Person Clustering Effect, PCE)。选取的被试嵌套于不同的群体, 属于同一群体的被试可能受到相同的外部支持或干扰、具有同样的学习机会和采用相同的解题策略, 因而有理由认为他们的作答相似, 即存在PCE (Jiao, Kamata, Wang, & Jin, 2012)。PCE的存在使得样本量的影响变小, 从而导致有偏的参数估计。为处理PCE导致的LPD, Kamata (2001)提出三水平IRT模型, 对应的层级关系如图1所示。在EIRTM框架下进行重新公式化后, 可以得到LPD-1：

3.4 局部依赖(LocalDependence, LD)

局部独立性(Local Independence, LI)是IRT理论的基本假设之一, 与LI对立的概念是LD。LD可分为局部被试依赖性(Local Person Dependence, LPD)和局部题目依赖性(Local Item Dependence, LID)。LPD是指在给定被试能力时, 被试在不同题目的作答反应之间存在相依性; LID指题目参数已知时, 不同能力的被试在该题目上的作答反应间存在相依性(詹沛达, 王文中, 王立君, 2013)。

一些研究者基于贝叶斯方法估计DIF-1模型, 因此称之为整合的贝叶斯DIF模型(Integrated Bayesian DIF models, IBDM), IBDM的估计结果优于传统的DIF方法(Gamerman, Gonçalves, & Soares, 2018)。还有研究将此类DIF模型应用于不同的情景和算法中, 侦测出不同组别之间的DIF效应(Bechger & Maris, 2015; Tutz & Berger, 2016; Tutz & Schauberger, 2015)。总之, 虽然此类DIF模型的应用情境有所不同, 但是DIF-1模型最大的优势就是能够自由估计来自不同组别(协变量)的DIF效应。

3.突出“以人为本”，淡化“以国为本”，则个体幸福、社会和谐。古人云：“国以民为本，民以食为天。”（《史记·郦食其列传》）就明示了平民百姓相对于国家的重要性。我党领导人多次强调，“必须始终坚持以人为本、执政为民，切实贯彻党的全心全意为人民服务的根本宗旨，不断实现好、维护好、发展好最广大人民根本利益。”［19］党的指导思想之一的科学发展观将以人为本定为核心，就更加旗帜鲜明地突出了人民利益高于国家利益的社会发展取向。

(10)[10]

其中较之前的表达略有改变, 这表示以某一道题为参照题(一般取最后一题), 得到题目截距β0,β1即为题目1与参照题的难度之差, 其余以此类推; 故作为题目截距的指示变量, 取值固定为1, 其余含义不变。表示的是被试p在群体g中的PCE, 为随机效应, ; 其余参数含义不变。于是, 被试p在题目j()上的线性成分为：(注意最后一题I上的线性成分为)。此模型表示被试受到所属群体PCE的影响, 而且同一群体中的被试受到的PCE相同。

图1 题目、被试和群体的层级关系图

注：图片翻译自Jiao, Kamata和Xie (2015, p. 145) 图5.3

在IRT领域中, LID出现的主要原因是题组效应(testlet effect, TE)。题组是一组共用相同刺激材料的题目(Wang & Wilson, 2005), 因此被试对同一题组中不同题目的作答不再LI, 而存在TE。忽视TE会对测验信度、被试能力、题目难度、题目区分度参数以及DIF分析造成影响(Bolt, 2002; Ip, 2000; Lee, 2004; Wainer & Lukhele, 1997; Wainer, Sireci, & Thissen, 1991)。包含TE的IRT模型如图2的右侧三列所示, 记为LID-1 (Jiao, Wang, & Kamata, 2005)：

(11)

其中同式(10);d表示题组(); 引入指示变量, 当题目i属于题组d时,, 否则表示被试p在题组d中的TE,是随机效应, 有可以表示特定题目上的TE; 其余参数含义同上。假设题目j()属于题组1, 题目k()属于题组2, 对被试p有：。可见通过使用, 研究者可以在EIRTM中灵活定义测验的结构：无论是所有题目都基于题组构建, 还是只有部分题目基于题组构建。此模型表示TE是基于被试的随机效应, 即不同被试的TE存在差异。

图2 内容、题目、被试和题组的层级关系图

注: 图片翻译自Jiao等(2015, p. 148) 图5.5

此外, 造成LID的原因还有可能是不同题目采用相同的测验内容, 即存在内容群组效应(Content Clustering Effect, CCE)。因此, 如图2所示, 题目可以视为既嵌套于题组又嵌套于内容, 即交叉分类(cross-classified)。考虑到此时有两个造成LID的因素, 可称为双重 (dual) LID, 将此模型记为LID-2 (Xie, 2014; Xie & Jiao, 2014)：

(12)

其中和同式(14);c表示内容(); 引入指示变量, 当题目i属于内容c,, 否则表示被试p在内容c上的CCE,是随机效应, 有; 其余参数含义不变。同样地, 也可以使用灵活定义测验的内容结构。假设题目j()属于题组1且属于内容1, 于是被试p在j()上的线性成分为：。在此模型中, CCE和TE都是基于被试的随机效应, 不同被试间可以存在差异。

对于提高顾客对酒店品牌的忠实度，丁晓彤（2017）认为一是有利于保持饭店经营的效益。如果回头客增加5%，酒店利润率上升50%，而吸引回头客的成本只有一次性顾客的1/7。二是有利于降低市场营销成本。三是有利于提高顾客店内的综合消费能力。四是有利于提高酒店的知名度，忠实顾客会向社会推荐，间接宣传酒店，为酒店带来新的客源。五是有利于顾客关注和依靠品牌，并能享受到品牌提供的独特的产品价值而愿意支付更高的价格，不会被其他酒店的削价竞争诱惑[6]。

最后, 还可以将LPD和LID相结合, 即在图2右侧的被试上再加入群体, 从而构成最完整的LD模型, 记为LD-1 (Jiao et al., 2015)：

(13)

其中的参数含义同上。假设题目j属于题组1且属于内容1, 于是被试p在j()上的线性成分为：。的表示与和略有不同, 这是因为PCE与TE、CCE不属于同一个水平(层次)：(1) 对于PCE而言, 一个合理的抽样设计不会出现“某些被试属于特定群体, 而另外一些被试不属于任何群体”的情况, 这样本身就会造成被试的异质性; (2) 对于TE和CCE而言, 一个被试可能受到多个TE和CCE的影响, 因此需要通过引入指示变量和来表示某个题目上的作答是否受到TE和CCE的影响以及受到哪个题组或内容的影响。当然, 若整个测验只涉及一个题组和一个内容, 那么LD-1可以简化为：。Jiao等人(2015)基于PISA 2006的数据对LPD-1、LID-1、LID-2以及LD-1进行系统的比较, 结果发现：(1) LD-1模型的相对拟合指标最好; (2)在PCE、TE和CCE的影响中, TE影响最大, PCE最小。

综上所述, 上述模型都是基于随机效应处理LD。无论是LPD-1, 还是LID-1、LID-2, 实际上都是通过随机效应处理不同的LD, 这样可以提高IRT模型参数估计的准确性(Koziol, 2016)。实际上, 也可以通过固定效应处理题组造成的LID (参见Hoskens & De Boeck, 1997)。比如, 研究者也可以构建类似3.1和3.2节呈现的三类模型, 以系统地讨论TE的影响。

首先, 这里仅展示基于Rasch模型的EIRTM, 实际上LID模型可以轻易拓展至两参数逻辑斯蒂克(two parameter logistic, 2PL)模型(Fukuhara & Kamata, 2011), 多级记分模型(Jiao & Zhang, 2015), 以及多维模型(Fujimoto, 2018)。其次, 不同测量情境可以自由组合, LD-1是结合LID和LPD而得到。还可以在DIF-1上加入TE或PCE, 此类EIRTM相比传统DIF方法更具有优势(Jin & Kang, 2016; Teker & Dogan, 2015), 甚至可估计题组水平的DIF (Paek & Fukuhara, 2015; Ravand, 2015)。此外, 已有研究基于真实数据进行分析完形填空和阅读理解(Baghaei & Ravand, 2016)。总之, EIRTM的应用非常灵活, 研究者可以基于自身需要与前文提到的IPE、TME、DIF模型相结合, 构建功能更为强大的模型。

4 实例

此处使用言语攻击数据(Vansteelandt, 2000)对EIRTM的使用进行说明。数据包括316名学生(73名男生和243名女生)在24道题目上的作答。每个题目对应一个情境, 由3个因素决定：情境类型(本人责任, 他人责任)、行为类型(诅咒, 责备, 怒骂)和行为模式(做, 想)。共有种情境, 每种情境有2道题。具体如表1所示。

第3类模型记为IPE-3 (Hartig & Buchholz, 2012)：

将原始的三类作答(“不”、“也许”以及“是”), 转换为0(“不”与“也许”)和1(“是”)评分后, 基于JAGS (Just Another Gibbs Sampler; Plummer, 2017)软件, 采用R 语言“R2jags”包(Su & Yajima, 2015)调用控制, 对此数据进行分析。如需相关代码, 可与作者联系。出于解释的方便, 所有模型基于Rasch模型簇, 主要结果如表2所示。

模型1即为最为基本的Rasch模型, 对应的EIRTM为：

(14)

上式中记号的含义与前文一致。以被试p在第1题上的系统成分为例,, 易知对应各个题目的难度。

模型2类似3.2中的TME, 这里估计的是行为模式效应。注意模型2与TME的测验设计有所不同, 但是模型是等价的。量表的前12道题目是“想”, 后12题是“做”, 这里直接估计出行为模式的效应为−0.465(对应TME-1模型), EIRTM如下：

(15)

记号含义与前文一致。被试p在第1题上的系统成分为：, 而被试p在第13题上的系统成分为:。易知对应不同模式造成的效应。

由表4易知量表的内容(题干)能够归为4类, 对应4个随机效应。不同被试在不同内容上的都不同, 以第1个内容为例, 。当具体到被试1在题目1上的作答时, JAGS可以估计出的值为−0.398, 系统成分为: ; 被试1在题目2上作答时, 由于属于同一个内容, 系统成分为: 。

(16)

表1 24道言语攻击题目

题目行为模式情境类型行为类型一辆公交车没有进站停靠, 我想诅咒。想他人责任诅咒一辆公交车没有进站停靠, 我想责备。想他人责任责备一辆公交车没有进站停靠, 我想怒骂。想他人责任怒骂因为工作人员给我错误的信息, 我错过了火车, 我想诅咒。想他人责任诅咒因为工作人员给我错误的信息, 我错过了火车, 我想责备。想他人责任责备因为工作人员给我错误的信息, 我错过了火车, 我想怒骂。想他人责任怒骂当我刚进入商店, 商店就关门了, 我想诅咒。想自己责任诅咒当我刚进入商店, 商店就关门了, 我想责备。想自己责任责备当我刚进入商店, 商店就关门了, 我想怒骂。想自己责任怒骂我与对方的通话断了, 因为我用完了话费, 我想诅咒。想自己责任诅咒我与对方的通话断了, 因为我用完了话费, 我想责备。想自己责任责备我与对方的通话断了, 因为我用完了话费, 我想怒骂。想自己责任怒骂一辆公交车没有进站停靠, 我会诅咒。做他人责任诅咒一辆公交车没有进站停靠, 我会责备。做他人责任责备一辆公交车没有进站停靠, 我会怒骂。做他人责任怒骂因为工作人员给我错误的信息, 我错过了火车, 我会诅咒。做他人责任诅咒因为工作人员给我错误的信息, 我错过了火车, 我会责备。做他人责任责备因为工作人员给我错误的信息, 我错过了火车, 我会怒骂。做他人责任怒骂当我刚进入商店, 商店就关门了, 我会诅咒。做自己责任诅咒当我刚进入商店, 商店就关门了, 我会责备。做自己责任责备当我刚进入商店, 商店就关门了, 我会怒骂。做自己责任怒骂我与对方的通话断了, 因为我用完了话费, 我会诅咒。做自己责任诅咒我与对方的通话断了, 因为我用完了话费, 我会责备。做自己责任责备我与对方的通话断了, 因为我用完了话费, 我会怒骂。做自己责任怒骂

表2 24道言语攻击题目的固定效应

题目模型1模型2模型3模型4 bqbq行为模式bqDIF95%置信区间bq 1−1.162−1.148−1.196−0.101(−0.723, 0.549)−1.248 2−0.546−0.531−0.574−0.104(−0.717, 0.505)−0.584 3−0.091−0.074−0.134−0.171(−0.777, 0.431)−0.101 4−1.657−1.641−1.727−0.261(−0.934, 0.449)−1.800 5−0.681−0.667−0.729−0.182(−0.800, 0.433)−0.746 6−0.026−0.011−0.184−0.684(−1.293, −0.070)−0.031 7−0.512−0.496−0.4950.103(−0.507, 0.721)−0.617 80.6300.6430.7510.535(−0.067, 1.151)0.689 91.4301.4511.338−0.455(−1.153, 0.240)1.610 10−1.014−0.998−1.071−0.221(−0.853, 0.415)−1.221 110.3120.3290.3620.231(−0.376, 0.826)0.354 120.9630.9820.866−0.454(−1.104, 0.185)1.132 13−1.145−1.580−0.465−1.0660.426(−0.251, 1.108)−1.225 14−0.383−0.820−0.465−0.2150.792(0.156, 1.420)−0.412 150.8200.381−0.4650.786−0.133(−0.767, 0.487)0.885 16−0.822−1.260−0.465−0.6181.006(0.352, 1.706)−0.895 170.035−0.404−0.4650.2631.019(0.409, 1.648)0.042 181.3720.933−0.4651.4220.222(−0.417, 0.879)1.498 190.200−0.240−0.4650.3930.864(0.280, 1.481)0.199 201.3900.956−0.4651.5790.750(0.093, 1.390)1.563 212.7112.277−0.4652.7750.244(−0.615, 1.062)3.034 22−0.660−1.106−0.465−0.5480.568(−0.068, 1.205)−0.801 230.363−0.080−0.4650.4880.546(−0.059, 1.146)0.416 241.8671.427−0.4651.799−0.359(−1.138, 0.375)2.202

这里将女性作为参照组(), 男性作为目标组()。所以女生p在题目1上的系统成分为：, 男性m在题目1上的系统成分为：。对应题目的DIF效应量, 结合提供的95%的置信区间, 就可以直接判断是否显著。此处, 第6、14、16、17、19、20题的DIF效应显著。

④[美]弗朗西斯·福山：《政治秩序的起源：从前人类时代到法国大革命》（毛俊杰译），广西师范大学出版社，2014，第 395-396 页。

模型4考虑的是3.4中提到的CCE, 对应的EIRTM如下：

(17)

模型3对应3.3中的DIF模型, 出于说明的方便, 这里没有讨论男女组能力均值不同的情况, 对应的EIRTM公式如下：

其中变为, 对于某些题目而言, 可能为0, 即不同测验模式的难度不变, 不存在TME; 有些题目的则不为零, 即存在TME。其余参数含义同上。对于前I道题目而言, 因为, 所以, 于是前I道题目中的题目j的线性成分为; 对于后I道题目而言, 因为, 所以其中题目j的线性成分为。此模型假设PBA中的题目转换为CBA形式后, 不同题目具有不同的TME。

5 讨论与展望

5.1 将EIRTM用于测量不变性研究

本文的第3部分详细介绍了如何使用EIRTM检测IPE、TME以及DIF, 这些都反映EIRTM能够方便地处理测量不变性问题：IPE是题目位置对测量不变性的影响, TME是测验形式对测量不变性的影响, DIF是受测群体对测量不变性的影响。通过EIRTM处理测量不变性问题可以解决传统IRT方法(即“两步法”)的困境：如果测量不变性不满足, 那么IRT得到的参数估计本身就是有偏的; 基于有偏的参数估计, 并不能得到可信的结果。因此即使基于“两步法”证明数据满足测量不变性, 也有可能是不准确的参数估计造成的。

此外, EIRTM可以构建全面的测量不变性模型, 得到尽可能准确的参数估计结果。读者可能已经意识到, 鉴于EIRTM的灵活性, 可以将第3部分中提到的模型进行整合, 得到一个既能估计IPE、TME和DIF, 又考虑LD的模型。换言之, 只要符合研究实际, 研究者可以一步到位, 同时处理多个测量问题。

最后, EIRTM可以将测量不变性问题与解释性分析相结合, 也即在估计IPE、TME或DIF的同时, 也考虑被试和题目特征的影响。此类模型能够通过控制测量不变性的相关效应, 得到更为准确的被试和题目效应; 反之亦然。实际上, DIF-1就是在控制组别的固定效应后, 再估计DIF效应。

5.2 通过EIRTM构建综合性的分析框架

EIRTM提供一个统一而灵活的IRT模型框架, 并且越来越受到研究者重视。受限于篇幅和主旨, 本文没法更全面地展示EIRTM与现有IRT模型的转换关系, 除本文涉及的模型外, 使用EIRTM还可以建构多级记分的IRT模型和多维IRT模型、动态Rasch模型(Dynamic Rasch Models)、纵向IRT模型以及含反应时的IRT模型等等(参见De Boeck & Wilson, 2004; Klein Entink, Kuhn, Hornke, & Fox, 2009; Rijmen et al., 2003; Wilson, Zheng, & McGuire, 2012)。以EIRTM为代表的广义建模方法(Generalized Modeling Approaches)具有诸多优越性, 目前已经得到业内研究者的重视。在新编著的《项目反应理论手册(第一卷)：模型》(HandbookofItem Response Theory, Volume One: Models;van der Linden, 2016)的最后一部分, 专门介绍了4种广义建模方法, 这值得国内研究者重视。

此外, EIRTM还体现了IRT模型和回归模型的共性。传统的心理和教育测量领域中, 很少有研究者注意到回归模型、GLM、HLM和IRT模型之间的联系：在回归模型的基础上, 加入随机效应, 可以推广至HLM; 引入连接函数, 可以得到GLM; 同时加入随机效应和连接函数, 可以得到EIRTM。这一综合的分析框架, 不仅有助于研究者深入认识以IRT为代表的现代测量理论与经典回归分析的联系, 也有利于相应的教学和实践活动。

5.3 EIRTM的应用前景与不足

EIRTM具有广阔的应用前景, 可以广泛应用于心理和教育测量领域中。除了上文所述的通过EIRTM建构合理的测量模型以外, EIRTM还可用于分析复杂表现任务(complex performance task)。对于复杂表现任务进行评价, 是教育与心理测量领域面临的新挑战(Mislevy, 2016)。比如, PISA 2015就使用合作问题解决任务, 以展示学生在动态、交互情景中的表现(OECD, 2017b)。EIRTM以其灵活的框架为评价复杂表现任务提供了一种解决思路, 通过EIRTM可以将涉及的任务属性的特征纳入模型, 从而得到被试能力的准确估计。

(2) 连接函数, 即用于连接观测变量的期望和系统成分, 记为, 其中表示连接函数。在IRT领域中, 可以使用probit连接函数和logit连接函数, 它们分别对应正态肩形模型(normal-ogive models)和逻辑斯蒂克模型(logistic models)。

致谢：感谢美国罗格斯大学心理测量专业在读博士孙研对本文的英文摘要进行修改和润色, 感谢北京师范大学中国基础教育质量监测协同创新中心的薛明峰同学和统计学院的任赫同学对文章内容的修正。

参考文献

刘红云, 骆方. (2008). 多水平项目反应理论模型在测验发展中的应用. 心理学报,40(1), 92–100.

聂旭刚, 陈平, 张缨斌, 何引红. (2018). 题目位置效应的概念及检测. 心理科学进展,26(2), 368–380.

詹沛达, 王文中, 王立君. (2013). 项目反应理论新进展之题组反应理论. 心理科学进展,21(12), 2265–2280.

Adams, R. J., Wu, M. L., & Wilson, M. R. (1988). ACER ConQuest: Generalised item response modelling software [Computer software]. Melbourne, Victoria, Australia: Australian Council for Educational Research.

Baghaei, P., Ravand, H. (2016). Modeling local item dependence in cloze and reading comprehension test items using testlet response theory. Psicologica: International Journal of Methodology and Experimental Psychology, 37(1), 85–104.

Bates, D., Mächler, M., Bolker, B. M., & Walker, S. C (2015). Fitting linear mixed-effects models using LME4. Journal of Statistical Software, 67(1), 1–48.

医院发展因面临形势、政策、自身所处阶段和员工的需求而出现变化。秦环龙表示，首先，根据申康中心“转方式、调结构、转机制”的要求，他提出五个转型，但这个五个转型是有前提、有基础的，就是学科的基本实力、医院软硬件的程度、内部运行管理水平等条件成熟，转型方可开始。“如果基础很差，就转型不过去；如果拖延，就耽误时机。就是要恰到好处、恰逢其时才能顺利转型发展。”其次，“申康绩效考核就像是一个指挥棒，让院长有抓手，进而推动医院的建设和发展，绩效考核的主要内涵，落地的就是我们五个转型的内容。”再次，医院自身由原来的粗犷型发展逐步转向内涵建设发展需求。

Bechger, T. M., Maris, G. (2015). A statistical test for differential item pair functioning. Psychometrika, 80(2), 317–340.

Binet, A., & Simon, T. (1904). Méthodes nouvelles pour le diagnostic du niveau intellectuel des anormaux. L'année Psychologique,11(1), 191–244.

Birnbaum, A. (1968). Some latent trait models and their use in inferring an examinee’s ability. In F. M. Lord & M. R. Novick (Eds.), Statistical theories of mental test scores (pp. 392–479). Reading, MA: Addison-Wesley.

Bock, R. D., & Aitkin, M. (1981). Marginal maximum likelihood estimation of item parameters: Application of an EM algorithm. Psychometrika,46(4), 443–459.

Bock, R. D., & Lieberman, M. (1970). Fitting a response model for ndichotomously scored items. Psychometrika, 35(2), 179–197.

Bolker, B. M., Brooks, M. E., Clark, C. J., Geange, S. W., Poulsen, J. R., Stevens, M. H. H., & White, J. S. S. (2009). Generalized linear mixed models: A practical guide for ecology and evolution. Trends in Ecology & Evolution,24(3), 127–135.

Bolt, D. M. (2002). A Monte Carlo comparison of parametric and nonparametric polytomous DIF detection methods. Applied Measurement in Education, 15(2), 113–141.

Cosgrove, J., & Cartwright, F. (2014). Changes in achievement on PISA: The case of Ireland and implications for international assessment practice. Large Scale Assessments in Education,2(2), 1–17.

Debeer, D., & Janssen, R. (2013). Modeling item-position effects within an IRT framework. Journal of Educational Measurement, 50(2), 164–185.

Debeer, D., Buchholz, J., Hartig, J., & Janssen, R. (2014). Student, school, and country differences in sustained test-taking effort in the 2009 PISA reading assessment. Journal of Educational and Behavioral Statistics, 39(6), 502–523.

De Boeck, P., Bakker, M., Zwitser, R., Nivard, M., Hofman, A., Tuerlinckx, F., & Partchev, I. (2011). The estimation of item response models with the lmer function from the lme4 package in R. Journal of Statistical Software,39(12), 1–28.

De Boeck, P., & Wilson, M. (2004). Explanatory item responsemodels: A generalized linear and nonlinear approach. New York, NY: Springer.

De Boeck, P., Wilson, M. R. (2016). Explanatory response models. In W. J. van der Linden (Ed.), Handbook of Item Response Theory, Volume One: Models (pp. 565–580). New York, NY: Chapman and Hall/CRC.

Eyre, J., Berg, M., Mazengarb, J., & Lawes, E. (2017). Mode equivalency in PAT: Reading comprehension. Wellington: NZCER.

Fujimoto, K. A. (2018). A general Bayesian multilevel multidimensional IRT model for locally dependent data. British Journal of Mathematical and Statistical Psychology, 71(3), 536–560.

Fukuhara, H., & Kamata, A. (2011). A bifactor multidimensionalitem response theory model for differential item functioning analysis on testlet-based items. Applied Psychological Measurement, 35(8), 604–622.

Gamerman, D., Gonçalves, F. B., Soares, T. M. (2018). Differential item functioning. In W. J. van der Linden (Ed.), Handbook of Item Response Theory, Volume Three: Applications (pp. 67–86). New York, NY: Chapman and Hall/CRC.

Gill, J. (2000). Generalized linear models: A unified approach (Vol. 134). Thousand Oaks, CA: Sage Publications.

Hartig, J., & Buchholz, J. (2012). A multilevel item response model for item position effects and individual persistence. Psychological Test and Assessment Modeling, 54(4), 418–431.

Hohensinn, C., Kubinger, K. D., Reif, M., Schleicher, E., & Khorramdel, L. (2011). Analyzing item position effects due to test booklet design within large-scale assessment. Educational Research and Evaluation, 17(6), 497–509.

Hoskens, M., & De Boeck, P. (1997). A parametric model for local dependence among test items. Psychological Methods,2(3), 261–277.

Ip, E. H. (2000). Adjusting for information inflation due to local dependency in moderately large item clusters. Psychometrika, 65(1), 73–91.

Janssen, R. (2016). Linear Logistic Models. In W. J. van der Linden (Ed.), Handbook of Item Response Theory, Volume One: Models (pp. 211–224). New York, NY: Chapman and Hall/CRC.

Jeon, M., Rijmen, F., & Rabe-Hesketh, S. (2013). Modeling differential item functioning using a generalization of the multiple-group bifactor model. Journal of Educational and Behavioral Statistics, 38(1), 32–60.

Jeon, M., Rijmen, F., & Rabe-Hesketh, S. (2014). Flexible item response theory modeling with FLIRT. Applied Psychological Measurement,38(5), 404–405.

Jerrim, J. (2016). PISA 2012: How do results for the paper and computer tests compare? Assessment in Education: Principles, Policy & Practice, 23(4), 495–518.

Jerrim, J., Micklewright, J., Heine, J. H., Salzer, C., & McKeown, C. (2018). PISA 2015: How big is the ‘mode effect’ and what has been done about it? Oxford Review of Education,44(4), 476–493.

Jiao, H., Kamata, A., Wang, S., & Jin, Y. (2012). A multilevel testlet model for dual local dependence. Journal of Educational Measurement, 49(1), 82–100.

Jiao, H., Kamata, A., & Xie, C. (2015). Multilevel cross-classified testlet model for complex item and person clustering in item response data analysis. In J. R. Harring, L. M. Stapleton & S. N. Beretvas (Eds.), Advances in multilevel modeling for educational research: Addressing practical issues found in real-world applications (pp. 139–161). Charlotte, NC: Information Age Publishing Inc.

Jiao, H., Wang, S. D., & Kamata, A. (2005). Modeling local item dependence with the hierarchical generalized linear model. Journal of Applied Measurement, 6(3), 311–321.

Jiao, H., Zhang, Y. (2015). Polytomous multilevel testlet models for testlet-based assessments with complex sampling designs. British Journal of Mathematical and Statistical Psychology, 68(1), 65–83.

Jin, Y., Kang, M. (2016). Comparing DIF methods for data with dual dependency. Large-scale Assessments in Education, 4(1), 18.

Kamata, A. (2001). Item analysis by the hierarchical generalized linear model. Journal of Educational Measurement, 38(1), 79–93.

Kang, C. (2014). Linear and nonlinear modeling of item position effects (Unpublished master’s thesis). Universityof Nebraska-Lincoln.

Klein Entink, R. H., Kuhn, J. T., Hornke, L. F., & Fox, J. P. (2009). Evaluating cognitive theory: A joint modeling approach using responses and response times. Psychological methods,14(1), 54–75.

Koziol, N. A. (2016). Parameter recovery and classification accuracy under conditions of testlet dependency: A comparison of the traditional 2PL, testlet, and bi-factor models. Applied Measurement in Education, 29(3), 184–195.

Lee, Y. (2004). Examining passage-related local item dependence (LID) and measurement construct using Q3 statistics in an EFL reading comprehension test. Language Testing, 21(1), 74–100.

Logan, T. (2015). The influence of test mode and visuospatialability on mathematics assessment performance. Mathematics Education Research Journal, 27(4), 423–441.

Mislevy, R. J. (2016). How developments in psychology and technology challenge validity argumentation. Journal of Educational Measurement,53(3), 265–292.

OECD. (2017a). PISA 2015 technical report. Pairs: OECD Publishing.

OECD. (2017b). PISA 2015 assessment and analytical framework: Science, reading, mathematic, financial literacyand collaborative problem solving, Paris: OECD Publishing. Retrieved from http://dx.doi.org/10.1787/9789264281820-en.

Osterlind, S. J., & Everson, H. T. (2009). Differential item functioning (Vol. 161). Thousand Oaks, CA: Sage Publications.

Paek, I., Fukuhara, H. (2015). Estimating a DIF decomposition model using a random-weights linear logistic test model approach. Behavior Research Methods, 47(3), 890–901.

Plummer, M. (2017). JAGS version 4.3.0 user manual [Softwaremanual]. Retrieved from https://martynplummer.wordpress.com/ 2017/07/18/jags-4-3-0-is-released/

Rabe-Hesketh, S., Skrondal, A. (2016). Generalized linear latent and mixed modeling. In W. J. van der Linden (Ed.), Handbook of Item Response Theory, Volume One: Models (pp. 503–526). New York, NY: Chapman and Hall/CRC.

Rabe-Hesketh, S., Skrondal, A & Pickles, A. (2004). GLLAMMmanual[Software manual]. (U. C. Berkeley Division of Biostatistics Working Paper Series, 160)

Raudenbush, S. W., Bryk, A. S., Cheong, Y. F., Congdon Jr, R. T., & Toit, M. D. (2011). HLM7 hierarchical linear and nonlinear modeling manual [Software manual]. Lincolnwood, IL: SSI Scientific Software International Inc.

Ravand, H. (2015). Assessing testlet effect, impact, differential testlet, and item functioning using cross-classified multilevel measurement modeling. SAGE Open, 5(2).

Rijmen, F. (2006). BNL: A Matlab toolbox for Bayesian networks with logistic regression (Tech. Rep.). Amsterdam, the Netherlands: VU University Medical Center.

Rijmen, F., Tuerlinckx, F., De Boeck, P., & Kuppens, P. (2003). A nonlinear mixed model framework for item response theory. Psychological Methods, 8(2), 185–205.

SAS Institute. (2015). SAS/STAT 14.1: user's guide [Software manual]. Cary, NC: SAS Institute Inc.

Spiegelhalter, D., Thomas, A., Best, N., & Lunn, D. (2014). OpenBUGS (Version 3.2.3) [Software manual]. Retrieved from, http://www.openbugs.net/Manuals/Manual.html.

Stroup, W. W. (2012). Generalized linear mixed models: Modern concepts, methods and applications. Boca Raton, FL: CRC press.

Su Y, Yajima M (2015). R2jags: A Package for Running JAGS from R [Computer software]. Retrieved from http:// CRAN.R-project.org/package=R2jags.

Teker, G. T., Dogan, N. (2015). The Effects of testlets on reliability and differential item functioning. Educational Sciences: Theory and Practice, 15(4), 969–980.

Thissen, D. (1991). MULTILOG [Software manual]. Lincolnwood, IL: Scientific Software.

Trendtel, M., Robitzsch, A. (2018). Modeling item position effects with a Bayesian item response model applied to PISA 2009–2015 data. Psychological Test and Assessment Modeling, 60(2), 241–263.

Tutz, G., Berger, M. (2016). Item-focussed trees for the identification of items in differential item functioning. Psychometrika, 81(3), 727–750.

Tutz, G., Schauberger, G. (2015). A penalty approach to differential item functioning in Rasch models. Psychometrika, 80(1), 21–43.

van der Linden, W. J. (2016). Handbook of Item Response Theory, Volume One. New York, NY: Chapman and Hall/CRC.

van der Linden, W. J. (2018). Handbook of Item Response Theory, Volume Three: Applications. New York, NY: Chapman and Hall/CRC.

Vansteelandt, K. (2000). Formal models for contextualized personality psychology (Unpublished doctoral dissertation). K.U. Leuven, Belgium.

Wainer, H., & Lukhele, R. (1997). How reliable are TOEFL scores? Educational and Psychological Measurement, 57(5), 741–758.

Wainer, H., Sireci, S. G., & Thissen, D. (1991). Differential testlet functioning definitions and detection (Research Rep. 91-21). Princeton NJ: ETS.

Wang, W. C., & Wilson, M. (2005). Assessment of differential item functioning in testlet-based items using the Rasch testlet model. Educational and Psychological Measurement,65(4), 549–576.

Weirich, S., Hecht, M., Böhme, K. (2014). Modeling item position effects using generalized linear mixed models. Applied Psychological Measurement, 38(7), 535–548.

Weirich, S., Hecht, M., Penk, C., Roppelt, A., Böhme, K. (2017). Item position effects are moderated by changes in test-taking effort. Applied psychological measurement, 41(2), 115–129.

Wilson, M., Zheng, X. H., & McGuire, L. (2012). Formulating latent growth using an explanatory item response model approach. Journal of Applied Measurement,13(1), 1–22.

Xie, C. (2014). Cross-classified modeling of dual local item dependence(Unpublished doctoral dissertation). University of Maryland, College Park, MD.

Xie, C., & Jiao, H. (2014, April). Cross-classified modeling of dual local item dependence. Paper presented at the Annual Meeting of the American Educational Research Association, Phliadelphia, PA.

[1] 不包括以三参数逻辑斯蒂克模型(Birnbaum, 1968)为代表的混合模型(mixture models)。

[2] 不同的测验情境是指不同的题本、不同的被试群体或者不同的测验形式等等, 本质上就是IRT研究中的多组分析(multiple group analysis)。

[3]在IRT模型中引入随机效应看似不常见, 但EM算法的最大边际似然估计(Maximum Marginal Likelihood Estimation with EM, MMLE/EM)就是将伴随参数(incidental parameter, 即能力参数)视为随机效应(Bock & Aitkin, 1981; Bock & Lieberman, 1970)。

[4]这些概念经常用于多层线性模型(Hierarchical Linear Model, HLM)中。本质上, 随机效应对应的随机系数回归方法(random coefficients approach)也被称为分层回归方法或多水平回归方法(hierarchical or multilevel regression approach)。

[5]公式(2)是基于IRT模型改写的：(1) 此处对应题目i的难度(), 即。此表达没有截距, 也就是忽略的均值; (2) 另一种常见写法是, 其中的可以理解为题目容易度(item easiness); (3) 还有一种写法是将第一题作为参照题, 截距为, 下标从0开始直到q-1结束, 而且, 这种写法多用于多水平IRT模型。

[6] 据此, 公式(2)可以表示成更简洁的矩阵形式：。虽然矩阵形式在统计领域更为常见, 但考虑到解释的便利和研究的实际, 本文统一使用指示变量(虚拟变量)组织公式。

[7]其实也可以说, GLMM是NLMM的特例(Rijmen et al, 2003), 因为NLMM既能刻画非线性关系又能描述线性关系。

[8]上文所述的OpenBUGS 是WinBUGS 的后续开源版本, 两者几乎相同, 详见https://www.mrc-bsu.cam.ac.uk/software/bugs/。

[9]此处仅假设IPE为线性变化, 更复杂的非线性情况可以表示为k的二次函数等(参见Kang, 2014; Trendtel & Robitzsch, 2018)

[10]原始公式基于多层广义线性模型(Hierarchical Generalized Linear Model, HGLM), 对GLMM增加限制条件就能得到HGLM (De Boeck & Wilson, 2004)。此处保留了HGLM使用“+”连接被试和题目参数(此时解释为题目容易度), 并使用其中一个题目作为参照(故下标从0开始, 结束)的习惯。此外, 用替换了文献中表示PCE的。这样处理的目的是希望读者能够理解EIRTM框架和HGLM的共性和符号注释上的细微差异。由于HGLM从属于GLMM的框架, 也就是说多水平IRT模型(Multilevel Item Response Theory Model)都可通过EIRTM构建。

Explanatory item response theory models: Theory and application

CHEN Guanyu; CHEN Ping

(Collaborative Innovation Center of Assessment toward Basic Education Quality, Beijing Normal University, Beijing 100875, China)

Abstract: Explanatory item response theory models (EIRTM) refer to a family of item response theory (IRT) models that are constructed based on the generalized linear mixed models and nonlinear mixed models. EIRTM can be utilized to address various measurement problems by incorporating predictors into IRT models. First, the relevant concepts and parameter estimation methods of EIRTM are introduced in this paper, followed by the procedures regarding how to use EIRTM to account for the item position effect, test mode effect, differential item functioning, local person dependence, and local item dependence. Next, an example is provided to illustrate the use of EIRTM. Finally, the shortcomings and potential applications of EIRTM are discussed.

Key words: explanatory item response theory; generalized linear mixed models; nonlinear mixed models; measurement invariance; explanatory measurement

分类号B841

DOI:10.3724/SP.J.1042.2019.00937

收稿日期:2018-06-07

* 国家自然科学基金青年基金项目(31300862), 东北师范大学应用统计教育部重点实验室开放课题(KLAS130028732)和中国基础教育质量监测协同创新中心研究生自主课题(BJSM-2016A1-16004)资助。

通信作者:陈平, E-mail: pchen@bnu.edu.cn

标签：模型论文; 题目论文; 效应论文; 变量论文; 测验论文; 哲学论文; 宗教论文; 心理学论文; 心理学研究方法论文; 《心理科学进展》2019年第5期论文; 国家自然科学基金青年基金项目(31300862) 东北师范大学应用统计教育部重点实验室开放课题(KLAS130028732) 中国基础教育质量监测协同创新中心研究生自主课题(BJSM-2016A1-16004)论文; 北京师范大学中国基础教育质量监测协同创新中心论文;