郑泽宁:一种新的自尊测量技术:计算机化自适应测量论文

郑泽宁:一种新的自尊测量技术:计算机化自适应测量论文

摘要:以项目反应理论(IRT)为基础,开发了一种新的自尊测量技术——计算机自适应测验.通过单维性检验、局部独立性检验、区分度和项目功能差异检验进行试题筛选,建立了由高质量的110题组成自尊题库.研究结果显示:在CAT下,被试平均只需作答不到10题就能达到以往110题的效果(2者的相关达0.94以上),而且此时IRT的边际信度为0.91.即该自尊的CAT测量不仅有较高的测量精度,还可以大大减轻被试的测试负担;同时,与传统的纸笔测验(P&P)不同,该文对国内外多个不同的自尊量表进行整合,从而避免了因量表不同而产生的测量偏差,并真正实现了对具有不同自尊水平被试的因人施测(个性化测试),从而达到自尊的高效、快速、准确的测量效果.因此,该研究为自尊的测量提供了新的技术及方法支持.

关键词:自尊;计算机自适应测验;项目反应理论

0 引言

计算机自适应测验(Computerized Adaptive Testing,CAT)是近年来发展起来的一种新的测量形式,该测量以项目反应理论(Item Response Theory,IRT)为基础,以计算机技术为手段,在题库建设、选题策略等方面形成了一套理论和方法.与传统的纸笔测验相比,CAT可以实现因人而异地选题、施测.CAT依据每位被试当前的实际作答情况来调整出题策略、选取下一个合适的题目,最终给予被试一个恰当的评价.其次,CAT能够精确地测量被试的能力,每次挑选出匹配估计能力的信息量最大的题目,与传统的纸笔测验相比,可以用更少的题目达到更高的测量精度,并且有效减少天花板和地板效应[1].CAT的测验时间和程序较为灵活、快速,由于每人所测试题目不同,所以并不需要固定时间.

目前,CAT在很多领域得到了广泛应用,教育类考试如TOEFL、GRE等都是采用这种形式;美国医生护士资格考试以及军事服役职业能力倾向成套测验也相继推出了CAT版本.近年来,CAT技术已逐渐应用于人格测验、临床评定量表等方面,如MMPI-2、MMPI-A、MASS、EORTC QLQC、ICQ 等成熟量表已发展出相应的CAT 测验.

自尊(self-esteem,SE)是自我概念中一个极为重要的成分,它是个体有关自我的一系列评价.关于自尊的研究由来已久,它也是心理学领域研究最多的课题之一[2].大量研究表明,自尊作为最重要的保护因素之一,与个体社交障碍、心理障碍的发展方面息息相关[3-6].目前对于自尊水平的测量主要采取自我报告的方法,并且存在超过200种的自尊量表,其中国外常用的有M. Rosenberg自尊量表(SES)[7]、S. Coopersmith自尊问卷(CSEI)[8]、I.L. Janis等[9]缺陷感量表(FIS)、德克萨斯社会行为问卷(TSBI)[10]、2维自尊量表(SLCS-R)[11]以及身体自尊量表(BES)[12]等;而国内主要有黄希庭等[13]编制的自我价值感量表、魏运华[14]的儿童自尊量表等的自我描述问卷等.

不同学者采用不同量表对自尊水平进行测量,可能会造成自尊的测量结果出现一定程度的偏差,从而对实验结论产生影响;其次,这些量表都是基于经典测量理论(classical test theory,CTT)下固定测验长度、固定测验顺序的测验形式,被试需要作答全部题目才能呈现结果,耗费大量人力物力,且不同量表之间无法等值,不好进行比较.而将CAT技术运用于自尊的测量,可对几个知名的自尊量表进行整合,有效避免传统纸笔测验下产生的种种弊端,因此,本实验基于项目反映理论,为自尊的测量提供一种全新的高效、快速、准确且因人而异的测量技术.

3.4 完善的国家足球赛事体系 英国职业足球联赛体系分为7个组级,分别从STEP1~STEP7,每一个组级里又包含了许多级别的联赛赛事。整体上各组级赛事基本以如下方式进行排列:国家级联赛—国家级大区联赛—大区联赛超级组—大区联赛甲级组—各郡联赛(图2)。58种不同类型的联赛,共计84个组别,1 000多支球队参与,共同构成了英国国家足球联赛体系。

1 研究过程

1.1 研究对象

在浙江与江西2省的2所中学发放问卷2 251份,回收有效问卷1 754份,有效率为77.9%;被试年龄为10~15岁,平均年龄为(12.98±0.89)岁;其中来自城镇的被试有842人,来自农村的被试有912人;男性被试837人,女性被试917人;初一年级748人,初二年级664人,初三年级342人.

1.2 测量工具

本研究在现代测量理论之项目反应理论(item response theory,IRT)框架下,开发自尊计算机化自适应测验(CAT-SE)的题库.IRT采用数据数学建模的思路,描述被试的潜在特质与项目特征是如何影响被试的得分概率.而这些数学模型是建立在数据单维性、局部独立性等假设之下,因此对于数据是否符合这些假设需要进一步检验,以保证IRT分析的科学性和可靠性.

基于对资本主义社会的考察,卢卡奇创造性地吸收了马克思的商品拜物教理论以及马克思·韦伯关于合理化的原则,创立出他的物化批判理论。

以上5个量表共152题,不存在重复项目,所有被试均被要求在规定时间内完成作答.5个量表具体介绍如下.

党的十六大以科学发展观为指导,形成了建设生态文明的战略思想。党的十七大把生态文明建设列入全面建设小康社会奋斗目标的新要求并作出战略部署。党的十八大报告更是把生态文明建设放在事关全面建设小康社会非常突出的战略地位,指出只有树立尊重自然、顺应自然、保护自然的生态文明理念,才能实现人与自然和谐相处,实现人的全面发展。这种认识已深入社会主义现代化建设的各项事业,高校也不例外。校园文化建设是高校教育的重要组成部分,对青年大学生的成长成才,特别是实现自我教育与自我塑造,有着至关重要的作用。如何将生态文明建设充分融入高校校园文化建设,用生态理念指导校园文化建设,对高校全面、协调、可持续发展具有重要意义。

1.2.1 Rosenberg自尊量表(SES) 采用M. Rosenberg[7]编制,王孟成等[21]修订的中文版自尊量表.该量表由10个项目组成,采用4级记分,由1(很不符合)~4(非常符合),总分在10~40之间,得分越高,自尊感越强.本研究中该量表的内部一致性系数α为0.865.

局部独立性是IRT理论的前提,通过局部独立性检验及Q3指标值可知:137题中有17题不符合局部独立性的假设,给予删题,剩余120题.

2.1 两组患者术前、术后心肌损伤标志物含量比较 术后,两组患者H-FABP、CK-MB、cTnⅠ均高于本组术前,且A组高于B组,差异均有统计学意义(P<0.05,表1)。

(3)思想政治教育与叙事医学教育相结合,提升医学生叙事沟通能力。现今的医患关系,大多集中谈论自主、权力、协商、合作等主题[9]。医学生必须具备良好的沟通能力,以适应时代与职业要求。思想政治教育可以与叙事医学相结合,通过提升医学生叙事能力来实现增强沟通能力、就业能力、职业素质的目标。在实践中可以从改革教育目标、整合教育资源、创新教育载体、丰富教育手段、构建联动机制、完善评价体系等方面入手,促进其融合,指引医学生树立正确的道德观、伦理观、价值观、职业观,共同促进医学生综合素质的全面提升。

1.2.3 Janis和Field缺陷感量表(FIS) 该量表由36个项目组成,采用7级记分,由0(从来没有)~6(总是如此),总分在0~216之间,得分越高,自尊感越强.本研究中该量表的内部一致性系数α为0.947.

1.2.4 自我价值感量表(ASES) 采用黄希庭等[13]编制的《青年学生自我价值感量表》,去除其中道德价值感与生理价值感16题,剩余40题,采用5级记分,由1(非常不符合)~5(非常符合),总分在40~250之间,得分越高,自尊感越强.本研究中该量表的内部一致性系数α为0.945.

针对国外媒体认为中国共产党开展群众路线活动更多的是基于政治经济层面的考量这一观点,剖析其研究方法我们就会发现,这一观点走入了一个大部分研究中国共产党的国外学者都存在的误区,那就是用世界政党发展的一般规律来看待中国共产党的发展。诚然,世界上大部分执政党进行自身改革的最大动因必然存在于政治、经济方面。但是,由这一观点出发的国外学者往往忽略了一个问题,那就是中国共产党并不是一个一般性政党,它当然有着一般政党具有的特点,但是其特殊性也是显而易见的。因此,如果忽略了这一点,仅仅认为群众路线教育实践活动是中国共产党在面临政治经济困局的情况下的应时之作,这样得出的结论就难免会流于主观,缺乏说服力。

2.1.2 模型比较与选择 研究采用资料模型拟合检验的方法,从适用于多级评分的拓广分部评分模型(GPCM)、称名反应模型(RSM)和等级反应模型(GRM)3个IRT模型中选择最恰当的模型进行参数估计和数据分析.资料模型拟合检验采用相对拟合指标AIC、BIC、-2Log Likelihood进行评估,拟合指数越小,表明模型拟合越好.

2 研究方法

2.1 CAT-SE的题库建设

通过大量文献资料显示,Rosenberg自尊量表、Coopersmith自尊问卷、Janis和Field缺陷感量表和2维自尊量表等4个量表为国内外最为常用的测量自尊的量表,并被经常作为效标、研究手段进行使用,具有较高的测量信度和效度[15-19].自我价值感量表是我国本土化的自尊量表,是评估青少年自我价值感使用最广泛的工具之一[20].鉴于此,该文主要采用以上5个国内外相对较知名的自尊量表,并根据这些量表来构建自尊计算机化自适应测验(computerized adaptive testing for self-esteem,CAT-SE)的题库.

称取长柄扁桃粕(苦杏仁苷质量含量5.67%,野黑樱苷未检出)10份,每3份作为一组,三组分别加入2.5、5.5、10.0 mg的苦杏仁苷标准品,再分别加入0.1、0.2、0.5 mg的野黑樱苷标准品,1份留做空白,按照1.2.3.2方法处理,液相测定。计算长柄扁桃粕中平均加标回收率,结果见表1。

研究采用SPSS 24.0、R 3.31软件包2个软件进行数据分析和处理.

1.2.5 2维自尊量表(SLCS-R) 采用R.W. Tafarodi等[11]编制,张进辅等[22]修订的中文版量表.该量表共由16个项目组成,采用5级记分,由1(非常不符合)~5(非常符合),总分在16~80之间,得分越高,自尊感越强.本研究中该量表的内部一致性系数α为0.915.

3.1.2 模型比较与选择 由表1可知,在3个多级评分的IRT模型中,等级反应模型(GRM)在-2Log Likelihood、AIC、BIC 3个相对拟合指标上的数值都是最低的,即拟合效果最佳.因此,在后续IRT分析研究中均采用GRM模型进行项目的参数估计和CAT模拟与评估.

2.1.4 项目区分度分析 具有良好区分度的项目质量高,能将不同水平的被试区分开来,对于被试能力的测量也更准确.因此,在IRT中,项目区分度是衡量题目质量非常重要的指标.为了保证CAT-SE题库项目的高质量,删除区分度小于0.7的项目[27].

2.1.5 项目功能差异(DIF) 项目功能差异检验用于探究是否出现由于群体不同而导致的系统误差[28].本文使用McFadden′s pseudo R2对性别、城乡2个变量进行检验,当R2改变量大于0.02时,表明此项目存在DIF,需要删除[29].

2.2 CAT-SE算法、效果验证

CAT算法包括初始能力值、选题策略、能力估计方法以及终止规则等方面.本文将被试初始能力值定为0,使用最大信息量作为选题策略,使用期望后验法(Expected A Posteriori,EAP)作为能力估计的方法,根据公式当信度选0.80、0.90、0.95和0.96时,所对应的SE分别为0.45、0.32、0.22和0.20,将对这5个终止规则下的答题情况进行比较,选出最佳的终止规则.

对CAT过程的模拟,分别采用真实被试和虚拟被试2种方式进行模拟研究.其中真实被试是指使用本次参与问卷作答的被试的真实数据进行CAT的过程模拟,称为“真实数据模拟”[30-34],将用此模拟选出最佳终止规则以及探究CAT作答的效果;关于虚拟被试,使用选定的终止规则在能力区间为-3.5~3.5之间每隔0.25模拟100个被试,共模拟出29×100=2 900个被试的作答情况,再进行CAT效果的检验,详细过程参照Wang Shudong[35]的模拟过程.

2.3 研究工具

2.1.1 单维性检验 虽然单维性并不是做CAT的必要条件,但大多数IRT模型的假设为单维.这表示在项目反映中单个潜变量解释了所有的项目[23].研究采用探索性因素分析(EFA)考察量表的单维性[24],采用里斯卡标准进行判别,即第1特征根的解释方差超过20%,且第1特征根与第2特征根的比值大于5,则认为模型符合单维性假设[25].此外,为了保证题库项目的质量,删除因子负荷小于0.4的项目[26].

在移动网络中,QoS决定某个用户或某种业务的质量,由一组参数所组成,主要QoS参数描述如表1所示[4]。

3 研究结果

3.1 题库建设

3.1.1 单维性检验 通过SPSS 24.0进行探索性因素分析(EFA),共删除主因子上因子负荷小于0.4的项目15题,剩下137题.对余下的题目再次进行探索性因素分析,结果显示第1特征根的值为38.51,方差解释贡献率比例为28.11%>20%;第2特征根的值为6.43,第1与第2特征根值的比值为5.98>5.根据里斯卡标准[25],可知137题的作答数据符合单维性的假设,即这137题主要测量了一个自尊维度.

2.1.3 项目局部独立性检验 局部独立性是IRT模型的重要假设,它表示被试在每个项目上的反应都是独立的,不受其他项目的影响.本研究采用S.L. Franzoi等[12]提出的Q3统计量作为指标进行局部独立性检验.根据Cohen′s提出的规则,当Q3值介于0.26~0.36时,表明偏差合理,处于合理范围;而当Q3值超过0.36时,表示项目间存在较大的偏差,此时应在相互比较的2个项目中删除Q3累加量较大的一个项目.

表1 不同IRT模型与数据拟合检验结果

IRT模型-2LogLikelihoodAICBIC拓广分部评分模型(GPCM)543693.4544951.4548391.8称名反应模型(RSM)541150.8543118.7548500.9等级反应模型(GRM)538676.4539934.4543374.9

3.1.3 项目质量分析 项目质量分析主要从项目是否满足局部独立性假设、项目区分度高低以及项目是否存在功能差异3个方面进行.

1.2.2 Coopersmith自尊问卷(CSEI) 该量表由50个项目组成,其中8题为测谎题,采用2级记分,由1(像我)~2(不像我),总分在50~100之间,得分越高,自尊感越低.在本研究中,为了与其他量表统一记分方法,对该量表得分进行了反转,即得分越高,自尊感越高.量表的内部一致性系数α为0.898.

项目区分度反映了项目对被试的区分能力,区分度越高说明区分能力越强.根据参数估计结果,结合区分度筛选指标发现:120题中有10个项目的区分度低于0.7,删除后剩余110题,且项目区分度在0.81~3.68之间.

为保证测验的公平性,分别对被试关于性别、城乡2个变量进行了项目功能差异检验,检验发现所有项目的R2改变量均小于0.02,即110个项目均不存在功能差异,故没有删除题目.

综上,本小节共删除27题,最终题库由剩余的110题组成,题目筛选的具体情况详见表2.

表2 项目质量分析过程中题目筛选的具体情况

指标 题目题数单维性b4、b8、b9、b23、b25、b26、b28、b37、b46、b50、b55、b58、c26、c31、e1515局部独立a2、a10、b5、b19、b24、c10、c15、c18、c21、c23、c37、c33、c34、d3、e11、e20、e3117区分度b3、b10、b16、b21、b32、b45、b49、b52、c29、e1310项目功能差异无0

注:a~e分别代表Rosenberg自尊量表、Coopersmith自尊问卷、Janis和Field缺陷感量表、2维自尊量表和自我价值感量表.

3.2 CAT研究结果

3.2.1 基于真实数据的CAT结果 表3为不同终止规则下基于真实数据的CAT结果,其中平均答题量是指所有被试平均作答的题目数量,反映了CAT的测试效率,平均题量越少效率越高;边际信度是指各误差水平下估计出潜在特质的平均信度,反映了测试的可靠程度,信度值越高测试成绩越可靠;相关系数r反映了CAT能力估计结果与被试作答110题(题库所有项目)的相关程度,相关系数越大CAT的测试精度越高.分析比较不同终止规则下的相关指标,发现在误差SE为0.32时,所需的题目较少,与误差为0.45情况下几乎一致,且测量出的被试能力与完成整个题库所测出的能力呈现高度相关(r=0.94,P<0.001),当相关系数r≥0.9时,模型被认为是良好的[23,32].因此,本文终止规则定为SE≤0.32.

表3 在真实被试不同终止规则下基于真实数据的CAT结果

终止规则(SE)答题数量均值标准差平均误差SE(θ)边际信度相关系数r完成整个题库110.000.000.170.971.00SE≤0.458.899.230.370.860.91SE≤0.328.889.920.300.910.94SE≤0.2218.2716.250.220.950.97SE≤0.2023.4418.400.200.960.98

对真实被试的数据进行模拟CAT过程,结果显示能力值在2个标准差内的被试,平均只需作答7.40题(SD=2.99)就能满足SE≤0.32,即测量的边际信度r≥0.9的标准.超过2个标准差的被试共86名,他们平均需作答(37.59±31.28)题就能达到该指标.

为了进一步考察CAT估计的被试能力值与其它自尊量表间的相关一致性程度,绘制了相关散点图(见图1)并计算了其相关系数.在终止规则SE≤0.32条件下测得的被试能力值与被试做完所有题目所测得的能力值呈高度相关(r=0.94,P<0.001);在与测量自尊最为广泛使用的Rosenberg自尊量表的比较中,也发现2者呈显著正相关(r=0.76,P<0.001);与在国内广泛使用的自我价值感量表中的总体自我价值维度(共6题)进行比较,被试需要作答的题量相似,2者也呈高度正相关(r=0.85,P<0.001);在与总题量相似的2维自尊量表(共16题)进行比较发现,2者存在高度相关(r=0.88,P<0.001).

图1 不同终止条件下被试能力估计值与其它自尊量表分数的相关散点图

3.2.2 基于虚拟被试的CAT结果 图2显示了在SE=0.32的终止规则下,能力值为-3.5~3.5的被试平均需要做题的数量.对于潜在能力值在-2.0~2.0范围内的被试,平均需作答8.70题(SD=4.31)就能满足SE≤0.32,即测量的边际信度r≥0.9的标准;对于能力水平超过2个标准差的被试而言,平均作答题量会变多(M=34.20,SD=30.37);对于所有被试而言,平均需做19.25题(SD=23.5).

在管道对接过程中,所连接管道长短不一,因而机架带动管道移动所需克服的阻力不一致,在实际控制中,这个阻力应叠加到工艺参数压力上,得到实际使用压力(在焊接过程中不仅要确定压力,而且要检查加热板温度是否达到设定值)。

无论是摄像还是摄影领域,全画幅传感器带来的浅景深效果都是重要的表现手段,对于拍摄人像、静物以及很多需要使用景深来突出主题的拍摄题材非常重要。不过,反过来说,在另外一些题材,比如微距、风光等拍摄场景中,我们反而需要更大的景深力求还原整个场景,此时专业的摄影师、摄像师反而也会利用小幅面机身能够“增大”景深的特性来进行拍摄。在专业摄影师、摄像师中有个口头禅“弱光能力与景深不可兼得”说的也就是幅面与景深的关系。

图2 不同能力的虚拟被试平均所需答题量

4 讨论

自尊对个体的发展具有重要作用,大量研究表明:自尊水平与抑郁、焦虑、人际关系、情绪等都息息相关[34-37],用于测量自尊水平的量表较多,且大多是基于经典测量理论下的纸笔测验,受测者需完成全部问卷才能估计其能力,费时费力,且使用不同的量表其测量结果可能存在偏差;而本文依据项目反应理论建立的CAT-SE题库,对国内外知名的自尊量表进行了整合,通过“因人施测”的手段,在保证精确度的同时,大大提高了测试的效率与灵活性,节省了测试所需的人力、物力和时间.同时,CAT-SE的实现,使得来自不同自尊量表的题目建立了统一的量尺,评价标准统一,避免了不同量表间评估结果的不可比性.

本研究最终选取的终止规则为SE≤0.32,在此精度下,基于真实被试的CAT研究中,能力值在2个标准差内的被试平均只需作答7.4题就与做完全部110题所估计出的能力值几乎一致;同时,所有被试平均只需作答8.88题就能达到做110题的效果(2者的相关高达0.94以上),且此时IRT下的边际信度也高达0.91.即自尊的CAT测量不仅具有较高的测量精度,还可以大大减轻被试的测试负担;同时,与传统的纸笔测验(P&P)不同,本研究对国内外多个不同的自尊量表进行整合,从而避免了因量表不同而产生的测量偏差,并真正实现了对具有不同自尊水平被试的因人施测(个性化测试),从而达到自尊的高效、快速、准确地测量.

当SE≤0.32时,CAT的估计精度和信度将更高,但平均使用的题量将增加,效率下降.因此,在不同情况下,使用者可以根据精度和效率要求,合理设置SE的取值,更好地服务于实际需求.另外,图2结果表明:低到中等能力的被试使用的题量相对较少,显示了题库对于低自尊水平的被试具有更加精确的估计,这与目前自尊相关研究的诊断目标相一致,原始的自尊量表的开发,本身也有筛选出低自尊水平的个体并对其进行干预的目的;而近年来,越来越多的研究开始发现过高的自尊也会对个体产生不利影响[38-42],本题库对于高能力即高自尊水平的被试而言所需题量更多一些,这可能与题库中缺少测量高能力的题目、选用的量表本身就是为了更好地区分出低自尊水平的被试有关,后续需要扩建题库.

综上所述,本研究将计算机自适应技术应用于自尊的题库建设中是合适的,它实现了对自尊的高效、快速、准确地测量,为今后开发自尊量表的 CAT版式提供了理论基础,同时,本研究也为自尊的测量提供了新的技术及方法支持.

5 参考文献

[1] Embretson S E,Reise S P.Item response theory [M].London:Psychology Press,2013.

[2] Tesser A.On the confluence of self-esteem maintenance mechanisms [J].Personality and Social Psychology Review,2000,4(4):290-299.

[3] Lee A,Hankin B L.Insecure attachment,dysfunctional attitudes,and low self-esteem predicting prospective symptoms of depression and anxiety during adolescence [J].Journal of Clinical Child and Adolescent Psychology,2009,38(2):219-221.

[4] Martyn-Nemeth P,Penckofer S M,Velsor-Friedrich B,et al.The relationships among self-esteem,stress,coping,eating behavior,and depressive mood in adolescents [J].Research in Nursing and Health,2009,32(1):96-109.

[5] 肖崇好,黄希庭.社交焦虑个体外显与内隐自尊的研究 [J].心理科学,2011,34(2):289-292.

[6] 钟佑洁,张进辅.大学生评价恐惧在自尊与社交焦虑间的中介效应分析 [J].心理发展与教育,2011(5):506-512.

[7] Rosenberg M.Society and the adolescent image [EB/OL].[2019-01-12].https://www.researchgate.net/publication/238322868_Society_and_the_Adolescent_Image_Maker.

[8] Coopersmith S.The antecedents of self-esteem [EB/OL].[2019-01-16].https://www.researchgate.net/publication/200008764_The_Antecedent_of_Self-Esteem.

[9] Zheng Lijun,Richard A L,Zheng Yong.Sex and sexual orientation differences in personality in China [J].Archives of Sexual Behavior,2011,40(3):533-541.

[10] Helmreich R,Stapp J.Short forms of the texas social behavior inventory(TSBI):an objective measure of self-esteem [J].Bulletin of the Psychonomic Society,1974,4(5):473-475.

[11] Tafarodi R W,Jr W B S.Two-dimensional self-esteem:theory and measurement [J].Personality and Individual Differences,2001,31(5):653-673.

[12] Franzoi S L,Shields S A.The body esteem scale:multidimensional structure and sex differences in a college population [J].J Pers Assess,1984,48(2):173-178.

[13] 黄希庭.青年学生自我价值感量表的编制 [J].心理科学,1998,21(4):289-292.

[14] 魏运华.自尊的结构模型及儿童自尊量表的编制 [J].心理发展与教育,1997(3):31-38.

[15] Watkins D,Dong Qi.Assessing the self-esteem of Chinese school children [J].Educational Psychology,1994,14(1):129-137.

[16] 蔡华俭.内隐自尊效应及内隐自尊与外显自尊的关系 [J].心理学报,2003,35(6):796-801.

[17] 田录梅.Rosenberg(1965)自尊量表中文版的美中不足 [J].心理学探新,2006,26(2):88-91.

[18] 杨福义,梁宁建.内隐自尊与外显自尊的关系:多重内隐测量的视角 [J].心理科学,2007,30(4):785-790.

[19] 张丽华,李娜.自尊研究范式的发展 [J].苏州大学学报:教育科学版,2015(4):33-41.

[20] 毕重增,肖影影,许欢欢.国内青少年自我价值感量表研究结果的元分析 [J].心理科学,2014,37(3):625-632.

[21] 戴晓阳,张进辅,程灶火.常用心理评估量表手册 [M].北京:人民军医出版社,2010.

[22] 韦嘉,张春雨,赵清清,等.2维自尊量表修订版在中学生群体中的信效度检验 [J].中国心理卫生杂志,2012,26(9):715-720.

[23] Wainer H.Computerized adaptive testing:a primer:L. Erlbaum Associates [EB/OL].[2019-01-12].http://dx.doi.org/10.1037/10244-000.

[24] 田建全,苗丹民,杨业兵,等.应征公民计算机自适应化拼图测验的编制 [J].心理学报,2009,41(2):167-174.

[25] Hambleton R K.Principles and selected applications of item response theory [M].台北:心理出版社,1989.

[26] Nunally J C.Psychometric theory [M].2nd ed.New York:McGraw-Hill,1978.

[27] Fliege H,Becker J,Walter O B,et al.Development of a computer-adaptive test for depression(D-CAT) [J].Quality of Life Research,2005,14(10):2277-2279.

[28] Holland P W,Wainer H.Differential item functioning [J].International Encyclopedia of Education,1995,7(11):36-44.

[29] Choi S W,Grady M W,Dodd B G.A new stopping rule for computerized adaptive testing [J].Educational and Psychological Measurement,2011,71(1):37-53.

[30] Oommen M,Pajer K A,Kelleher K J,et al.Computerized adaptive measurement of depression:a simulation study [J].BMC Psychiatry,2004,4(1):13-15.

[31] Sands W A,Waters B K,Mcbride J R.(1997).Computerized adaptive testing:from inquiry to operation [EB/OL].[2019-01-12].http://sites.nationalacademies.org/cs/groups/dbassesite/documents/webpage/dbasse_082118.pdf.

[32] Nunnally J C, Bernstein I.Psychometric theory [M].3rd ed.New York:McGraw-Hill,1994.

[33] Demeyer I,Romero N,Raedt R D.Assessment of implicit self-esteem in older adults:the role of actual and ideal self-esteem in negative mood [J].Assessment,2018,25(3):302-309.

[34] Orth U,Robins R W.Understanding the link between low self-esteem and depression [J].Current Directions in Psychological Science,2013,22(6):455-460.

[35] Wang Shudong.The accuracy of ability estimation methods for computerized adaptive testing using the generalized partial credit model [EB/OL].[2019-01-12].https://dl.acm.org/citation.cfm?id=930298.

[36] 高爽,张向葵,徐晓林.大学生自尊与心理健康的元分析:以中国大学生为样本 [J].心理科学进展,2015,23(9):1499-1507.

[37] 李海江,杨娟,贾磊,等.不同自尊水平者的注意偏向 [J].心理学报,2011,43(8):907-916.

[38] 倪凤琨.自尊与攻击行为的关系述评 [J].心理科学进展,2005,13(1):66-71.

[39] 潘益中,许燕.脆弱高自尊在自我威胁后的归因与情绪转换 [J].心理科学,2011,34(1):166-171.

[40] 田录梅,袁竞驰,李永梅.同伴在场和自尊水平对青少年冒险行为的影响:来自ERPs的证据 [J].心理学报,2018,50(1):47-57.

[41] 田录梅,张向葵.高自尊的异质性研究述评 [J].心理科学进展,2006,14(5):704-709.

[42] 王曼,陶嵘,胡姝婧,等.新的视角:从脆弱高自尊看人格障碍症状 [J].心理科学进展,2009,17(7):1141-1146.

TheDevelopmentofaComputer-AdaptiveTestforSelf-Esteem

ZHENG Zening,CAI Yan*

(College of Psychology,Jiangxi Normal University,Nanchang Jiangxi 330022,China)

Abstract:Based on item response theory(IRT),the study develops a new self-esteem measurement by computerized adaptive testing(called as CAT-SE).After a series of analyses of one-dimensional test,local independence test,discrimination test and differential item function,the CAT-SE item bank composed of 110 high-quality questions is finally established.Results show that the proposed CAT-SE can achieve the similar precision of 110 items only by answering less than 10 questions on average(the correlation between them is as high as 0.94),and the marginal reliability under IRT is as high as 0.91.That is to say,the CAT-SE not only has a high measurement accuracy,but also can greatly reduce the test burden of the subjects.At the same time,unlike the traditional paper-pencil test(P&P),the study integrates several different widely-used self-esteem scales,thus it can avoid the measurement deviations caused by the different scales.All in all,the proposed CAT-SE in this study provides a new technical and methodological support.

Keywords:self-esteem;computer adaptive testing;item response theory

中图分类号:B 841.7

文献标志码:A

DOI:10.16357/j.cnki.issn1000-5862.2019.05.02

收稿日期:2019-04-16

基金项目:国家自然科学基金(31760288)资助项目.

通信作者:蔡 艳(1979-),江西宜春人,教授,博士,博士生导师,主要从事心理统计与测量研究.E-mail:cy1979123@aliyun.com

文章编号:1000-5862(2019)05-0448-06

(责任编辑:冉小晓)

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

郑泽宁:一种新的自尊测量技术:计算机化自适应测量论文
下载Doc文档

猜你喜欢