关丹丹:全国高考英语试题的城乡项目功能差异分析论文

关丹丹:全国高考英语试题的城乡项目功能差异分析论文

摘要:本研究主要目的是针对高考英语成绩存在的城乡差异,检验这种差异是否来源于试题在城乡上的项目功能差异。如果两个能力本来相同的考生群体在某一试题得分上表现出不同程度的差异,该试题就存在项目功能差异。研究采用试题标准化分数差法,利用STDIF软件逐一分析了2016年三套全国高考英语卷的客观题是否存在城乡上的项目功能差异,在确定客观题没有项目功能差异后,以客观题成绩为匹配变量,采用条件得分图法对书面表达题是否存在城乡上的项目功能差异进行了分析。研究结果显示,高考英语全国I、II、III卷均未发现城乡上的项目功能差异试题,即可以认为高考英语全国卷对城乡不同户籍考生都非常公平、公正,城乡考生在英语成绩上的差异并非题目的公平性所致。

关键词:高考英语;项目功能差异;城乡

1 引言

“促进公平、科学选才”是《国务院关于深化考试制度招生改革的实施意见》中提出的深化考试招生制度改革的主要指导思想(国务院,2014)。试题的公平性是大规模教育考试中广泛关注的重要问题之一,直接关乎考试的公平与科学。如果一项测试存在公平性问题,那么分数的解释、做出的决定及其后果都将是无效的、不合理的,甚至是有害的(Allalouf & Abramzon,2008)。这里所谓的测量公平性检验,心理测量学上称之为试题的项目功能差异检验。考试的命题人期望考试题目对不同的考生子群体是公平的,然而,在试题命制和考试实施过程中,不可避免地会受到一些无关因素的影响,有些因素可能会对不同考生群体产生不同的影响,使得能力本来相同的考生在试题得分上表现出不同程度的差异,这种差异被解释为项目功能差异(Differential Item Function,简称DIF),其定义是指具有相同能力水平的考生,若在某试题上的得分因为考生组别的不同而显著不同时,则该试题可能存在DIF。具有DIF的试题可能对某一组别的考生不利而对其他组别的考生有利,从而有违考试的公平性原则(Camilli,2006)。1986年,美国教育测验服务公司(ETS)在编制测验的过程中规定:必须分析试题的项目功能差异,并且在分析试题的常规过程中加入一个DIF 指数(曾秀芹,孟庆茂,1999)。我国学者也指出,测试开发机构应该本身或委托其它独立研究机构或学者进行测量公平性检验,并把检验报告公之于众(李清华,2016)。

高考英语考试是我国最具权威的语言测试,每年考生近千万,规模远超很多世界著名的语言测试,应该也必须重视项目功能差异的研究与分析。我国幅员辽阔,城乡之间经济文化发展很不平衡,农村考生的英语成绩总体上是略低于城市考生的,除了教育水平等差距之外,是否有的试题利于城市考生而不利于农村考生呢?即统计学意义上高考英语试题是否存在城乡DIF呢?

检测项目是否存在项目功能差异,关键在于如何判定两组被试是否具有相同的能力,即确定匹配变量。匹配变量既可以是考试自身(内部)的观察分数或者潜在能力值,也可以是附加测试(外部)的观察分数或者潜在能力值。在以考试自身分数作为匹配变量时,由于可能混有DIF试题的得分信息,检验过程中需要将有DIF的试题逐一剔除,以净化量表分数(Ferne & Rupp,2007)。检测DIF的方法有很多,总体上,基于IRT和结构方程的检验方法比较繁琐,基于CTT的方法(如采用观察分数法)对试题DIF进行检测比较简单易行。观察分数法用考试总分表征学生的能力,假设实验组和参照组的考试总分,即能力相同的考生,在同一试题上的得分率没有统计上的差别。观察分数法按照技术方法不同可分为不同类型,如MH法、STND法等(曾秀芹,孟庆茂,1999;余跃等,2016)。其中,基于观察分数法的两阶段DIF检验法,在检验过程中将有DIF的试题会逐一剔除,在大样本下能够减少一类错误,提高统计检验效力(Zenisky et al.,2003)。

在语言测试DIF研究的文献中,就国家而言,美国是开展DIF研究最多的国家;就语言技能而言,阅读理解的DIF研究最多;就题型而言,0/1二级计分的题型DIF研究最多(Ferne & Rupp,2007)。其中口语、写作这种评价产出性技能的试题由于是多级计分,进行项目功能差异检验的研究较少。多级计分题目往往主观性强,更易受到文化和环境因素的影响从而导致DIF(张龙,涂冬波,2015)。但目前国内外学界焦点主要集中在二级计分题DIF 检测方法的理论研究和应用上,对多级记分题DIF 研究涉及较少。以写作为例,其中一个重要的问题就是检验写作DIF时两个群体的能力水平匹配变量怎么选,另外同时还有双评或多评带来的评分员功能差异分析(DFF)问题(Elder et al.,2003)。已有研究认为,对于写作的DIF检验,可以用语言测试其他部分的得分作为匹配考生水平的变量,当然其前提假设就是考生在其他部分的成绩与写作成绩相关很高(Lee et al.,2005;Ferne & Rupp,2007)。

目前,国内文献几乎没有针对高考英语考试是否存在项目功能差异试题的相关研究。本研究主要目的是检验全国高考英语试题在城乡上的项目功能差异情况。考虑到高考试卷的结构,既包括大量选择题,也包括书面表达题,本文将对两类试题分别进行项目功能差异检验,以期搜集高考英语考试是否公平公正的证据,从而回答城乡考生在英语成绩上的差异性是否与试题本身有关。

2 对象与方法

2.1 被试与数据

总的来看,城市考生的英语成绩无论是总成绩还是各分项成绩,均高于农村考生。经检验I、II、III卷总分的城乡差异均显著(p<0.001),城市考生的英语成绩平均比农村考生高出4~10分不等,因省份和所使用卷种而有所不同,特别是使用II卷的B省和III卷的C省,各项差异的效果量均大于0.20,显示城乡考生差异较大。据此,是否可以说城市考生的英语能力水平明显高于农村考生呢?还不能,因为分数的差异可能是能力水平差异的真实反映,也有可能是题目本身对某一类群体更为有利造成的。因此,必须对试题是否存在城乡DIF进行分析。

2.2 研究材料

从图形即可直观判断,相同能力水平的城市考生和农村考生在英语书面表达试题上的得分几乎是一致的,可以认为全国I、II、III卷的书面表达题都不存在城乡DIF。

2.3 数据分析过程及方法

35岁以后妊娠患各种疾病的几率较大,不仅会影响受孕,在妊娠后也会使自身和胎儿的健康、安危受到很大影响。因此,怀孕之前一定要先去进行积极的治疗,彻底治愈后再怀孕。

对于客观题的DIF分析采用试题标准化两阶段分数差法(Dorans & Holland,1993;Zenisky et al.,2003)。对于书面表达题的DIF分析选用条件P值法,考生能力的匹配以客观题总分为依据,将参照组和实验组的考生采用每5分一个点进行粗分层(thick matching slicing),划分成不同的能力水平单元,计算每个能力水平单元在书面表达试题上的平均得分或得分率,绘制成图,以直观地比较相同能力水平的城市考生和农村考生在书面表达题平均得分上的差异(Zenisky et al.,2004;杨志明,2017)。

可见,各英语卷的克伦巴赫a系数均大于0.90,内部一致性非常高。因素分析显示,各卷种的第一特征值均远远大于第二特征值,除II卷外,都在5倍以上,基本可以认为英语考试是单维的。由于试卷中除去书面表达后的内部一致性更高,对于除书面表达外的客观题进行DIF分析时宜使用客观题总分作为考生能力水平匹配变量。另外,书面表达与其他部分成绩的相关系数均在0.70以上,且在0.001水平显著,属于高相关。这说明,在检验书面表达题目是否存在DIF时,可以用其他部分的成绩作为考生能力水平的匹配变量(Ferne & Rupp,2007)。

其中,K表示考试的满分值,为考试总分为s的参照组所有考生的条件难度系数;为考试总分为s的实验组所有考生的条件难度系数。ws是每个分数等级标准化的权重。

另一个是无符号的DIF指数(unsigned DIF),简称UDIF,UDIF适用于检测非一致性DIF试题。其计算公式是:

一是对城市考生与农村考生的英语成绩进行描述统计分析,并对总成绩是否存在城乡差异进行t检验。二是对考试分数的内部一致性信度,以及是否符合单维性假设进行检验。三是对有所试题是否存在DIF进行分析。

δ是提供试题DIF方向的系数,δ为“+1”,则试题有利于参照组,为“-1”,δ则试题有利于实验组(April et al.2016)。

3 结果

3.1 城乡考生考试成绩差异分析

城乡考生的英语考试成绩的平均分、标准差及两个群体的差异如下:

表1高考英语城乡考生考试成绩差异分析

城市农村平均数标准差平均数标准差差异效果量I卷总分92.7631.3588.2928.864.470.15听力22.705.3521.285.031.420.28阅读理解26.289.9425.209.441.080.11完型填空14.666.7913.716.200.950.15语法填空8.724.068.393.830.330.08短文改错4.663.244.553.050.110.04书面表达15.735.6215.165.470.570.10II卷总分78.2828.3469.9024.648.380.32听力12.308.0110.566.411.740.25阅读理解23.728.1121.917.391.810.24完型填空16.256.5914.745.991.510.24语法填空7.274.446.284.180.990.23短文改错4.462.973.852.780.610.21书面表达14.265.8912.545.931.720.29III卷总分83.9535.5574.0433.399.910.29听力19.956.7417.596.432.360.36阅读理解24.159.3621.818.872.340.26完型填空16.367.1914.846.861.520.22语法填空6.364.355.514.050.850.20短文改错3.793.163.162.900.630.21书面表达13.347.8111.137.862.210.28

研究从2016年使用全国高考英语I、II、III卷的二十多个省中随机选择了3个省。使用I卷的A省英语考生共333115人,城市考生有107490人,占比32.3%;农村考生有225625人,占比67.7%。使用II卷的B省英语考生共176722人,城市考生有105518人,占比59.7%;农村考生有71204人,占比40.3%。使用III卷的C省英语考生共275394人,城市考生有80611人,占比29.3%;农村考生有194783人,占比70.7%。

“2017年1月6日”这一天非常重要,后续上市公司与负责审计的会计师事务所对于会计处理存在差异,争执集中在这关键的一天。

3.2 高考英语考试的内部一致性与单维性分析等

表2各英语卷种的a信度与单维性检验情况

卷种内部一致性a系数单维性检验含书面表达不含书面表达第一特征值第二特征值书面表达与其他部分的相关系数I卷0.930.9518.532.430.77∗∗II卷0.900.9314.623.020.71∗∗III卷0.920.9520.652.750.86∗∗

数据分析采用SPSS 20.0 和STDIF(April et al.,2016)软件。STDIF软件在检测试题DIF时可以提供两个指标,一个是有符号的DIF指数(signed DIF),简称SDIF,SDIF适用于检测具有一致性DIF的试题。其计算公式为:

3.3 客观题的城乡DIF分析

根据STDIF手册,如果SDIF或UDIF的绝对值小于0.075,则表示该试题没有明显的功能差异;如果SDIF或UDIF的绝对值在0.075和0.10之间,则表示该试题有潜在的功能差异,但无需进行功能差异研究;如果SDIF或UDIF的绝对值大于0.10,则表示试题具有明显的功能差异,需要进一步研究功能差异的来源(Zenisky et al.,2016)。该研究中SDIF和UDIF的值为正值,则有利于农村考生;若为负值,则有利于城市考生。上述检验结果显示,全国3套英语试卷中所有客观试题的SDIF和UDIF的绝对值都小于0.075,试题不存在城乡的项目功能差异。

图1 全国I卷英语试题城乡DIF指标

图2 全国II卷英语试题城乡DIF指标

图3 全国III卷英语试题城乡DIF指标

以客观题总分为考生能力水平匹配依据,计算得出各个题目的SDIF和UDIF值,将其绘制成图,全国I、II、III卷客观题的城乡项目功能差异分析结果见图1~3。

3.4 书面表达题的城乡DIF分析

由于三套试卷除书面表达试题外的所有题目都不存在城乡DIF,可用除书面表达题外的成绩作为能力水平匹配依据,将考生从零分到最高分划分成不同的能力水平组,依据条件P值法绘图,比较相同能力水平的城市考生和农村考生在书面表达题上平均得分的差异。

全国I、II、III卷书面表达题的城乡项目功能差异分析结果见图4-6。

改革时期,印尼政府取消了各种歧视华人的法规,华语使用也得以解禁。随着中国国际地位的提升,中印尼两国关系日益改善,印尼华人的地位也逐渐得到提升。印尼华人作为一个民族及其语言文化在改革时期有了新的定位。

图4 全国Ⅰ卷英语书面表达试题得分城乡差异

图5 全国Ⅱ卷英语书面表达试题得分城乡差异

图6 全国Ⅲ卷英语书面表达试题得分城乡差异

研究选取2016年全国高考英语I、II、III卷试题的考试数据进行DIF检验,整套试卷由81题构成:包括20个听力试题、20个阅读理解试题、20个完形填空试题、10个语法填空试题、10个短文改错试题,以及1个书面表达试题。其中,前80个试题总分为125分,可以统一按照二级计分的客观题来处理;书面表达题为多级计分,满分为25分。

4 讨论与结论

从研究结果来看,2016年高考英语全国I、II、III卷,无论是客观题,还是书面表达题,均不存在城乡DIF试题,即高考英语全国卷对城乡不同户籍考生都非常公平、公正。尽管城市考生与农村考生在英语成绩上是有明显差异的,但这种差异表现出的是两类考生英语水平的真实差异,并非题目的公平性所致。至于导致城乡两类考生英语水平差异的原因,可能与城乡经济条件、教学环境等有关,值得进一步研究,但不在此文讨论范围。

但她不能只顾着哭,水一冷就不能洗,她把椭圆形的卡盆放好,把换洗衣物摆好,把脱掉的衣物挂在树棍芦苇夹成的门上,她坐在卡盆里,眼泪往卡盆里流,眼泪和水汇成一体,又往身上浇。哭完了,也洗好了。

系统正常运行时仿真分析结果见图3.由图3曲线可知,发电机出口电压有效值稳定运行在18 kV左右不变,发电机出口电流保持稳定状态,故障设置点电流与电压各参量与发电机出口相同.

3.3 加强社区护理人员急救技术培训,提高突发急救的应对能力 加强社区急救护理培训可有效降低社区中突发心脑血管等意外事件的伤残率和病死率[4]。在急救培训中,我们采取模拟情景训练与急救演练、急救演示相结合,定期组织护士操练,对不合格人员进行一对一的培训,不断提高操作技能,同时利用小讲课加强对社区护理人员急救护理知识普及的培训。今年成功抢救猝死患者2例。并把学到的知识技能传授给社区居民,在社区居民中广泛开展急救护理知识的培训,采取讲课、发放急救知识小册子、放录像等方法,指导社区居民熟练掌握必需的急救基本知识和技能,这样不但能增强居民自救互救的意识,还可以降低社区意外伤害和突发疾病的因素[5]。

在做DIF分析前,检验测验分数的内部一致性信度以及单维性等还是很有必要的,但却容易被研究者所忽视(Ferne & Rupp,2007)。该研究严格的进行了检验,确保了项目功能差异分析的前提条件是成立的。由于题目内容、题型都有可能会对某组考生有利,因此除了对客观题进行DIF分析外,研究者还尝试对书面表达题进行DIF分析。对于客观题的DIF分析在方法选取上主要考虑了高考英语试卷中客观题虽然都是0/1二级计分,但不同题型的最大分值不同,有每题1分,也有每题2分等多种情况。采用试题标准化两阶段分数差法,既可以通过两阶段的DIF分析将有DIF的试题逐一剔除,又可以很好的解决同是二级计分但最大分值不同的情况(Dorans & Holland,1993;Zenisky et al.,2003)。对于书面表达题的DIF分析,常用的多级计分题目的DIF分析有非参数检验法和参数检验法,以基于IRT为代表的参数检验法操作上比较复杂,结果不易于理解(张龙,涂冬波,2015)。而且与国际上许多知名的英语考试写作评分等级设定为5~9个相比,高考英语评分等级多达26个,数据结构与国外标准化考试存在明显差异。因此,已有的统计方法不一定适用,研究者依据DIF的定义,在通过内部一致性分析和因素分析确保了用客观题成绩作为能力匹配指标是可信和有效的情况下(Buzick & Stone,2017),以条件得分图形的形式直观展示相同能力水平的城市考生和农村考生在书面表达题平均得分上的差异,操作简单、结果容易理解,又非常有利于发现非一致性DIF(杨志明,2017)。关于书面表达的DIF分析在国内外都是比较少见的,一方面是因为能力参照的匹配变量不好找,另一方面就是评分过程还会带来评分误差甚至是评分员的功能差异。该研究中三套试卷的内部一致性信度分析就显示,将书面表达题包含在内的a系数均是比不包含略有下降,可能就是受书面表达题有一定的评分误差的影响。这也从另一个角度说明,书面表达题的项目功能差异是值得从多个角度深入研究的。另外,研究采用户籍类型作为区分城乡的分类变量,可能混有借读考生,在有条件的情况下使用学校所在地作为城乡分类变量或许更为合适。

随着招生考试制度改革的进一步深化,不同考试试卷的公平和公正性越来越得到考试利益相关体的关注,对于2016年高考英语三套试卷在城乡DIF方面的检测体现了考试研究者对DIF研究的重视。总体上,目前国内关于试题DIF方面的研究还很少,除城乡以外的DIF研究也应引起关注;另外,我国高考和西方以选择题等客观性题目为主的考试形式不同,大量大分值的主观性试题如何进行DIF检验,也值得进一步探讨和研究。

根据以上分析,中国在巴基斯坦投资的区域主要集中于三个大省,俾路支省、旁遮普和信德省,以及伊斯兰堡首都为中心的地区。重点城市为瓜德尔市、卡拉奇市、拉合尔、白沙瓦、木尔坦、费萨拉巴德等。

参考文献

国务院.(2014).国务院关于深化招生考试制度改革的实施意见.http://www.gov.cn/zhengce/content/2014-09/04/content_9065.htm

李清华.(2016).语言测试的公平性检验框架.现代外语,4,549-561.

杨志明.(2017).考试公平性之题目及试卷功能差异探析.教育测量与评价,9,5-12.

余跃,杜文久,周娟,秦菊香.(2016).LP 方法及其与三种常用DIF 检测方法的比较.心理科学,39(3),720-726.

张龙,涂冬波.(2015).多级计分题项目功能差异常用检测方法及比较.江西师范大学学报(自然科学版),39(5),441-448.

曾秀芹,孟庆茂.(1999).项目功能差异及其检测方法.心理学动态,7(2),41-47.

Allalouf,A.,& Abramzon,A.(2008).Constructing better second language assessments based on differential item functioning analysis.LanguageAssessmentQuarterly,5(2),120-141.

Buzick,H.,& Stone,E.(2017).RecommendationsforConductingDifferentialItemFunctioning(DIF)AnalysesforStudentswithDisabilitiesBasedonPreviousDIFStudies[R/OL].[2017-08-11].http://www.ets.org/Media/Research/pdf/RR-11-34.pdf.

Camilli,G.(2006).Test fairness.In R.L.Linn(Ed.),Educationalmeasurement(4th ed.,pp.220-256).Westport,CT:American Council on Education.

Dorans,N.J.,& Holland,P.W.(1993).DIF detection and description:Mantel-Haenszel and standardization.In P.W.Holland & H.Wainer(Eds.),Differentialitemfunctioning(pp.35-66).Hillsdale,NJ:Lawrence Erlbaum.

Ferne,T.,& Rupp,A.(2007).A Synthesis of 15 Years of Research on DIF in Language Testing:Methodological Advances,Challenges,and Recommendations.LanguageAssessmentQuarterly,4(2),113-148.

Lee,Y-W.,Breland,H.,& Muraki,E.(2005).Comparability of TOEFL CBT writing prompts for different native language groups.InternationalJournalofTesting,5,131-158.

Zenisky,A.L.,Hambleton,R.K.,& Robin,F.(2003).Detection of differential item functioning in largescale state tests:A study evaluating a two-stage approach.EducationalandPsychologicalMeasurement,63,51-64.

Zenisky,A.L.,Hambleton,R.K.,& Robin,F.(2004).DIF Detection and Interpretation in Large-Scale Science Assessments:Informing Item Writing Practices.EducationalAssessment,9(1-2),61-78.

Zenisky,A.L.,Robin,F.,& Hambleton,R.K.(2016).DifferentialItemFunctioningAnalyseswithSTDIF:User’sGuide[Version 6/15/2009].Available from:Ronald K Hambleton.

AStudyontheUrban/RuralDIFEvaluationoftheNMET

Guan Dandan Qiao Hui Chen Kang Han Yifan

(National Educational Examinations Authority,Beijing 100084)

Abstract:The purpose of this study is to analyze test fairness of the 2016 National Matriculation English Test(NMET)through conducting differential item function(DIF)analyses.If the responses of two groups of students with the same level of language ability differ on a common item,then the item owns DIF values,which means the item poses different level of difficulty for the two groups.The descriptive statistics indicated that there was significant difference in NMET scores between urban test-takers and rural test-takers.The standardization approach was applied to assess the three NMET papers focusing on urban/rural test-takers by using STDIF software which can detect both uniform DIF and non-uniform DIF.DIF is also investigated for a single writing item using the conditional P-value method.The result shows that no DIF values were found in the three NMET papers between urban and rural test-takers,suggesting that the score difference between the groups could not be attributed to DIF.

Keywords:National Matriculation English Test;differential item function;urban/rural

中图分类号:B841.2

文献标识码:A

文章编号:1003-5184(2019)01-0064-06

基金项目:全国教育科学规划单位资助教育部规划课题《新高考改革背景下的高考质量评价研究》(FBB160604)阶段性研究成果之一。

标签:;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  ;  

关丹丹:全国高考英语试题的城乡项目功能差异分析论文
下载Doc文档

猜你喜欢