刘铁川:方差分析效果大小报告的新指标论文

摘要：心理学期刊论文中可重复性不高的现象，原因之一是研究结果的效果普遍较小。并且在报告效果大小的文章中，效果大小指标使用不当。在方差分析中最经常报告的是η2和但是在不同的研究设计中，这些效果大小是无法直接进行比较的。广义eta方是近年来新出现的一种新的效果大小指标，可克服的η2和不足，灵活处理重复测量等多种研究设计下个体差异的计算问题，实现跨研究设计效果大小的可比性。论文结合实例介绍了的原理和计算方法，并对其优缺点、使用和报告等问题进行了讨论。研究人员在报告效果大小时要考虑到不同的研究设计和研究假设，并选择恰当的指标防止过高估计效果大小。

关键词：效果大小；广义eta方；方差分析

1 引言

近年来，可重复性(replicability)或重现性(reproducibility)在心理学相关领域引起了广泛重视(Francis，2013)。研究的可重复性指不同的研究机构能够客观独立的重复实验，得到与原始结论相同或相似结论的研究。近年来心理学界此类学术不端的行为引发了相关研究者对可重复性问题的重视。如2010年心理学领域的Marc Hauser被指控伪造数据，2011年Daryl Bem被指控选择性筛选数据以及Diederik Stapel的学术造假事件等(Levelt，Noort，& Drenth，2012)。2015年，开放科学协作组(Open Science Collaboration)从2008年发表在Psychological Science、Journal of Personality and Social Psychology和Journal of Experimental Psychology：Learning，Memory，and Cognition三个杂志的448篇文章中选取了符合条件且能够在项目期间完成的158篇，对其中的111篇(70%)进行113项重复研究(其中有2篇各包括两个研究)，最后完成了100(88%)项重复研究，使用p值、效果大小以及元分析进行评估，原始研究中97%的结果是显著的(p<0.05)，但重复研究中只有36%的结果是显著的，主观评定为重复了原始结果的研究仅为39%(Open Science Collaboration，2015)。

因此，在心理学期刊领域已发表的文章中部分文章结果的可重复性仍存在质疑。Baker(2016)调查了1576位研究人员，其中超过70%的研究人员尝试但未能重复另一位科学家的实验，还有超过半数的人未能重现他们本人做过的实验。同时为使论文更易发表，有的研究者甚至选择性地报告研究结果，这也是研究可重复性不高的重要因素。一项研究结果发现，大约40%的研究未能完整报告所有实验条件，约70%的研究选择性地报告问卷中的结果变量，报告出来的效果大小是未报告效果大小的两倍，具有统计学显著性的结果是不具有显著性结果的约3倍，即相比于报告的效果大小，未报告出来的效果大小较小，结果可能不具有统计学意义(Franco，Malhotra，& Simonovits，2015)。

对统计推断的误用或误解是导致可重复性低的另一原因。当检验数据与研究假设是否一致时，误差难以避免，但应尽量避免对零假设的错误拒绝，即假阳性。Simmons，Nelson和Simonsohn(2011)揭示了心理学研究假阳性过高的现象，其提出的解决方案是加强对作者和对审稿人的要求。John，Loewenstein和Prelec(2012)认为可疑操作(Questionable Research Practices，QRPs)是导致心理学研究结果假阳性过高的原因，例如根据显著性检验结果选择性地终止数据采集、选择性报告显著性结果、四舍五入p值以达到统计显著、查看结果后决定是否剔除数据、伪造数据达到统计显著等。为了避免某些情况下将p值表示的统计显著性代替研究实际显著的混淆状况，国外一些学者起先提出了报告效果大小(effect size)(Kirk，1996)来弥补p值对统计结果解释的不足；也有学者提出使用置信区间来表示心理学实验的可重复性，区间宽度越小，实验的可重复性越好(Cumming & Fidler，2009；Miller，2010)；国内也有学者对此进行了分析和解读，聂丹丹等(2016)提出了报告统计结果时尽可能地报告效果大小和置信区间来提高结果的可重复性。

沟内两处滑坡主要变形特征为后缘多处局部滑塌，前缘陡坎局部垮塌，斜坡中部及两侧边界未见明显变形，初步判定沟域两处滑坡处于弱变形阶段。故判断滑坡整体稳定性较好。沙坡滑坡在天然工况处于稳定状态，暴雨工况处于基本稳定状态；该滑坡前缘临空，在长时间暴雨等作用下，极有可能产生整体下滑。马桑坡滑坡天然工况、暴雨工况整体处于稳定状态，但在在长时间暴雨等作用下，也有可能产生整体下滑。

方差分析是心理学研究中常用的统计方法。本文的主要目的是对方差分析中最常用的效果大小指标的可比性问题进行讨论，结合实例介绍近年来新提出的一种新的效果大小指标——广义eta方，并对其优缺点、使用报告等问题进行了分析讨论。

2 国内外广义eta方的研究现状

从1994年开始，美国心理协会(American Psychological Association，APA)建议在主要结果部分报告效果大小(APA，1994)；此后，APA多次重申并规范对效果大小的报告；另外，杂志编辑和学术协会也提出应报告效果大小。美国教育研究协会(AERA)指出当报告统计结果时，应包括“变量之间的量化关系的指标(即效果大小)”和“该效果指标的不确定性的说明”，例如置信区间(Green，Hedges，& Levine，2006)。美国国家教育统计中心(NCES)统计标准规定，当统计结果具有统计学意义时，应考虑对效果大小的实质性解释，观察到的差异可以转化为效果大小，以便解释差异大小(NCES，2003)。随着美国心理协会(APA)对效果大小的报告要求力度日益增加(APA，2001，2010)，心理学及相关学科学术期刊也明确要求报告效果大小。例如，Educational and Psychological Measurement杂志要求“对具有统计意义的结果需要报告和解释效果大小”(Thompson，1994)；Journal of Applied Psychology杂志指出，如果作者没有报告效果大小以及显著性检验的结果，(编辑)将要求作者提供不报告效果大小的具体理由(Murphy & Kevin，1997)。同样，Journal of Consulting and Clinical Psychology杂志指出，“报告统计学意义、效果大小以及临床意义时，增强了对心理治疗效果的评价”(Kendall，1997)。从2014年1月起，Psychological Science杂志建议使用“新统计量”(效果大小，置信区间和元分析)以克服虚无假设检验的局限(Cumming，2014)。

的计算数据的变异来源于研究中的操作因素和个体差异(Individual differences)。个体差异是由于被试稳定、暂时的特性以及实验设置中的不可控特性造成的。例如体重训练方案对力量增长的有效性研究中，性别、身体类型和先前活动水平的个体差异，动机水平和个人暂时健康状况的暂时性特征，以及设备质量或仪器校准等实验设置的差异，都是同一体重训练计划中个人得分差异的来源。要得到一个在各种研究设计中可比较的效果大小指标，效果大小参数要能够识别和调整操作因素的数量和类型，以及个体差异来源或控制程度上的差异。Olejnik和Algina(2003)提出的广义eta方是一个一般化形式的效果大小指标，可实现上述目的，克服η2和的不足，用于包含一个或多个测量因素(即个体差异，可归因于被试稳定或短暂特征，例如个体的性别或动机状态。)或操作因素(由研究者创建)的设计。定义式如下：

2.1 方差分析效果大小的常见指标

研究人员通过报告效果大小和统计显著性检验以更好地呈现研究结果。效果大小是一个标准化的指标和估计参数，量化总体之间的差异大小以及自变量和因变量之间的关系强度，且其值不依赖样本量。

效果大小种类很多，一般将其分为平均差异和关系强度两类指标。基于标准化平均差异，常见的指标有Cohen的d，Hedges的g以及 Glass的Δ；当有两个以上水平的自变量或者是连续变量时，效果大小通常描述的是每个变量所占的方差比例，包括和和以及相关回归分析中常用的指标，比如r2，R2和除此之外还有一些不太常见的指标，比如ε2、f2、φ和Crame的V等，限于篇幅，这里不作展开介绍(D.J.Cohen，1988；Glass，1976；Hedges，1981)。

在方差分析结果中报告最多的是η2和在单因素方差分析中他们的值是相同的。如，在一个被试间设计中，

上式中，SSEffect是待分析因素的平方和，SSTotal是总平方和。由于不同研究设计下的总方差也存在差异，所以η2并不适合跨研究结果的比较。在更复杂的设计中，有不止一个因素，这时，可以识别每一个因素的效果大小，

μj是因素的第j水平的均值，μ是总均值是由于测量因素(如性别)、测量因素与其他因素的交互作用以及协变量引起的方差分量之和。需要指出的是，如果是测量因素的主效应，或者是测量因素与其他因素的交互作用的一个方差分量时，已经包含在中，设置δ=0只是为了避免将其计算分母内两次。另一方面，如果是操作因素的主效应，或者仅仅是操作因素之间的交互作用的一个方差分量时，则没有包含在中，设置δ=1将其加入分母内计算，因为操作因素增加了数据的方差。

避免了η2不同研究设计下总方差不同的问题。对于被试内设计，计算时的分母中的误差项中去除了个体差异，提高了统计功效，这是研究设计的优点之一。然而在计算时，同一自变量在被试内和被试间不同研究设计下，对应的误差项不同，使其在跨被试间和被试内设计中不能直接比较作为η2和的替代方案，适用于至少有一个分类独立变量的设计，使得效果大小在不同的设计间可以比较，用于调查来自同一个总体，但是使用不同的分组因素、协变量或附加因素的一个因素或因素间的交互作用。

2.2 广义eta方的提出和使用

近年来，国内一些学者也逐渐认识到了效果大小的重要性。权朝鲁(2003)较早介绍了效果大小的意义和几个常见效果大小指标的测定方法。胡竹菁和戴海琦(2011)对单因素方差分析和多因素方差分析中不同效果大小指标做了进一步的比较和分析。郑昊敏、温忠麟和吴艳(2011)分析了在不同研究设计或不同数据条件下效果大小的选用和计算。效果大小在量化方面弥补了虚无假设检验的不足，因此，国内几个主流心理学期刊也开始要求投稿论文报告效果大小。

如果待分析因素只包含操作因素，那么，δ=1；如果待分析因素包含一个或多个测量因素及其交互作用，如性别、性别×测量因素，那么δ=0。参数定义为待分析因素的方差。比如J水平的单因素被试间设计，

上式中，SSError是待分析因素对应的误差平方和。

《所罗门国王的宝藏》《金银岛》和《诱拐》等的出版复活了冒险小说，成为未来二十年间出现的男孩行动小说的典范，对大英帝国青少年“情感结构”〔18〕129形成的影响是深刻而持久的。到远方异域寻宝和探险，不仅成为青少年的白日梦，也激活了成年人的激情和欲望。

以下用实例来阐述效果大小参数起作用的方式，及在不同研究设计中估计参数意义。假设在单因素被试间设计中考察四种记忆方法(因素D)对回忆成绩的影响。效果大小即，

于是，第二天午夜之后，有四个人穿过了爱米丽小姐家的草坪，象夜盗一样绕着屋子潜行，沿着墙角一带以及在地窖通风处拼命闻嗅，而其中一个人则用手从挎在肩上的袋子中掏出什么东西，不断做着播种的动作。他们打开了地窖门，在那里和所有的外屋里都撒上了石灰。等到他们回头又穿过草坪时，原来暗黑的一扇窗户亮起了灯:爱米丽小姐坐在那里，灯在她身后，她那挺直的身躯一动不动象是一尊偶像。他们蹑手蹑脚地走过草坪，进入街道两旁洋槐树树荫之中。一两个星期之后，气味就闻不到了。

其中，分母是总方差。

但是这个例子并不意味着分母总是包含总方差。现在假设被试根据性别进行分组，分组后是两因素被试间设计，效果大小变为

这里，为单元内误差或残差，不包括所有由个体差异引起的误差因为性别效应以及性别与因素D交互作用反映了个体差异的变化。可以看出，除了一项，上面两个公式的分母是相同的。所以，尽管两个例子中两个设计是不同的，但定义的效果大小是可比的。

2.2.1 广义eta方的计算和使用条件

在多因素完全随机设计中，操作因素的就等于如，一个两因素设计，A是操作因素，b是测量因素(使用小写字母代表测量因素，比如性别)。如果待分析因素是A，那么SSEffect=SSA，δ=1。

上式中，SSEffect是待分析因素的均方；SSMeasured为测量因素的均方(比如分组因素或者分组×操作因素的交互作用，不包括被试)，是这一类效果的总和。SSκ为所有被试或者协变量的均方，是这种变异来源的总和。

与之间的不同体现在分母上，η2分母中包含所有的方差，和分母中包含了其中的一部分方差。通常，分母中包含的方差比更多。如重复测量设计中，因为包括被试或被试与测量因素的交互作用，所以的分母更大，其值一般小于

在完全随机设计(Completely Randomized Design)中，所有的因素都是操作因素，对于所有的效应，δ=1，并且，

在不同设计间可比较的效果大小的公式如下：

如果感兴趣的是测量因素b，SSEffect=SSb，δ=0。

当两个因素a和b都是测量因素时，

a和b交互作用的就能通过SSab/SST计算。

与的计算不同，对于包含重复测量的设计，计算时，不只被试方差，所有的被试重复测量因素的交互作用(或误差均方)也包括在分母中。被试间因素A的公式如下：

在混合设计中，被试间变量可能是操作因素或测量因素中任一种。例如，在两因素混合设计中，一个重复测量因素(P)，一个被试间因素(A)，被试嵌套在因素A水平之内(s/A)，如果被试间因素是操作因素，那么，SSEffect=SSA，δ=1，

重复测量方差分析是心理学研究中常用的统计方法。由于重复测量的变量几乎都是操作因素，所以单因素重复测量设计下的计算比较简单。设计重复测量因素为P，此时与的主要区别是的计算将个体差异平方和SSs纳入了分母(见表1)。

基于BIM的框架结构智能化审图技术的主要功能包括了框架梁和框架柱的配筋率及配筋构造规范审查，主要涉及了《混凝土结构设计规范》、《高层建筑混凝土结构技术规程》及《建筑抗震设计规程》中的强制性条文，具体功能架构如图3所示。

新课程改革十分注重理论知识和现实生活相结合，因而教师在开展作文教学时，需要结合学生已有的生活经验和知识内涵，在此基础上为其建立生活化学习情境，促使学生在情境中发现能运用到作文中的写作素材。

2.2.2 重复测量方差分析中的广义eta方

本文提出了对于接入海上风电场的区域电网的多风电场无功优化算法,在MATLAB中验证所提出算法的有效性和正确性。

类似地，重复测量因素P的公式如下：

表1给出了AP设计下交互作用及其他设计下部分效应的公式。随着纳入研究变量数量的增加，计算公式也变得更加复杂，Bakeman(2005)以及Olejnik和Algina(2003)提供了其他效应以及更复杂的三因素设计下的计算方法。尽管这些公式在形式上比较复杂，但根据SPSS等统计软件的方差分析结果都可以计算得到也可使用R语言中的ez包(Lawrence，2011)，完成方差分析的同时直接计算得到

旅游发展委员会(部分地区为旅游局)是主管旅游工作的机构，其主要职能是规范旅游市场秩序、监督管理服务质量、维护旅游消费者和经营者合法权益；须规范旅游企业和从业人员的经营和服务行为；组织拟订旅游区、旅游设施、旅游服务、旅游产品等方面的标准并组织实施；指导旅游行业精神文明建设和诚信体系建设；指导行业组织的业务工作○12。但是面对不合理低价产品时，旅游相关管理部门也存在着故意无视现象。

（2）科研环境和配套体系较薄弱。俄罗斯科学家数量居世界第4位，但青年学者不超过25%，科研论文发表居15～18位；加上Yandex一家独大，业务囊括范围广，对于本土人才和数据近乎垄断，其他的人工智能研究资源分散，也降低了科研工作的效率，人工智能开发的优先性和知识产权保护不够完善。

表1A、P、AP、aP和PQ设计下的的计算公式

设计效应Fη2pη2GASSAMSA/MSs/ASSA/(SSA+SSs/A)SSA/(SSA+SSs/A)PSSPMSP/MSPsSSP/(SSP+SSPs)SSP/(SSP+SSs+SSPs)APSSPAMSPA/MSPs/ASSPA/(SSPA+SSPs/A)SSPA/(SSPA+SSs/A+SSPs/A)aPSSPaMSPa/MSPs/aSSPa/(SSPa+SSPs/a)SSPa/(SSPa+SSa+SSs/a+SSPs/a)PQSSPQMSPQ/MSPQsSSPQ/(SSPQ+SSPQs)SSPQ/(SSPQ+SSs+SSPs+SSQs+SSPQs)

注：“A”和“a”分别代表被试间操作因素和测量因素；“P”和“Q”代表被试内因素，其与被试分组的个体差异因素无关，故不会出现小写字母。在被试内设计中，被试因素的交互作用作为误差项，不是操作因素，故使用小写字母“s”代表被试因素。

3重复测量方差分析中广义eta方应用的一个实例

当研究包括重复测量因素时，由于的分母包含了被试方差以及所有被试与重复测量因素的交互作用，所以得出的比更小。比如，两因素重复测量设计中(PQ设计)，P效应的的分母是的分母是SSP+SSs+SSPs+SSQs+SSPQs(即SST-SSQ-SSPQ)。正如Olejnik 和Algina(2003)指出，忽视了个体差异的其他来源，使它在被试间设计和被试内设计的研究中不可以直接比较相同变量的效果大小。

下面使用一个实例具体说明的计算(舒华，1994，p93)。研究目的是检验生字密度(重复测量因素，记作P)、主题熟悉性(被试间因素，记作a)对阅读的影响，为aP设计。经SPSS输出结果整理为如下方差分析表(表2)。

城市防洪——言行一致是根本。在认识城市防洪的重要性以及明确防治方法后，将其付诸行动才是城市防洪最根本的环节。“两学一做”，能否有成效还看在“做”上，党员要以身作则，群众也应向组织靠拢，严格要求自己，任职于政府部门的同志更应不忘初心，牢记使命。

表2计算实例方差分析表

来源平方和自由度均方FP值η2pη2G主题熟悉性a80.667180.66715.8690.0070.7260.472Error(a)30.50065.083生字密度P81.083240.542162.167<0.0010.9640.322a×P56.583228.292113.167<0.0010.9500.331Error(P)3.000120.250总和251.83329

SPSS计算的被试间的a和a/s的平方和分别是80.667和30.500；被试内P、Pa和Ps/a的平方和分别是81.083、56.583和3。所以，主题熟悉性(a)的生字密度(P)的交互作用的正如我们预期的，小于生字密度和交互作用的几乎是的三倍。

从计算过程中，能够看出，在主题熟悉性(a)中，没有考虑到重复测量因素即生字密度(P)及其与主题熟悉性(a)的交互作用SSPa+SSPs/a，所以得到的值大于在重复测量因素生字密度(P)中，没有考虑到主题熟悉性(a)、其被试因素及其与生字密度(P)的交互作用SSa+SSs/a+SSPa，所以得到的值大于和差异的大小取决于测量因素以及测量因素和操作因素的交互作用的方差使分母增加的程度。

4 讨论和总结

在报告方差分析的效果大小中，的应用率并不高，在国内则更少。方差分析报告最多的效果大小是可能与心理学研究中使用SPSS较多有关的优势在于提供了跨研究比较的可能性，对于心理学研究结果的累积是有价值的。此外本文还有一些关于的使用条件需要完善。首先，还没有文章提出针对的解释标准。Cohen(1988)提出的针对η2的标准，即定义η2(与Cohen的f2)0.02为小效应，0.13为中等效应，0.26为大效应。尽管Cohen没有考虑重复测量设计，这一标准对似乎也是合适的。事实上，理想的标准应来自研究的问题，根据变量的实际影响或作用来判断其效果的大小，而不是参考固定的某种标准。

从表10中可以看出，西部矿业股份有限公司2013～2017年的速动比率分别为0.99、1.01、0.87、0.79、0.82，企业这五年的速动比率有一定的波动，但波动幅度不大企业流动资产立即变现用于偿还流动负债的能力较弱。

其次，的使用也是有局限性的，并不能解决所有的可比性问题。无法控制实验设置特性的变化或者抽样于不同的总体都会影响到的设计。例如，在前例记忆方法的研究中，第一种情况下，A组实验在早上进行，B组被试自行选择在早上、中午或者晚上，在B组中时间是没法记录的，如果存在一天的时间效应，那么尽管在两个研究中，是一样的，但是效果大小是不一样的。第二种情况下，假如C组被试年龄在60岁～75岁之间，D组被试年龄范围不受控制。虽然两组中是一样的，但是C组中更小了。正如Olejnik和Algina(2003)所说，当样本来自不同的总体时，效果大小是不可比的无法解决此类可比性问题。

第三，的置信区间难以得到。报告统计结果时，除了点估计外，应可能提供置信区间作为一个较新的效果大小指标，常见的统计软件并不提供，虽然通过方差分析表容易计算其值，但其置信区间却不易得到，使得研究者难以评价估计结果的可靠性。

对于一些简单的设计，和η2没有差别。对于单因素被试间方差分析，不管是操作因素还是测量因素(A或a)，都和的值是一样的。对于操作因素的被试间设计(AB、ABC等)，和是相同的，但是如果包含被试间测量因素，那么小于同样，对于单因素(P)的重复测量方差分析，和η2是相同的，但是对于其他被试内设计或者混合设计，小于

总之，研究者在报告一个或多个重复测量方差分析的结果时，建议报告由于其易于计算，且不管是被试间设计还是被试内设计，的值是可比较的。

现阶段，我们最常用的数据信息安全保障技术就是身份验证。这一技术主要就是通过网络软件和系统，进而进行账号验证或者密码验证等等。在完成验证并且验证正确之后，才能够进入到系统当中，进而进行接下来的操作。在实际的操作过程当中，为了能够有效的提升安全性，我们可以将账户和密码两者分开存储，然后通过短信的方式，来进行信息通信。现阶段，随着科技的不断发展，衍生了非常多的新型验证模式，包括指纹识别等等。

参考文献

胡竹菁，戴海琦.(2011).方差分析的统计检验力和效果大小的常用方法比较.心理学探新，31(3)，254-259.

聂丹丹，王浩，罗蓉.(2016).可重复性：心理学研究不可忽视的实践.中国临床心理学杂志，24(4)，618-622.

权朝鲁.(2003).效果量的意义及测定方法.心理学探新，23(2)，39-44.

舒华.(1994).心理与教育研究中的多因素实验设计.北京：北京师范大学出版社.

郑昊敏，温忠麟，吴艳.(2011).心理学常用效应量的选用与分析.心理科学进展，19(12)，1868-1878.

American Psychological Association.(1994).PublicationmanualoftheAmericanPsychologicalAssociation(4th ed.).Washington，DC：American Psychological Association.

American Psychological Association.(2001).PublicationmanualoftheAmericanPsychologicalAssociation(5th ed.).Washington，DC：American Psychological Association.

American Psychological Association.(2010).PublicationmanualoftheAmericanPsychologicalAssociation(6th ed.).Washington，DC：American Psychological Association.

Bakeman，R.(2005).Recommended effect size statistics for repeated measures designs.BehaviorResearchMethods，37(3)，379-384.

Baker，M.(2016).1，500 scientists lift the lid on reproducibility.Nature，533(7604)，452-454.

Cohen，J.(1988).Statisticalpoweranalysisforthebehavioralsciences.Hillsdale，N.J：L.Erlbaum Associates.

Cumming，G.，& Fidler，F.(2009).Confidence intervals：Better answers to better questions.ZeitschriftFürPsychologie，217(217)，15-26.

Cumming，G.(2014).The new statistics：Why and how.PsychologicalScience，25(1)，7-29.

Francis，G.(2013).Replication，statistical consistency，and publication bias.JournalofMathematicalPsychology，57(57)，153-169.

Franco，A.，Malhotra，N.，& Simonovits，G.(2015).Underreporting in psychology experiments：Evidence from a study registry.SocialPsychological&PersonalityScience，7(1)，1-5.

Glass，G.V.(1976).Primary，secondary，and meta-analysis of research.EducationalResearcher，5(10)，3-8.

Green，J.L.，Hedges，L.V.，& Levine，F.J.(2006).Standards for Reporting on Empirical Social Science Research in AERA Publications：American Educational Research Association.EducationalResearcher，35(6)，33-40.

Hedges，L.V.(1981).Distribution theory for Glass’s estimator of effect size and related estimators.JournalofEducationalStatistics，6(2)，107-128.

John，L.K.，Loewenstein，G.，& Prelec，D.(2012).Measuring the prevalence of questionable research practices with incentives for truth telling.PsychologicalScience，23(5)，524-532.

Kendall，P.C.(1997).Editorial.JournalofConsultingandClinicalPsychology，65(1)，3-5.

Keppel，G.(1991).Designandanalysis：Aresearcher’shandbook.Upper Saddle River(NJ)：Prentice-Hall.

Kirk，R.E.(1996).Practical significance：A concept whose time has come.EducationalandPsychologicalMeasurement，56(5)，746-759.

Lawrence，M.A.(2011).ez：Easyanalysisandvisualizationoffactorialexperiments.R package version 3.0-0.http：//CRAN.R-project.org/package=ez

Levelt，P.，Noort，E.，& Drenth，P.(2012).Flawedscience：ThefraudulentresearchpracticesofsocialpsychologistDiederikStapel.Retrieved from http：//www.tilburguniversity.edu/upload/3ff904d7-547b-40ae-85fe-bea38e05a34a_Final%20report%20Flawed%20Science.pdf

Miller，G.(2010).Cognition research.Investigation leaves field in the dark about a colleague’s work.Science，329(5994)，890-891.

Murphy，& Kevin，R.(1997).Editorial.JournalofAppliedPsychology，82(1)，3-5.

National Center for Education Statistics.(2002).NCESstatisticalstandards.Washington，DC：Department of Education.

Olejnik，S.，& Algina，J.(2003).Generalized eta and omega squared statistics：Measures of effect size for some common research designs.PsychologicalMethods，8(4)，434-447.

Open Science Collaboration.(2015).Estimating the reproducibility of psychological science.Science，349(6251)，aac4716.

Simmons，J.P.，Nelson，L.D.，& Simonsohn，U.(2011).False-Positive Psychology Undisclosed Flexibility in Data Collection and Analysis Allows Presenting Anything as Significant.PsychologicalScience，22(11)，1359-1366.

Thompson.(1994).Guidelines for authors.EducationalandPsychologicalMeasurement，54，837-847.

ANewEffectSizeIndicatorofAnalysisofVariance

Liu Tiechuan Wang Shanshan Gui Yali

(School of Education Science，Gannan Normal University，Ganzhou 341000)

Abstract：One of the reasons for the low repeatability in psychological research is that the effect size are generally small.And in the article reporting the effect size，the effect size indicator is not used properly.The most frequently reported indicators for ANOVA are eta squared and partial eta squared.But these two indicators are not comparable across different research designs.Generalized eta squared that has emerged in recent years can overcome traditional indicators’ shortcomings，and achieve comparability by considering individual differences in many kinds of research designs.The present paper introduces what is generalized eta squared and how to calculate it with examples.Advantages，disadvantages and reporting of it are also discussed.Researchers should consider different research designs and research hypotheses and choose appropriate size measures to prevent overestimation.

Keywords：effect size；generalized eta squared；ANOVA

*基金项目：江西省教育科学“十三五”规划课题(17YB173)。

通讯作者：刘铁川，E-mail：liutiechuan@gmail.com。

中图分类号：B841.2

文献标识码：A

文章编号：1003-5184(2019)03-0238-06

标签：因素论文; 方差论文; 效果论文; 大小论文; 测量论文; 哲学论文; 宗教论文; 心理学论文; 心理学研究方法论文; 《心理学探新》2019年第3期论文; 江西省教育科学“十三五”规划课题(17YB173)论文; 赣南师范大学教育科学学院论文;