【摘 要】双重差分设计作为计量经济学的一种重要方法,被广泛应用于各项经济政策、卫生政策和环境政策等效果评估之中,并取得了较好成果。国内学术界对其内在逻辑、核心假设和最新进展还缺乏系统性回顾与评价,这有可能使得该方法被忽略或误用。本研究试图从因果推理的潜在结果模型出发,回顾该设计的起源和传统,对经典DID设计的核心思想进行表格、图形和模型表述。与此同时,对现有DID设计的不同扩展形式进行了阐述,进一步指出当前DID设计的最新进展是围绕着放宽假设的技术路径和讨论新问题的政策路径展开,前者更多是模型取向研究,后者更多是设计取向研究。对DID设计在中国应用情况进行了总体描述,重点讨论了主要的政策应用领域,并指出公共政策学者应该重视基于因果推理的政策评估。
【关键词】政策评估;DID设计;双重差分;三重差分;技术路径;政策路径
因果推理的可信革命正在发生,经济学研究的“经验转向”越来越明显,基于设计的计量经济学正在成为基于模型的计量经济学的有力竞争者(Angrist&Pischke,2010;Angrist&Pischke,2017;Angrist et.al.,2017)。设计取向的计量经济学使得经济学开始重新审视实验与准实验设计,并用潜在结果模型作为因果推理的统一框架,以连接观察 研 究 和 实 验 研 究(Rubin,1974;2005;Rosenbaum,2018;李文钊,2018)。设计和经验的双重转向为政策评估的研究提供了新的可能性,这也使得项目和政策评估的计量经济学成为一个新的研究领域(Imbens&Wooldridge,2009)。这意味着,政策评估、因果推理与计量经济学三者之间联系更为紧密。尽管随机实验是因果推理和政策评估的“黄金法则”,但是现实中的政策干预并非遵循随机实验逻辑,这促进经济学者研究寻找替代方案。双重差分设计(Difference-in-Differences,简称DID)被称之为准实验研究中三种最重要的设计之一①(Angrist&Pischke,2010:12)。
无人艇能够执行海洋环境检测与目标识别等多种类型的任务。现有的无人艇体积小、重量轻,当无人艇在广阔海域执行路径跟踪任务时,环境影响是主要的干扰因素。[1-3]从提高效率的角度,多数无人艇控制器在设计中并没有充分考虑环境因素的影响。[4-6]而当海洋环境影响特别强烈时,无人艇就很难完成既定的航向控制策略。因此,精确高效的控制算法是确保无人艇在复杂海况下实施航向控制的关键。[7-8]
双重差分设计作为计量经济学的一种重要方法,被广泛应用于各项经济政策、卫生政策等效果评估之中,并取得了较好效果(Bertrand,Duflo&Mullainathan,2004;Lechner,2011;Dimick&Ryan,2014)。为了使得政策评估更具有科学性,更好地为政策实践提供有用知识,改进公共政策质量,政策评估研究需要实现因果推理转向,加入因果推理可信革命的研究行列,将随机实验和DID等准实验设计引入政策效果评估中,建构基于因果推理的政策评估体系,实现知识和影响的双重跨越。本文结合DID中的政策评估经典案例,重点从政策评估视角来讨论DID设计,研究政策评估、因果推理和DID设计之间关系,回顾DID设计的起源,系统阐述经典DID设计的理论、模型和核心假设,讨论经典DID设计的不同变体,并对DID设计对政策干预时间差异性的最新研究进行分析,指出它对中国政策评估研究和实践的重要启示和借鉴意义。
一、政策评估、因果推理与DID设计的起源
最早将政策评估与因果推理联系起来,并寻找解决政策评估效度问题的学者应该是唐纳德·坎贝尔,他和他的研究团队系统地提出了基于因果推理的政策评估实验和准实验研究设计思路(Campbell&Stanley,1963;Campbell,1969;1979;Shadish,Cook&Campbell,2002)。在坎贝尔看来,政策评估是实验社会的重要组成部分之一,甚至是实验社会的关键环节,他指出:“美国和其他现代国家应该为社会改革的实验途径作好准备,这一途径意味着我们要试验新的项目来解决问题,我们学习这一项目是否有效,我们在多样性的不完美的标准之下基于项目的明显有效性来保留、模仿、修改和抛弃他们。”(Campbell,1969:409)。由此可见,实验社会需要试验新的方法、评估效果和根据效果采取新的决策,在这三个阶段中,寻找探究项目和政策效果的方法显得尤其重要。
坎贝尔将他的大部分学术生涯投入到对政策评估的方法设计之中,他称之为实验社会的方法(Campbell,1991)。坎贝尔的贡献对项目评估学科产生了重要影响,他们的理论和方法成为项目评估的重要研究路径之一(Shadish,Cook&Leviton,1991)。而他关于实验设计与准实验设计,30多年后才对经济学产生影响,经济学者重新思考其设计思路对于经济学方法革命的意蕴(Angrist&Pischke,2010)。间断时间序列设计(Interrupted time series design,ITS)和断点回归设计(RDD)是坎贝尔对准实验设计的重要贡献,这些设计后来被经济学家“重新发现”,其中间断时间序列设计是以DID设计的形式展现,而断点回归设计则延用了坎贝尔最初对该设计的命名。DID设计除了借鉴间断时间序列设计的思路之外,对照组前后设计是其主要思想来源,其核心是强调既有对照组,又有前后测量,而这些正是坎贝尔对于有对照组前后测量设计和间断时间序列设计讨论的主要内容,他们构成了DID设计的早期起源(Shadish,Cook&Campbell,2002)。坎贝尔等实验和准实验设计学者特别强调使用符号来展示设计,其中X代表一个组暴露于实验变量或事件之中,O代表观察或测量过程(Campbell,1957)。于是,有对照组的前后测量设计和间断时间序列设计的符号表述如表达:
DID设计有时候除了控制时间因素之外,还会考虑时间变化情况之下的干预效应。于是,计算干预在不同时间的效果,这构成了对DID设计的另一种扩展。对于这种扩展,一般而言是在公式8和公式9后面增加更多的干预后时间与干预之间交互项,它意味着当干预发生在后一年时,该年取值1,而所有非该年的取值0,如此类推对所有干预发生后的年份赋值(见公式10和11)。
经济学者对于政策评估的重视主要是因为他们对因果推理的关注,政策作为一种“干预”,成为讨论因果推理的叙事载体,这也使得政策评估天然成为因果推理的“实验场”,并发展成为一个新的计量经济学研究领域(Imbens&Wooldridge,2009)。这意味着,政策作为一种“干预”,与药物作为一种“干预”一样,都是“干预”的不同表现形式。每一种“干预”都需要讨论其“效果”,“干预效果”(Treatment effect)成为政策、医药、教育等各个领域的共同关注点。简而言之,因果推理成为这些不同“干预”的统一框架,正是因为这一原因,使得因果推理成为统计学、经济学、公共政策学、生物医学等不同学科共同关注的话题,因果推理也使得跨学科研究成为可能(Imbens&Rubin,2015)。经济学者通常会将DID设计最早归于英国麻醉学家、流行病学家约翰·斯诺(Snow,1885)有关霍乱到底是由于空气原因,还是自来水原因引起。他很巧妙地应用两个邻近的水厂进行对比,一个水厂改变取水来源,使用更清洁的水,另一个水厂维持不变,由于这两个水厂位置邻近,这使得疾病差异是由于水的清洁程度引起。斯诺的研究,对于公共卫生学者产生了较大影响,也是首次使用DID设计的尝试。迈克尔·莱希勒(Lechner,2011)对经济学者使用DID设计的历史进行了回答,并重点指出了DID设计在政策评估中的应用,如最低工资对就业的影响、失业人员培训项目对劳动力市场影响、移民对地方劳动力市场的影响等。
对于经典DID设计,我们可以用潜在结果模型来展现其内在逻辑,并对其双重差分进行识别(Imbens&Rubin,2015;李文钊,2018;Lee,2016)。DID设计中包含四个组别,可以分别用Qi来指称被干预,它是一个虚拟变量,由0和1构成,0代表不被干预,1代表被干预。Si用来指称时间的虚拟变量,当t=2时,Si=0,当t=3时,Si=1。Wi代表分组变量,(Q,W2,Y2)表示当Si=0时被观察的值,而(Q,W3,Y3)表示当Si=1时被观察的值。于是,根据DID的定义,干预效果的双重差分可以表达为如下公式1:
表1 有对照组前后测量设计和间断时间序列设计
来源:作者自制
研究设计 符号有对照组的前后测量设计 NRO1XO2 NRO1O2间断时间序列设计 O1O2O3O4O5XO6O7O8O9O10比较间断时间序列设计(CITS)O1O2O3O4O5XO6O7O8O9O10 O1O2O3O4O5O6O7O8O9O10
对于政策评估与因果推理之间内在关系,赫克曼有明确和系统阐述(Heckman,2005)。在他看来,政策评估的核心问题包括三个:问题1:评估历史上的干预(Historical Intervention)对结果的影响,以及这一影响在福利方面的表现;问题2:预测一个环境之下执行的干预在其他环境之下的影响(建构反事实),以及这一影响在福利方面的表现;问题3:预测历史上从来没有实施的干预对于其他环境的影响(建构与干预有关的反事实),以及这一影响在福利方面的表现(Heckman,2005:7-9)。显然,这三个评估问题都是因果推理的不同表现方式,第一个问题是对已经发生事件的因果关系进行推理,第二个问题是因果推理中的外部效度问题,而第三个问题则是因果预测。
其中,郑州的中介中心度一直居于首位,表明郑州市节点网络开放程度较高,在河南省旅游经济联系的网络中处于枢纽地位,对其他城市的控制力强、依赖程度低,但是过度依赖郑州的中介作用,将致使河南省旅游经济网络具有一定脆弱性,一旦中介城市缺失,会导致整个河南省旅游经济网络的瘫痪。但相比2010年,2016年郑州的中介中心度下降幅度达到76.96%,洛阳和开封的中介中心度上升幅度分别为70.65%和53.40%,说明郑州的垄断地位正在受到洛阳和开封的挑战。
对于DID设计的模型而言,DID设计的表格呈现只是模型的一个特例,即模型只有4组数据的结果。我们可以重新使用公式6对DID设计的表格内容进行呈现,这里Q和S分别取值1和0,Q=1表示干预,Q=0表示控制,S=1表示干预组,S=0表示对照组,形成模型和表格的结合形态(见表3)。
二、经典DID设计的理论、模型与核心假设
经典DID设计是对前后设计(Before-After Design)的扩展,它强调增加一组对照组的前后差异,比较干预组的前后差异和对照组的前后差异之间差异,形成了准实验设计中有对照组的前后测 量 设计 (Lee,2016;Shadish,Cook&Campbell,2002)。增加对照组的目的,主要是为了消除干预组在接受干预前后其他影响的影响。简而言之,混淆变量同时在干预组和对照组发挥作用,这使得其净效应能够通过干预组前后差异和对照组前后差异之间差异以消除。由于这是对两种差异的比较,DID设计又被称之为“双重差分”(double difference)。因此,经典DID设计,必须包含干预前和干预后两个时间点,以及干预组和对照组两个组别,这样形成四个可观察变量。周黎安和陈烨(2005)结合农村税费改革分区试点的做法,利用DID设计,使用安徽、江苏、山东、福建、河北、河南和湖南7个省全部县和县级市(共591个)1999年至2002年的相关社会经济数据对税费改革的政策效果进行了评估,他们发现税费改革使农民纯收入平均而言提高约1.3至1.5个百分点,对样本期间农民纯收入增长的贡献高达45%左右,而且该影响至少持续一年以上。在他们的研究中,税费改革构成了干预,安徽省的一些县最开始试点,随后推广到其他省市,有一些省的县始终没有试点税费改革,这些县可以作为对照组。
泰心医院一向关注小儿先心病的预防与治疗,目前与国内外多个慈善项目开展全方位合作,免费为来自27个省区市、18个民族的11000多名孤、贫先心病儿童实施了先心病根治手术。医院还与天津市妇儿保健中心合作,在国内率先开展儿童先心病筛查工作,已筛查110余万儿童,有手术指征的患儿得到了及时手术。
(一)基于潜在结果模型的DID设计
二期心墙沥青混凝土仍采用原设计材料和配合比,沥青砂浆原材料可利用工程现有沥青混凝土原材料,细骨料可采用成品料适当调整级配,建议配比见表2,并根据现场生产性试验最终确定。
通过公式1,可以看出它与潜在结果模型对因果定义存在偏差,它要求对同一对象同时接受干预或不接受干预的值进行比较,很显然Q=1时,我们只能够观察到的Y13,不能够观察到它没有接受干预时的值。目前的估计是使用干预组前测和对照组前后测量的值来估计干预组在没有接受干预时的测量值。要真正计算干预对于干预组在t=3时刻的干预效果,就需要引入潜在结果。如果引入潜在结果,我们可以形成公式2:
郑新业等学者(郑新业,王晗,赵益卓,2011)以河南省数据为例,利用DID设计对省管县是否促进了经济增长这一问题进行了研究。他们研究发现在分离了其他因素对经济增长的影响之后,“省直管县”政策提高了被直管县的经济增长率1.3个百分点,并且认为经济增长是由经济分权而非财政分权影响,而经济分权的结果主要是因为周边企业向试点县迁移产生的结果。在这项研究中,他们使用了经典的DID模型,并形成了参数估计。
通过潜在结果模型的重新表述,我们可以将DID设计的核心逻辑总结为公式4和公式5。公式4是用潜在结果模型来定义DID,而公式5则是公式2得以成立的条件,它要求时间不会对干预组和对照组产生影响,这也是所谓的“时间固定效应”:
(二)DID设计的表述方式
一般而言,DID设计可以有三种表述方式,即表格、图形和模型。表格和图形的优点是比较直接,并且易于理解,而模型的优点则是可以进行参数估计。用表格来展现DID设计,通常会使用2*2的表格,行来表示干预组和对照组,列表示干预前后,通过对干预组前后差异与对照组前后差异的比较,来计算最终效果。Richardson和Troost(Richardson&Troost,2009)利用美国1929年至1939年期间的大危机时期不同区域的货币政策,通过DID设计估计了中央银行干预对于银行业的影响,他们的研究表明干预可以起到保护银行的作用,这使得第6区的银行倒闭数量与第8区相比,减少19家(见表2)。
表2 货币政策对于银行业的影响
来源:Richardson&Troost,2009
干预前银行数量(1930)干预后银行数量(1931) 差异干预组(Atlanta,第6区) 135 121 -14对照组(St.Louis,第8区) 165 132 -33干预效果 19
图形是DID设计的第二种表述方式,与表格相比,它可以更直观地展现干预效果,并且对DID设计的核心假设也有较好的呈现(见图1)。从图1可以看出,DID设计可以在横轴中用时间来描述,t1和t2分别为干预前后的时间点,在纵轴中展示结果,两条线分别为对照组和干预组,其中对照组为实线,表示一直没有受到干预,干预组中有一部分虚线,表示接受干预使得趋势发生变化。根据潜在结果模型,干预效果应该是同一时间点接受干预和不接受干预的差值,这是图1中用大括弧表示的效果差异。很显然,在现实中,我们只能够观察一种结果,要么接受干预,要么接受控制,这就需要对干预效果进行估计。在干预组和对照组遵循“平行趋势”的假设之下,很容易通过等值互换,而得出干预效果为干预组前后差异与对照组前后差异之间的差异,也即干预组和对照组的双重差异。
图1 DID设计的干预效果
来源:作者自制
表格属于非参数估计的范畴,这对只涉及4组数据时可以实现,而一旦增加更多的前后观测数据,就需要使用参数进行估计。模型是DID设计的第三种呈现方式,这一模型至少包含四组变量,即代表干预状态的虚拟变量Q,代表时间状态的虚拟变量S,代表双重差异的交互变量QS,代表组别其他需要控制变量W(见公式6)。也有学者直接用TREAT表示干预,用POST表示时间,d表示组别变量,t表示时间变量,对于其他需要控制的变量忽略,形成一个简单的干预效果(见公式7)。
在进行政策评估时,要在政策与干预之间建立因果联系和实现因果推理,随机实验是黄金法则。正是因为这一原因,越来越多的政策干预引入随机实验模式,如比较有名的兰德实验(RAND experiment)(Aron-Dine,Einav&Finkelstein,2013)。不过,很多时候,随机实验并不能够实现,这使得越来越多的学者开始探索准实验设计,在干预已经实现的情况之下,通过研究设计来更好地评估干预效果。其中,DID设计作为一种准实验设计,它只需要寻找与实验组具有“平行趋势”的对照组,由于简单易行和成本较低目前被广泛使用(Bertrand,Duflo&Mullainathan,2004)。这意味着,经济学者对有对照组前后测量设计和间断时间序列设计进行了理论化和模型化,使之成为经济学中探讨因果推理的一种重要设计。
表3 使用模型和表格来呈现DID设计
来源:作者自制
干预前 干预后 差异干预组 β1+βt β1+βt+βq+βd βq+βd对照组 β1 β1+βq βq差异 βd
于是,DID设计满足潜在结果模型的条件就是后面四组数据之和为零,这意味着DID设计的识别条件是公式3。这一公式也就是通常所说的“平行趋势”假设,它强调假设干预组没有接受干预时,它的趋势是与现有对照组的趋势是一致的,或者说干预不会对不同时间的干预组和对照组的趋势产生影响。
本研究的主要目的在于探讨锦鲤式营销的运营机制以及成功关键要素;同时,锦鲤式营销作为一种网络营销的新模式,具体的运营机制还处于摸索阶段,且涉及该领域的学术研究还处在有待发展的阶段,使得我们无法从之前的研究中得出结论,因此案例研究方法比较适合本研究的研究情景。此外,本研究采用多案例的方法,首先将每一个案例作为独立的整体进行深入的分析,即案例内分析,在彼此独立的案例内分析的基础上,依托同一主旨,对所有案例进行归纳、总结,并得出研究结论,以更全面地反映案例的不同方面。
(三)DID设计的核心假设
对于DID设计的核心假设,尽管不同学者有不同总结,“平行趋势”假设或“共同趋势”假设是最基本的假设之一,也是DID的核心假设。迈克尔·莱希勒(Lechner,2011)对将其概括为稳定单位干预价值假设(Stable Unit Treatment Value assumption,SUTVA)、外部性假设(exogeneity,EXOG)、干预对干预前群体不发挥作用假设(no effect on the pre-treatment population,NEPT)、共同趋势假设(common trend,CT)、偏差稳定假设(bias stability,BS)、共同支持假设(common support assumption,COSU)。SUTVA这一假设是鲁宾提出,他认为潜在结果模型的核心假设是SUTVA,并指出这一假设的含义是:“SUTVA是一个简单的先验假设,它强调无论分配干预t到单位u的机制是什么,以及无论其他单位接受什么样的干预,单位u受到干预t的影响而形成的价值Y总是相同的。”(Rubin,1986:961)。EXOG假设强调干预不会对混淆变量产生影响,混淆变量与干预变量之间不具有内生关系,这也是回归的基本要求,如霍桑实验就是干预对混淆变量产生了影响。NEPT假设强调干预不会对干预前的结果产生影响,这与EXOG假设很相似,它只是强调因为预期接受干预而对干预前结果产生影响。CT假设前面已经讨论,它们强调干预组和对照组拥有相对的趋势,干预组不接受干预时会遵循对照组的运行趋势,而对照组接受干预时则会遵循干预组的逻辑。BS假设强调干预组和对照组在接受干预之前的偏差会在没有接受干预时继续得以保留,这意味着时间不会对两组产生影响,很显然CT假设和BS假设是相同的假设。由此可见,BS假设和CT假设都需要发现“反事实”,即干预组在没有接受干预时的结果,并且假定这个结果与干预前的结果之差能够与现有可观察的对照组前后差异值相等。COSU假设强调在所有的四组数据中,都包含着共同的控制变量。
三、DID设计的扩展:时间效应、组别效应和三重差分
经典的DID设计只包括前后两个时间段,对于DID设计的扩展是增加更多的前后时间段。这样,DID设计就与比较间断时间序列相似,都既包含着对照组,又包含着更多的干预前和干预后数据(Clair,Cook&Hallberg,2014)。例如,讨论“醉驾入刑”对于减少交通事故的影响,可以收集采纳这一法律的州和没有采纳这一法律的州在政策出台前后的交通事故率,从而更好地估算该项政策的效果。对于增加更多前后时间的序列数据,可以使用公式6和公式7来计算,这意味着它所将所有数据都转换为四种类型,干预组在接受干预前后的数据,以及对照组没有接受干预前后的数据。
(一)考虑时间效应的DID设计扩展
一旦对经典DID设计进行扩展,包含更多的时间序列数据,这可能会对DID设计中的核心假设构成了挑战。一般而言,潜在结果模型主要是针对两个时间点的数据进行分析,而包含更多时间数据这使得潜在结构模型的核心假设面临很多困难,这尤其体现在如何控制除了干预变量之外的混淆变量,因为时间序列使得更多因素不具有可控性。在不同时期,可能发生不同的历史事件,有可能是这些历史事件是结果的原因。例如,一个针对失业人员培训的项目,经过两年之后,可能正好遇到经济危机使得整个社会的失业率上升,或者遇到技术升级与变革,这些因素都可能使得接受培训或者不接受培训差异性不大,接受培训的人员很有可能和不接受培训的人员一样找不到工作,外部因素使得干预失效。
为了解决DID设计中包含更多的时间序列数据可能导致的混淆现象,学者们通常将经典DID设计的平行趋势等假设应用于时间序列数据分析中,认为干预组和对照组在此后的时间序列中仍然会满足模型的“识别”条件,于是混淆现象的问题就不是根本性问题。与此同时,他们将时间因素从混淆变量中分离出来,对经典DID设计进行扩展,对时间效应进行控制。于是,形成了控制时间效应的新的DID模型估计,见公式8和9。
在公式9中,Sit表示当t=1,……T时,Sit=1,这是对干预后的时间表示,它对公式6中的代表干预时间虚拟变量S进行了细分,将干预后的所有时间序列进行平均分配,进而使得这些干预后的时间效应能够得到控制,从而更好地估计干预效果。公式9意味着,干预后的时序序列数据,分别由两部分因素构成,一部分是时间因素,一部分是干预效果,通过控制时间因素而使得干预效果更加真实。
如在教学一年级《分类》一课时,开展小组合作,利用所提供的商品布置“小商店”。在教学《立体图形的认识》一课时,让学生组内合作,利用长方体、正方体、圆柱体、球体拼摆出你喜欢的东西。通过这样的练习,使学生真正参与到合作学习中来,体验到合作学习的乐趣,培养了学生主动参与的意识。小组合作学习问题的难度就是要处于学生的最近发展区,这些问题不能离开学生已有的知识结构,也不能超越学生当前的认识能力,要使问题经过小组的努力合作能够得到解决。
由于f1,f2,f3,f4是方程(3)的非常数整函数解,则一定线性无关。事实上,若线性相关,则存在不全为零的常数c1,c2,c3,c4,使得不失一般性,假设c4≠0,结合(3)式得
伊萨和利布曼(Eissa&Liebman,1996)在讨论所得税抵扣(earned income tax credit,EITC)对拥有孩子的单身女性参与劳动力市场和工作时间的影响中,除了使用DID设计讨论1986年美国税收改革前后的影响之外,还进一步分析了这种改革对后续时间的影响。他们使用1984年至1986年数据和1988年至1990年数据,研究结果表明EITC改革使得拥有孩子的女性就业论增加2.8%个百分比,对于劳动时间没有影响,这也说明税收改革取得了预期效果。而通过进一步引入1988年、1989年和1999年的虚拟变量,这有利于考察政策干预的时间效应,EITC对于劳动力市场的影响分别是0.008、0.0029和0.0028。
近些年来,随着介入医学技术的发展成熟,超声或CT引导下介入治疗NPVC取得了新进展。在影像学技术引导下,向囊腔内插入穿刺针并抽尽囊液,随后向其内注入无水乙醇等治疗药物[32],通过药物破坏囊壁的分泌细胞,使囊壁上皮细胞脱水凝缩,蛋白质凝固变性,引起囊壁粘连、纤维化而使得囊壁闭合[18]。与手术相比,介入治疗具有操作简单、痛苦较轻、对机体影响小等优点,且无严重并发症。有关文献报道,介入治疗囊肿性疾病的有效率为100%,适用于年老体弱、基础疾病较多、一般状态较差、不适合进行手术治疗的患者[33]。
由图5可知,第1股水氨氮浓度为1 700 mg/L,其氨水最低采出浓度为31 927 mg/L,最高采出浓度为67 875 mg/L,未达到设计值;出水氨氮浓度即塔釜液氨氮浓度在75 mg/L以内,其平均值为69.4 mg/L,满足设计值。第2股水氨氮浓度为3 500 mg/L,其氨水低采出浓度为86 732 mg/L,最高采出浓度为138 830 mg/L,未达到设计值;出水氨氮浓度在45 mg/L以内,其平均值为33.3 mg/L,满足设计值。
(二)考虑时间效应和组别效应的DID设计扩展
对经典DID设计的第三种扩展是增加更多的对照组和控制组,即使用面板数据来进行DID设计。同时,面板数据中也可以包含更多前后时间序列数据,这样更复杂的面板数据就可以同时控制时间效应和组别效应。从模型的角度看,使用基于面板数据的DID设计,就需要在基本的方程中分别增加组别效应和时间效应的回归。公式11和公式12分别讨论了只有两个时间段和多个时间段的方程,前者不需要控制时间效应,只需要控制组别效应,后者同时需要控制时间效应和组别效应。
蓄洪区(汉南泛区)位于中下段行洪道和分蓄洪区外包线围堤之间,历史上曾是长江和汉江的自然洪泛区。蓄洪区总面积611.77km2(其中蓄洪区 460.13 km2,备蓄区 151.64 km2),蓄洪水位30.0 m以下蓄洪容积38.3亿m3。目前,蓄洪区内共有21个蓄洪围垸,围垦面积约占蓄洪区面积的91%。除仙桃市保丰垸垸堤严重欠高外,其余蓄洪围垸都具有一定的蓄洪能力。
对于公式12而言,当只有两期和多组数据时,这意味着不需要控制时间效应,只需要控制组别效应。而公式13则除了包含多组数据之外,还包括多个时间的数据,同时控制了时间效应和组别效应。无论是公式12还是13,他们的干预效果均为βd+β'dg。科钦和格兰特(Kotchen&Grant,2011)利用面板数据讨论了夏时令(Daylight Saving Time,DST)对节约能源的影响。他们在没有控制分组效应时,得出实行夏时令可以节约能源约2%,而通过使用2004—2006年的面板数据,控制州内各县差异时,发现节约能源的比率下降到1%。此外,他们还发现由于制热和制冷效应,实现夏时令并没有起到节约能源的作用。
安格里斯特和皮斯克(Angrist&Pischke,2015)在讨论基于面板数据的DID设计时,就引用了卡彭特和多布金(Carpenter&Dobkin,2011)有关最低饮酒法定年龄(Minimum Legal Drinking Age,MLDA)效果评估的案例,该案例使用了14年和51个州714个观察点,形成了“州—年”的面板数据结构。为了简化干预效果,他们使用了法律允许18岁至20岁饮酒年龄作为交互项,如果一个州的饮酒年龄是19岁,则意味着大概2/3的人被允许饮酒。他们使用了公式13来控制州和时间效应,并计算饮酒年龄限制对于死亡率的影响,结果显示降低饮酒年龄会导致每10万人死亡上升11个左右。
(三)考虑三重差异的DID设计扩展
除了对时间效应和组别效应进行控制之外,很多学者开始尝试对三个变量之间差异进行分析,形成了DID设计的另一种变体即三重差分(Difference in differences in differences,DDD)。这一设计认为通过增加额外的差异来源,可以更好地估计政策和项目的效果。一般而言,三重差分通常会增加一个新的对照组来形成与干预组的差异来源,这样来增加对比的效果。克莱尔和库克(Clair&Cook,2015)提出了一个分析三重差分的简单模型,这一模型通过增加新的差异来源,而使得干预效果更加精细,其中β7就是政策或项目干预的三重差分效果(见公式14)。
坎奇安和莱文森(Cancian and Levinson,2006)利用三重差分设计讨论了所得税抵扣对劳动力供给的影响,主要是评估威斯康星州针对有三个孩子的单身母亲家庭所得税抵扣优惠对失业率的效果。为此,他们区分了三种政策效果的差异性来源:(1)威斯康星州拥有两个孩子的单身母亲和三个孩子的单身母亲在劳动力供给的差异;(2)威斯康星州拥有三个孩子的单身母亲和其他州没有所得税抵扣优惠的三个孩子单身母亲的劳动力供给差异;(3)威斯康星州拥有三个孩子的单身母亲在政府干预前后之间差异,他们的研究显示,所得税抵扣对于劳动力供给没有影响。范子英和彭飞(2017)利用三重差分设计对中国“营改增”政策的减税效应和分工效应进行了研究,他们通过增加产业互联的角度,比较“营改增”的减税效应,发现在产业关联度不高以及上游企业不是增值税纳税企业时,“营改增”并没有很好的减税效应。
四、DID设计的前沿进展:技术路径与政策路径
当前,越来越多的学者开始投入对DID设计的理论研究,这一研究围绕着技术路径和政策路径两方面展开。技术路径是探讨放宽DID经典假设的解决策略,如当平行趋势假设不能够满足时,如何对干预效果进行估计(Athey&Imbens,2018;Strezhnev,2018)。政策路径是探究新的DID设计,以解决政策评估中新问题,最典型的是如何处理政策干预时间差异的因果效应问题(Callaway&Sant'Anna,2018)。当然,两个路径之间存在紧密联系,技术路径最终是为了解决现实中效果评估问题,而政策路径则最终需要通过技术路径来实现。这里区分技术路径和政策路径,主要是强调DID设计研究进展要解决的问题是否是新的问题,技术路径一般是老问题,而政策路径则是全新的问题。
DID设计的技术路径更多是对基于面板数据的DID设计中“双向固定”效应(Two way fixed effects)假设不能够满足时,如何寻找替代性的模型识别策略,这事实上是探讨当经典DID设计的假设不能够满足时如何更好地估计干预效果。阿尔佩托·阿巴迪(Abadie,2005)提出了在平行趋势假设不成立的情况时,可以建构一个两步策略(Two-step Strategy)来估计干预组和对照组之间的效果差异。谢兹马丹等学者(Chaisemartin&D’Haultf?uille,2017)针对干预组中干预对象不断增加的现实,他们对提出了模糊性DID设计(Fuzzy DID)。斯特列什涅夫(Strezhnev,2018)则进一步对阿马迪的方法进行了扩展,通过选择半参数逆反函数倾向值权衡的方法来解决平行趋势假设问题。亚伯拉罕和孙(Abraham&Sun,2018)讨论了当干预效果是异质性时,如何寻找新的识别策略。
DID设计的政策路径则是回答政策评估中面临的新问题,即当政策干预发生的时间存在差异性时,如何估计政策干预效果(Callaway&Sant'Anna,2018;Goodman-Bacon,2018)。古德曼·培根(Goodman-Bacon,2018)讨论了当政策干预发生在不同时间时,基于面板数据的DID设计是如何估计干预效果的。为此,他提出了一个“双重差分分解定理”(the Difference-in-Differences Decompositions Theorem),认为基于双向固定效应的DID估计是对所有可能的2*2估计的加权平均。例如,当一个政策干预发生在两个时期,这样会形成三组数据,一组是在前期实施干预(Gk),另一组是在后期实施干预(Gl),还有一组一直没有实施干预(Gu)。这样,根据经典的DID设计,可以形成四组(2*2)干预组和对照组对比值:(1)第一期接受干预的干预组与一直没有接受干预的对照组进行DID估计;(2)后期接受干预的干预组与一直没有接受干预的对照组进行DID估计;(3)在后期干预组没有接受干预前,它可以与前期接受干预的干预组进行DID估计;(4)后期干预组接受干预之后,可以与前期干预组接受干预之后的状态进行DID估计。通过这些内容的分解,古德曼·培根指出了面板数据DID估计产生偏差的原因,并且提出了替代性的模型和识别策略,复制了单方面离婚与女性自杀率关系的研究,讨论了分离定理在实证研究中的应用。卡拉韦和桑特安娜(Callaway&Sant'Anna,2018)则提供了另一套处理多时间序列数据和多时段干预的识别策略,他们认为可能通过简单的两步估计策略来处理这一问题,以最低工资对青少年雇佣影响为例,讨论了他们方法的实际应用,并提供了软件操作步骤。
五、DID设计在中国政策情景中的应用空间
在介绍和应用DID设计中,国内经济学者走在前列,从2005年周黎安和陈烨首次用DID设计评估农村税费改革的政策效果开始,DID研究论文开始呈现“井喷”趋势,仅2018年以“双重差分”和“倍差法”为摘要的期刊论文便达到318篇和69篇,并且已经有多篇DID的文献综述论文(见图2)(周黎安,陈烨,2005;陈林,伍海军,2015;胡日东,林明裕,2018)。不过,这一研究设计还没有受到国内外公共管理和公共政策学者关注,只有少数学者使用DID设计对公共管理和政策评估问题进行研究,主流期刊类似研究论文发表不多。
图2 国内社会科学中应用DID设计的论文数量
来源:中国知网(CNKI)检索,分别将“双重差分”和“倍差”作为“摘要”进行检索
从已经发表的论文看,政策效果评估是DID设计应用的一个主要场景。考虑篇幅限制,这里仅列举一些发表在重要期刊的政策评估论文。目前,DID设计已经被应用于如下政策领域的评估:废止收容遣送制度的经济影响(王智波,韩希,2018)、河长制的政策效应(沈坤荣,金刚,2018)、《劳动合同法》的实施对农民工福利水平的影响(杜鹏程,徐舒,吴明琴,2018)、省管县政策的效果评估(丁肇启,萧鸣政,2017;郑新业,王晗,赵益卓,2011)、个人所得税减免对劳动力供给影响(叶菁菁,吴燕,陈方豪,王宇晴,2017)、居民阶梯电价政策的技术创新诱导效应(罗传建,刘章生,2017)、“营改增”政策的效果评估(范子英,彭飞,2017)、财政压力的产业影响评估(陈晓光,2016)、环境补贴政策的污染治理效果(石光,周黎安,郑世林,张友国,2016)、农村税费改革的政策效果评估(周黎安,陈烨,2005)等。可见,DID设计已经广泛应用于中国的经济政策、环境政策、民生社会等不同政策领域的效果评估,这些评估对于科学衡量政策效果,进一步改进政策质量具有较好的价值和意义。
与此同时,实践对于政策评估的需求越来越强烈,政策评估成为决定政策命运、提升政策质量、优化政策选择的重要工具。国务院多次引入第三方评估,开展对“营改增”政策、自由贸易区政策等进行效果评估,这对新政策的全面推广提供了经验支撑。可以预期,随着公共政策对社会干预的广度和范围增大,对于科学的政策评估,尤其是基于因果推理的政策评估的需求会增多,甚至政策评估会成为整个政策循环的组成部分之一。事实上,世界银行等组织也开始推广定量的政策评估方法,帮助各国改进治理和政策水平(Khandker,Koolwal,Samad,2009)。很显然,DID设计是政策评估方法中重要工具,它遵循自然实验的逻辑,其应用存在广泛的空间。
与实践对政策评估的需求和DID设计被经济学者广泛用于研究中相比,公共管理与公共政策学者在使用DID设计用于研究刚刚起步,对其理念、设计、模型和方法还不熟悉,更谈不上广泛应用。这既是挑战,也是机遇。一旦公共政策研究者掌握了这种方法,就可以有意识地将DID设计与政策效果评估联系在一起,更为科学地评估政策效应,使得公共政策的“科学性”得以提升,以更好地实现拉斯韦尔倡导政策科学以改善人类福祉的使命。事实上,科学政策评估是政策分析的应有之义,也是推进中国公共政策科学化的重要组成环节。这也正是本文的初衷和意义所在。
注释:
①另外两种分别为工具变量设计(Instrumental Variables Design,简称IV)和断点回归设计(Regression Discontinuity Design,简称RDD).
参考文献:
[1]Athey,S.,&Imbens,G.W.(2018).Design-based analysis in difference-in-differences settings with staggered adoption (No.w24963).National Bureau of Economic Research.
[2]Angrist,J.D.,& Pischke,J.S.(2010).Thecredibility revolution in empirical economics:How better research design is taking the con out of econometrics.Journal of economic perspectives,24(2),3-30.
[3]Angrist,J.D.,&Pischke,J.S.(2017).Undergraduate econometrics instruction:through our classes,darkly.Journal of Economic Perspectives,31(2),125-44.
[4]Angrist,J.,Azoulay,P.,Ellison,G.,Hill,R.,&Lu,S.F.(2017).Economic research evolves:Fieldsand styles.American Economic Review,107(5),293-97.
[5]Abadie,A.(2005).Semiparametric difference-indifferences estimators.The Review of Economic Studies,72(1),1-19.
[6]Abraham,S.,& Sun,L.(2018).Estimating dynamic treatment effects in event studies with heterogeneous treatment effects.
[7]Campbell,D.T.(1957).Factorsrelevanttothe validity of experiments in social settings.Psychological bulletin,54(4),297-312.
[8]Campbell,D.T.(1991).Methods for the experimenting society.Evaluation Practice,12(3),223-260.
[9]Campbell,D.T&Stanley,J.C.(1963).Experimentaland quasi-experimentaldesignsforresearch on teaching.In N.L.Gage (Ed.),Handbook of research on teaching.Chicago:Rand McNally,1963.
[10]Campbell,D.T.(1969).Reforms as experiments.American Psychologist,24,409-429.
[11]Campbell,D.T.(1979).Assessing the impact of planned social change.Evaluation and program planning,2(1),67-90.
[12]StClair,T.,& Cook,T.D.(2015).Differencein-differences methods in public finance.National Tax Journal,68(2),319-338.
[13]Cancian,M.,&Levinson,A.(2006).Labor Supply Effects of the Earned Income Tax Credit:Evidence from Wisconsin's Supplemental Benefit for Families with Three Children.National Tax Journal,781-800.
[14]Callaway,B.,& Sant'Anna,P.H.(2018).Difference-in-differences with multiple time periods and an application on the minimum wage and employment.arXiv preprint arXiv:1803.09015.
[15]De Chaisemartin,C.,&D’Haultf?uille,X.(2017).Fuzzy differences-in-differences.The Review of Economic Studies,85(2),999-1028.
[16]Eissa,N.,&Liebman,J.B.(1996).Labor supply response to the earned income tax credit.The quarterly journal of economics,111(2),605-637.
[17]Goodman-Bacon,A.(2018).Difference-in-differences with variation in treatment timing(No.w25018).National Bureau of Economic Research.
[18]Rubin,D.B.(1974).Estimating causal effects of treatments in randomized and nonrandomized studies.Journal of educational Psychology,66(5),688.
[19]Rubin,D.B.(1986).Statistics and causal inference:comment:which ifs have causal answers.Journal of the American Statistical Association,81(396):945-945.
[20]Rubin,D.B.(2005).Causal inference using potential outcomes:Design,modeling,decisions.Journal of the American Statistical Association,100(469),322-331.
[21]Rosenbaum,P.R.(2018).Observation&Experiment:An Introduction to Causal Inference.Cambridge:Harvard University Press.
[22]Shadish,W.R.,Cook,T.D.,&Leviton,L.C.(1991).Foundations of program evaluation:Theories of practice.Sage.
[23]Shadish,W.R.,Cook,T.D.,&Campbell,D.T.(2002).Experimental and quasi-experimental designs for generalized causal inference.Boston:Houghton Mifflin.
[24]Snow,J.(1855).On the mode of communication of cholera.John Churchill.
[25]Strezhnev,A.(2018).Semiparametric Weighting Estimators for Multi-Period Difference-in-Differences Designs.
[26]Carpenter,C.,& Dobkin,C.(2011).Theminimum legal drinking age and public health.Journal of Economic Perspectives,25(2),133-56.
[27]Imbens,G.W.,& Wooldridge,J.M.(2009).Recent developments in the econometrics of program evaluation.Journal of economic literature,47(1),5-86.
[28]Dimick,J.B.,&Ryan,A.M.(2014).Methods for evaluating changes in health care policy:the differencein-differences approach.Jama,312(22),2401-2402.
[29]Bertrand,M.,Duflo,E.,&Mullainathan,S.(2004).How much should we trust differences-in-differences estimates?.The Quarterly journal of economics,119(1),249-275.
[30]Imbens,G.W.,&Rubin,D.B.(2015).Causal inference in statistics,social,and biomedical sciences.Cambridge University Press.
[31]Lechner,M.(2011).Theestimation ofcausal effects by difference-in-difference methods.Foundations and Trends?in Econometrics,4(3),165-224.
[32]Aron-Dine,A.,Einav,L.,&Finkelstein,A.(2013).The RAND health insurance experiment,three decades later.Journal of Economic Perspectives,27(1),197-222.
[33]Lee,M.J.(2016).Matching,regression discontinuity,difference in differences,and beyond.Oxford University Press.
[34]Richardson,G.,& Troost,W.(2009).Monetary intervention mitigated banking panics during the great depression:quasi-experimental evidence from a federal reserve district border,1929—1933.Journal of Political Economy,117(6),1031-1073.
[35]St.Clair,T.,Cook,T.D.,& Hallberg,K.(2014).Examining the internal validity and statistical precision of the comparative interrupted time series design by comparison with a randomized experiment.American Journal of Evaluation,35(3),311-327.
[36]Kotchen,M.J.,& Grant,L.E.(2011).Does daylight saving time save energy?Evidence from a natural experiment in Indiana.Review of Economics and Statistics,93(4),1172-1185.
[37]Khandker,S.,B.Koolwal,G.,&Samad,H.(2009).Handbook on impactevaluation:quantitative methods and practices.The World Bank.
[38]陈林,伍海军.国内双重差分法的研究现状与潜在问题[J].数量经济技术经济研究,2015,(7):133-148.
[39]胡日东,林明裕.双重差分方法的研究动态及其在公共政策评估中的应用[J].财经智库,2018,(3):84-111.
[40]周黎安,陈烨.中国农村税费改革的政策效果:基于双重差分模型的估计[J].经济研究,2005,(8):44-53.
[41]李文钊.因果推理中的潜在结果模型:起源、逻辑与意蕴[J].公共行政评论,2018,(1):124-149.
[42]范子英,彭飞.“营改增”的减税效应和分工效应:基于产业互联的视角[J].经济研究,2017,(2):82-95.
[43]郑新业,王晗,赵益卓.“省直管县”能促进经济增长吗?——双重差分方法[J].管理世界,2011,(8):34-44.
【中图分类号】D035
【文献标识码】A
【文章编号】1009-4997(2019)02-0036-09
收稿日期:2019-03-15
作者简介:李文钊,中国人民大学公共管理学院教授,首都发展与战略研究院副院长,研究方向:政策过程、政府改革。
基金项目:国家自然科学基金项目“政治周期、制度摩擦与中国政策的间断性:基于1992—2016年的中国预算变迁数据的实证研究”(71874198)。
(编辑:刘晖霞)
标签:政策论文; 时间论文; 效果论文; 对照组论文; 效应论文; 政治论文; 法律论文; 政治理论论文; 国家理论论文; 国家行政管理论文; 《甘肃行政学院学报》2019年第2期论文; 国家自然科学基金项目" 政治周期; 制度摩擦与中国政策的间断性:基于1992—2016年的中国预算变迁数据的实证研究" (71874198)论文; 中国人民大学公共管理学院论文;