失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > 断点回归设计:上帝未关的窗户

断点回归设计:上帝未关的窗户

时间:2023-03-08 18:13:17

相关推荐

断点回归设计:上帝未关的窗户

本文授权转载自:芙蓉湖畔学计量(微信号:Causal-inference)

注:本文根据MUSE第9章进行缩写。

断点回归设计(Regression Discontinuity Design, RDD)最早是由Thistlethwaite and Campbell (1960)在研究奖学金对学生未来成绩影响的时候提出的。因为奖学金的评比根据以往的学习成绩,当成绩满足某一特定门槛时,学生将获得奖学金,低于门槛时将得不到奖学金,成绩在门槛附近两边的学生具有很好的可比性,因而可以利用奖学金评比中的成绩门槛形成的断点作为一种自然实验来识别奖学金对学生未来成绩的因果影响。但是,这种方法提出以后并没有引起学术界的关注,作者也认为断点回归设计适用场景有限,\footnote{Compbell认为RDD 仅适用于教育学领域有限的场景。关于断点回归设计的历史和发展可以参考Cook()。}直到经济学家重新将RDD 策略挖掘出来,特别是Hahn et al.(2001)对RDD策略的识别条件、估计方法、统计推断进行了理论上的证明,从而使RDD策略重新焕发生机,随后有关RDD 的理论和应用文献大量涌现,在经济学、政治学及社会学等领域广泛应用,成为目前经验分析中最为热门的一种研究设计策略。

1

什么是断点回归设计

断点回归设计的基本思想是一个原因变量或干预(D)完全依赖于一个参考变量(X),英文中称为 running variable、forcing variable或assignment variable,我们称之为参考变量,因为原因变量或干预的分配完全参考这一变量是否超过一个临界值。参考变量本身可以对结果有影响也可以没有影响,如果有影响,假设结果变量(Y)与参考变量(X)之间的关系是连续的,其他可能影响结果的因素(Z)在断点处也是连续的,那么,结果变量Y在断点处的跳跃就可以解释为原因变量D 的影响。断点回归设计根据干预的分配规则可以分为两类:精确断点回归和模糊断点回归。精确断点回归是指干预分配完全由参考变量是否超过临界值决定,用公式表示,D=1(X≥x0),其中1(.)为示性函数,条件成立取1,条件不成立取0,x0是临界值,因而,如果参考变量超过(或等于)临界值,则个体接受干预,D=1,如果参考变量不超过临界值,则个体没有被干预,D=0。以Thistlethwaite and Campbell (1960)关于奖学金的影响为例,如果学生成绩超过门槛则获得奖学金,如果没有超过门槛则没有得到奖学金,这种情况下,是否得到奖学金是完全由参考变量---学生分数是否超过门槛值决定。如果干预的分配不是完全由参考变量决定的,干预分配还受到其他研究者看不到的因素决定,但是,断点左右个体接受干预的可能性不同,比如,如果奖学金的评比除了以往学习成绩,还看学生领导能力,但是领导能力不可测度或者能力测度研究者无法观测,那么我们将看到,有些同学成绩超过了门槛,但没有得到奖学金,而有些同学成绩低于门槛,但得到了奖学金。但是总体上看,学生成绩超过门槛得到奖学金的可能性将高于低于门槛的同学,这种情况适用于模糊断点回归。用公式表示,在模糊断点回归中,D=D(T,ε),其中T=1(X≥x0),ε是影响干预的其他未观测因素,并且Pr[D=1|T=1]≠Pr[D=1|T=0],即在断点左右个体接受干预的可能性不同。

断点回归设计的因果图可以用上图表示。图1(a)表示精确断点回归设计,X是参考变量,比如表示以前的学习成绩,D为干预变量或原因变量,表示是否获得奖学金,D 完全由参考变量X决定,Y 是未来的学习成绩,U 是其他影响学习成绩的因素,比如学生的能力,它不但影响未来的学习成绩,对以前的学习成绩也会有影响,但是可能不可观测。从图1(a)可以看出,混杂因素U产生一条后门路径D←X←U→Y,U不可观测,但是X 是可以观测的,读者可能会想到,我们可以利用后门规则,以X 为条件阻断该后门路径,从而识别因果路径D→Y所反映的因果效应。问题是当我们以X为条件时,由于参考变量X 完全决定D,从而D不再有变动性,也就无法识别D对Y 的因果影响。事实上,由于精确断点回归设计情形下,参考变量完全决定了干预分配,从而一旦控制X,D也就没有任何变动性了,从而D将条件独立于任何随机变量,当然也独立于潜在结果,从而在回归方法和匹配方法中要求的识别条件(条件独立性假设CIA)在这里显然是满足的,即(Y1i,Y0i)独立于D_i|X_i。其中Y1i,Y0i是个体i 在干预状态和控制状态下的潜在结果。比如在上面奖学金的例子中,个体i得到奖学金的潜在结果为Y1i,没得到奖学金时的潜在结果为Y0i。奖学金对个体结果的影响则是同一个体在两种状态下潜在结果的比较,即Ti=Y1i-Y0i。当然,现实中,我们只能观察到一种状态下的潜在结果,而因果推断的关键就是通过科学的研究设计,将未观测到的反事实结果估计出来。随机化实验就是一种常用的方法,而RDD就是一种自然给出的随机化实验。

但是共同区间假设0<Pr[Di=1|X_i]<1 是不满足的,参考变量一旦超过临界值,所有个体都进入了干预组,从而Pr[Di=1|Xi≥x0]=1,而一旦低于临界值,所有个体都进入了控制组,Pr[Di=1|Xi< x0]=0,因而,无法利用回归方法或匹配方法获得因果效应的估计。精确断点回归就是利用个体在断点处如果不能精确控制参考变量,使得在断点附近近似于完全随机化实验,从而在断点附近两边的个体具有非常相似的特征,可以利用两边个体结果的差异来估计干预的因果效应。从图上看,如果我们将关注的个体集中在断点附近的区域,相当于切断了图中的后门路径D←X←U→Y,从而可以利用随机化实验中的分析方法来进行因果效应的分析,问题是应该选择多近的区域,详细讨论可以参见MUSE。

图1(b)描述的是模糊断点回归设计。个体的干预状态不完全取决于参考变量,还受到其他未观测因素的影响,即干预状态D同时受到T和ε的影响,断点T=1(X≥x0)是完全由参考变量X决定的,同样地,未观测混杂因素U可能同时影响X和结果变量Y,此外,影响D的未观测因素ε也可能同时影响结果变量Y。我们关心的是因果路径D→Y所体现的因果效应,但混杂了两条后门路径D←T←X←U→Y和D←ε→Y 的影响。仍然用奖学金的例子,现在假设奖学金的评比除了以往的成绩X,还参考学生领导能力等平时表现ε,但这一因素研究者无法观测,T表示学生以往分数是否超过临界点,它直接会影响学生是否能获得奖学金,但与精确断点回归设计不同,它并不完全决定最终的奖学金分配状态D,未观测因素U表示学生的学习能力,它同时影响学生以往的学习成绩X和未来的学习成绩Y,而ε可能也会影响个人成绩。这时,我们可以利用后门规则,以X或T为条件,可以阻断后门路径D←T←X←U→Y的影响,但是后门路径D←ε→Y 造成的混杂影响仍然无法消除。如果个体不能精确的控制参考变量X,在断点附近近似于完全随机化实验,T近似于完全随机化分配的,在断点附近两边的个体具有较好的可比性。与精确断点回归设计不同的地方在于,断点两边的个体与实际接受的干预状态并不一致,即在断点右边的个体不一定接受干预,断点左边个体也有可能接受干预。不妨假设断点右边个体接受干预的可能性更大,在奖学金的例子中,分数超过临界点则获得奖学金的可能性会更高。但是,获得奖学金的个体和没有获得奖学金的个体即使在断点附近也可能不可比,比如获得奖学金的个体很多可能在平时表现上获得了加分,而未获得奖学金的学生在平时表现上可能会差一些。但是,对于断点附近群体,以往成绩是否超过断点,即变量T,会对最终是否获得奖学金D 有差重要的影响,或密切相关,但T在断点附近近似于随机化分配的,从而使得T成为D 天然的工具变量。在图1(b)中,当我们将样本限制在断点附近较小的领域内时,近似相当于固定了X 值,从而阻断了后门路径D←T←X←U→Y造成的混杂影响,但是另一条后门路径D←ε→Y 造成的混杂影响仍然存在,当第一条后门路径的影响消除之后,T 就成为D的一个有效的工具变量,从而可以识别出D对Y的因果影响。

2

断点回归设计的识别条件

精确断点回归设计的关键识别条件有两个:第一个是连续性假设,即要求潜在结果是参考变量的连续函数(只需要在断点处连续)。第二个是局部随机化假设,要求在断点附近,个体在左还是在右是近似于随机化的。

局部随机化假设要求个体不能精确控制或操纵参考变量使之超过临界值,在奖学金的例子中,学生对学习成绩具有一定的控制能力,学生知道未来奖学金会根据学习成绩进行分配,从而可以努力学习以达到超过临界成绩,当然对于成绩很好或成绩很差者,即离断点很远的学生特征存在着很大的差异,但是在断点附近,成绩是否能够超过临界点,可能存在着运气的成分。在断点附近,比如在百分制成绩中,超过临界点1分和低于临界点1分的学生学习能力等特征可能非常相似,1分差异可能是偶然的成分或运气的成分造成的,但是高于临界点1分的就获得了奖学金,低于1分的就没有拿到奖学金。只要学生不能精确控制成绩,那么,在临界点附近的学生干预状态的分配就近似于完全随机化实验。正是基于这一点,Lee and Lemieux()认为RDD策略更加透明、估计结果更加令人信服,他们指出RDD是随机化实验的近亲(RD designs are particularly compelling because they are close cousins of randomized experiments)他们还比较分析了RDD策略和随机化实验的相似性以及与其他识别方法的差别。如果个体能够精确的控制参考变量,比如学生可以通过找老师或其他方式修改自己的成绩,这样在断点附近两边的学生就可能出现较大差异,那么局部随机化假设将不再满足,从而RDD 策略失效。局部随机化假设是RDD策略有效的关键假设之一,可以利用参考变量分布在断点处是否连续进行判断,McCrary()提出了一种基于非参数的密度函数检验方法。

3

RDD方法的基本应用步骤

(1)图形分析。首先,画出结果变量与参考变量之间的关系图,如果是模糊断点,再画出原因变量与参考变量的关系图,呈现结果变量和原因变量在断点处的行为,为研究设计提供直观的依据。

(2)因果效应估计。分别利用断点左右的数据估计线性回归模型或多项式模型,可以使用矩形核函数加权(Imbens and Lemieux, )或三角核函数加权(Calonico et al., ),其实核函数选择对估计结果没有太大影响。如果是模糊断点,可以用断点作为原因变量的工具变量进行估计。

(2)稳健性检验。主要进行上文提到的各种稳健性检验。首先是协变量连续性检验,可以画出协变量与参考变量的关系图,检测在断点处是否连续。其次,参考变量分布函数连续性检验,也可以画出参考变量的分布图。第三,伪断点检验,看看在其他位置,RDD估计量是否显着。第四,可以选择不同的带宽,检验RDD估计结果是否稳健。

4

弯折回归设计(Regression Kink Design, RKD)

断点回归设计是利用结果变量和原因变量在断点处的跳跃来识别因果效应,如果其他因素在断点处没有跳跃,我们就可以将结果变量的跳跃归因为原因变量的因果影响。有些时候,结果变量和原因变量往往是连续变量,并没有明显的跳跃,那么,RDD方法就无法识别因果效应。但是,如果结果变量和原因变量在断点处存在弯折(kink),而在其他位置都是平滑的,并且其他影响因素在断点处也是平滑的,那么,我们仍然可以使用RDD 类似的方法,将结果变量在断点处的弯折归因为是由原因变量在断点处的弯折造成的,这种识别策略称为弯折回归设计。\footnote{Nielsen et al. ()首次将这种方法命名为弯折回归设计。}弯折回归设计实际上是结果变量和原因变量相对于参考变量导数的断点回归设计,在弯折回归设计中,结果变量和原因变量在断点处没有跳跃,是连续的,但是它们相对于参考变量的导数在断点处有跳跃,RKD就是利用断点处的导数变化来识别因果效应。

5

Stata中的断点回归命令

美国Michigan大学统计系Matias D. Cattaneo等人,专门开发了一个进行断点回归设计估计的软件包(/site/rdpackages),主要包括三个基本的命令,rdplot用于画断点回归图,rdbwselect进行带宽选择,rdrobust进行RDD(RKD)估计。可以通过在Stata中运行net install rdrobust, from(/site/rdpackages/rdrobust/stata) replace命令进行安装,关于该程序包的详细介绍可参见MUSE第9章或直接访问上述软件包页面了解各命令的具体用法。

注:MUSE第224页第一段后所公布的地址,因为软件作者更换了程序保存地址而失效。现在应使用上面公布的地址,即:net install rdrobust, from(/site/rdpackages/rdrobust/stata) replace。可能需要能够连接googlesites才能安装。

如果觉得《断点回归设计:上帝未关的窗户》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。