失眠网 > 断点回归设计

断点回归设计

时间：2022-09-15 23:58:46

相关推荐

断点回归设计

在因果关系分析的实证方法中，最优的选择应当为随机实验，但是随机实验的时间成本和经济成本都比较高，而在随机实验不可得的情况下，需要考虑使用其它方法。断点回归便是仅次于随机实验的, 能够有效利用现实约束条件分析变量之间因果关系的实证方法。

断点回归设计是由美国西北大学的心理学家Campbell在1958年首先提出来的,到20世纪80年代，Campbell及其同事一直从事断点回归的设计和研究工作。断点回归设计（RegressionDiscontinuity Design）是一种仅次于随机实验的能够有效利用现实约束条件分析变量之间因果关系的实证方法。断点回归可以分为两类，一类是模糊断点回归（Fuzzy RD），其特征是断点x=c处，个体得到处理的概率从0跳跃到1；另一类是清晰断点回归(Sharp RD)，其特征是断点x=c处，个体得到处理的概率从a跳跃到b，其中0<a<b<1。

RD的目的是选取其他特征相似的组，考察临界值区间上下不同

例如，考察进入清华与否对于收入的影响。考试成绩为687的人无法上清华大学，而考试分数为689的人课可以进去。仅仅2分之差，这两类人的基本能力其实没什么差别。两组人，围绕着688分的分界线，对于研究工资差异都具有较高的内部效度，因为两者之间的唯一区别是是否进入清华。其他一切都是不变的。

把这个理念延伸一下控制其他变量，数据分为1）688以下， 2）688以上两组。回归拟合线应该斜率相近，但是截距有明显差别，截距项可以理解为入学带来收入差异。

RD需要数据更少，主要是考虑临界值附近的影响

关于断点回归的基本逻辑、方法和应用，可参考中南财经政法大学罗胜博士在“统计与决策”上的《断点回归设计：基本逻辑、方法、应用评述》一文。

关于断点回归的操作，可参考三篇文献：

第一是香樟经济学圈发表的基于Lee,and Lemieux, ，"Regression Discontinuity Designs in Economics "，Journal of Economic Literature, Vol. 48: 281–355.的公众号推文，【香樟推文0620】运用断点回归设计做研究的规定动作（https://mp./s/mcQLpW91cJWqeEnnB45qRA）

第二是AER论文Pinotti, Paolo. "Clicking on heaven's door: The effect of immigrant legalization on crime."American Economic Review107.1(): 138-68.

第三是一篇实际操作的比较Thoemmes,Felix, Wang Liao, and Ze Jin. "The Analysis of the Regression-Discontinuity Design in R."Journal of Educational and Behavioral Statistics42.3 (): 341-360.

以及史冬波梳理断点回归设计的标准操作（/p/34998622 ）

运用断点回归设计做研究的规定动作

第1步

检查配置变量（assignment variable，又叫running variable、forcing variable）是否被操纵。画出配置变量的分布图。最直接的方法，是使用一定数量的箱体（bin），画出配置变量的历史直方图（histogrm）。为了观察出分布的总体形状，箱体的宽度要尽量小。频数（frequencies）在箱体间的跳跃式变化，能就断点处的跳跃是否正常给我们一些启发。从这个角度来说，最好利用核密度估计做出一个光滑的函数曲线。McCrary（）为判断密度函数是否存在断点提供了一个正规的检验（命令是DCdensity，介绍见陈强编著的《高级计量经济学及Stata应用》（第二版）第569页）。

第2步

挑选出一定数目的箱体，求因变量在每个箱体内的均值，画出均值对箱体中间点的散点图。一定要画每个箱体平均值的图。如果直接画原始数据的散点图，那么噪音太大，看不出潜在函数的形状。不要画非参数估计的连续统，因为这个方法自然地倾向于给出存在断点的印象，尽管总体中本来不存在这样的断点。需要报告由交叉验证法（Cross-validation, CV）挑选的带宽。一般而言，为了看出潜在函数的形状，不要挑选过大的带宽。但是，带宽太小也会导致看不出潜在函数的形状。比较因变量均值在断点两边的两个箱体间的变化，可以预判处理效应的大小。如果图形中都看不出因变量在断点处有跳跃，那么回归方程也不可能得到显著的结果。

第3步

将Y在每个箱体内的均值作为因变量，用处理变量、配置变量的多次项作为自变量，在断点两边分别跑回归，得到因变量的拟合值。将这些拟合值画在第2步的图中，并用光滑的曲线连接起来。在推文人读过的RD论文中，多次项一般都使用1到4次项，但没有论文解释为什么只用到4次项。

第4步

检验前定变量在断点处是否跳跃。此步和第1步是RD方法的适用性检验。此步的检验包括两项内容：1. 像前三步那样画前定变量的图。无论参数还是非参数，RD研究都要大把的图！这些图在正式发表的论文中都必不可少！原文中说了这么句话：用RD做的论文，如果缺乏相关的图，十有八九是因为图显示的结果不好，作者故意不报告。2. 将前定变量作为因变量，将常数项、处理变量、配置变量多次项、处理变量和配置变量多次项的交互项作为自变量，跑回归。一个前定变量有一个回归，看所有回归中处理变量的系数估计是否都为0。检验这种跨方程的假设，需要用似不相关回归（Seemingly Unrelated Regression, SUR）（命令是sureg，用法见陈强编著的《高级计量经济学及Stata应用》（第二版）第471-474页）。在推文人读过的RD实证论文中（尤其是AER-所有用RD做的论文中），均没用SUR，只是简单的看每个回归中处理变量的系数估计均为0。

第5步

检验结果对不同带宽、不同多项式次数的稳健性。尝试的其它带宽，一般是最优带宽的一半和两倍。挑选多项式的最优次数，可用赤池信息准则（Akaike's Information Criterion，AIC）。在我们尝试的包含配置变量1次方、2次方、……N次方的众多方程中，AIC取值最小的那个就是我们想要的。实操时，试到多少次为好？原文中至少试到了6次。我们做研究时需要试到10次还是100次呢？Gelman和Imbens（）解除了我们的这个烦恼，详见“江湖上的新动作”这一部分。

第6步

检验结果对加入前定变量的稳健性。如上所述，如果不能操控配置变量的假设成立，那么无论前定变量与因变量的相关性有多高，模型中加入前定变量都不应该影响处理效应的估计结果。如果加入前定变量导致处理效应的估计结果变化较大，那么配置变量可能存在排序现象，前定变量在断点处也很可能存在跳跃。实操时在确定多项式的次数后，直接在回归方程中加入前定变量。如果这导致处理效应估计值大幅变化或者导致标准误大幅增加，那么可能意味着函数中多项式的次数不正确。另外一个检验是残差化，看相同次数的多项式模型对残差的拟合好不好。

如果觉得《断点回归设计》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。