失眠网 > IV 估计：工具变量不外生时也可以用！

IV 估计：工具变量不外生时也可以用！

时间：2023-07-30 15:14:48

相关推荐

IV 估计：工具变量不外生时也可以用！

作者: 刘琦 (东南大学)

(西安, 3月26-29日，司继春-游万海主讲；内附助教招聘)

连享会-文本分析与爬虫专题班，西北工业大学，.3.26-291. 引言

工具变量 (IV) 估计是处理内生性问题的基本方法，在经济学实证研究中有着极为广泛的应用。

一个合格的工具变量需要同时满足以下两个条件：

第一，相关性，即工具变量应该与内生变量相关；

第二，外生性，即工具变量应该与扰动项不相关。

其中，第二个条件也被称为排他性约束 (exclusion restriction)，因为该条件意味着工具变量只能通过内生变量对被解释变量产生影响，而不能有其他影响路径或渠道。

那么，如何检验好不容易找到的工具变量是否较好地满足了这两个条件呢？

对于相关性条件，它是可以直接验证的 (比如，考察第一阶段回归的F统计量)，通常容易满足 (当然，如果深究的话，也不是件容易检验的事情，否则也不会有那么多计量经济学家苦心钻研弱工具变量问题了)。然而，对于外生性，这个条件是不易检验的，对于使用 IV 估计的实证研究而言，工具变量的外生性常常成为审稿人质疑的焦点，也是研究者集中讨论的难点。

2. 外生性检验和过度识别检验

在「恰好识别」的情况下 (工具变量的个数等于内生变量的个数)，目前公认无法从统计上检验工具变量的外生性，只能进行定性讨论或者依赖于专家的意见 (用前期大牛的文献作为挡箭牌或尚方宝剑)，这就意味着我们需要花费较多的篇幅来从理论上为工具变量的外生性进行辩护。定性讨论通常基于以下逻辑：如果工具变量是外生的，则其对被解释变量发生影响的唯一渠道就是通过内生变量，除此以外别无其他渠道。在实际操作中，则需要找出工具变量影响被解释变量的所有其他可能渠道，然后一一排除，才能比较信服地说明工具变量的外生性。显然，这并非易事。

在「过度识别」的情况下(工具变量的个数大于内生变量的个数)，我们可以执行「过度识别检验」 (overidentification test) 。该检验的原假设为：

H0：所有的工具变量都是外生的。

如果结果拒绝了该原假设，则说明至少有一个工具变量不是外生的。

值得注意的是，“过度识别检验” 难以在恰好识别的情况下使用，而且无论使用何种过度识别检验，都有一个不检验的大前提 (maintained hypothesis) ，即模型至少是恰好识别的。因此，即使检验结果接受了“所有工具变量皆外生”的原假设，也并不表示就验证了所有工具变量的外生性。它只是表明，在模型恰好识别的情况下，多余的那些工具变量也是外生的。

总之，根据目前的计量经济学，工具变量的外生性在本质上依然是不可检验的，学者们通常需要使用各种理论和实证依据以及花费大量的时间和精力向读者证明，他们使用的工具变量能够满足排他性约束。但是如果做了很多努力仍有人怀疑你的 IV 不够外生时应该怎么办？是否存在一些方法补救这里的不完全外生问题？此时，我们可能就需要学会使用工具变量是近似外生时的 IV 估计。

3. 近似外生 IV 下的稳健推断

工具变量完全外生的情形毕竟只是一种理想状态，现实中的工具变量更可能存在轻微的内生性。近年来，越来越多的计量经济学家开始放松传统 IV 估计的模型设定，讨论近似外生工具变量下的稳健推断方法。针对工具变量外生性条件无法严格满足的情形，目前较有影响的做法是采用再抽样 (resampling，Berkowitz et al.，) 或贝叶斯的方法校正近似外生性的影响 (Conley et al., ；Kraay, ) 。本文主要介绍 Conley et al. () 提出的方法，Conley et al．() 将严格的排他性约束替换为工具变量对于被解释变量存在一定的影响，其参数具有某个取值范围 (support) 或先验分布 (prior distribution)，然后根据参数的先验信息构造出回归系数的置信区间，以检验在工具变量非完全外生时估计结果的稳健性。

如果放松排他性约束假定，传统线性 IV 模型可以写成如下形式：

在式 (1) 和式 (2) 中，是结果变量，是内生变量矩阵，是工具变量矩阵。和是扰动项。如果工具变量仅通过内生变量影响 (即满足排他性约束)，则在上式中，。如果，则表明存在内生性。如果接近于0，即，则说明工具变量存在轻微的内生性，被 Conley et al. () 称为“近乎外生” (plausibly or approximately exogenous)。传统的工具变量法对于“”持有很强的先验信念 (prior belief) ，甚至是教条式、宗教式的信念。然而，现实中的工具变量更可能是近乎外生的，即。此时，利用先验信息对的取值或分布情况进行一定的设定，也能估计出我们感兴趣的参数。当和都是向量时，可以证明：

从式 (3) 可以看出，当较小时，仍然比较接近于真实值。式 (3) 还可以反映出弱工具变量问题对估计结果造成的影响。当和的相关性很小，即很小时，将变得很大，从而带来较大的估计误差。当和的相关性很强，即很大时，估计结果较为准确。那么，究竟应该如何取值呢？Conley et al．() 介绍了三种方法：(1) 设置一个可能的范围(置信区间集合法，uci)；(2) 设定的分布(近似于零方法，ltz)；(3) 完全贝叶斯方法。详细的技术细节请参见原文，uci 和 ltz 方法通过 Stata 命令 plausexog 实现，完全贝叶斯方法在 R 语言中实现。

需要注意的是，上述方法的运用必须对的取值和分布要有事先的了解，而且先验信息或信念并不能随意施加，必须基于可信的、有依据的经济学理论。此外，严重违背排他性约束条件是不允许的，Conley et al. () 提出的方法对工具变量的约束条件仍然存在，只不过是从“完全外生” (perfectly exogenous) 变成了“近乎外生” (plausibly exogenous)。由于只是微弱内生， IV 估计量的偏差仍然小于 OLS ，故 IV 估计量仍有其价值。因此，在 IV 近似外生情况下的统计推断为我们论证工具变量的外生性提供了新的方案，特别适用于工具变量和内生解释变量相关性较强，但排他性约束又难以完全满足的情形。

4. 近似外生 IV 估计的 Stata 实现

4.1 命令安装

在 Stata 命令窗口中输入如下命令即可自动安装 plausexog 命令：

ssc install plausexog

4.2 语法格式

plausexog 命令与 IV 回归命令 ivregress 密切相关，该命令的通用语法为：

plausexog method depvar [varlist1] (varlist2 = varlist_iv) [if] [in] [weight] ///

[, level(#) vce(vcetype) gmin(numlist) gmax(numlist) grid(#) ///

mu(numlist) omega(numlist) distribution(name,params) ///

seed(#) iterations(#) graph(varname) graphmu(numlist) ///

graphomega(numlist) graphdelta(numlist) graph_options ]

具体解释如下：

method 包括 UCI 和 LTZ 两种方法，选其一

depvar 为被解释变量

varlist1 为外生解释变量

varlist2 为内生解释变量

varlist_iv 为近似外生的工具变量

level(#) 设定置信度，默认值为 0.95

vce(vcetype) 确定估计的回归模型中报告的标准误类型

其中，部分指标具体说明如下：

UCI 方法选项设定

gmin(numlist) 指定 gamma 的最小值

gmax(numlist) 指定 gamma 的最大值

grid(#) 指定 gamma 的网格点数量，默认值为 2。注意：gamma 的取值范围可对称，可不对称；可正，可负

LTZ 方法选项设定

mu(#) 在正态分布中，指定 gamma 先验分布的平均值

omega(#) 在正态分布中，指定 gamma 先验分布的方差

distribution(name, params) 允许指定具有任意分布的 gamma

seed(#) 为基于模拟的计算设置种子

iterations(#) 确定基于模拟的计算的迭代次数，默认值为 5000。注意：如果设定正态分布，通常通过mu(#) 和omega(#) 选项，因为此时有解析形式的参数界限

画图

graph(varname) 设定希望绘制的内生变量的名称，在 UCI 方法中，画的是置信区间，在 LTZ 方法中，置信区间以及点估计都画

graphmu(numlist) 对图中所要显示的点设定不同的 mu 取值。例如，要显示 5 个点，就分别设定 5 个值

graphomega(numlist) 对图中所要显示的点设定不同的 omega 取值，对应于上述 graphmu 的数量

graphdelta(numlist) 实现图上值的绘制。对于正态分布而言，横轴显示的是方差，设定显示的方差范围。如果没有设定，就是显示上述 graphomega 设定的范围

注意： graphmu(numlist) 、graphomega(numlist) 、graphdelta(numlist) 只能用于 LTZ 方法；可以重写 plausexog 内置的典型图形选项。

4.3 Stata应用范例

我们以 Conley et al. () 提供的案例来展示和说明 plausexog 命令在实践中的用法。这个案例是「是否参加 401(k) 养老金计划对于金融资产持有的影响」。根据以下回归方程，即将工具变量也放入原模型中：

式 (4) 中，被解释变量为金融资产净持有量 (net_tfa)，内生解释变量为是否参加 (401k) 养老金计划(p401)，表示一系列控制变量，工具变量为是否具有参加 401(k) 计划的资格 (e401)。

作为对照，首先进行 OLS 估计。回归结果显示，是否参加 (401k) 养老金计划对金融资产持有的回归系数为 14573.16 (在 1% 的水平上显著)，表明参加 (401k) 养老金计划显著提高了金融资产持有。

本例中使用的 Stata 数据文件可以通过如下网址获得 (右击文件，另存为「conleyetal.dta」即可)：

/arlionn/data/blob/master/data01/conleyetal.dta

或者，直接复制如下网址到浏览器地址栏中，自动保存即可：

/arlionn/data/raw/master/data01/conleyetal.dta

* 数据下载地址：

* /arlionn/data/blob/master/data01/conleyetal.dta

* 或直接下载

* /arlionn/data/raw/master/data01/conleyetal.dta

* Note: 请将上述网址复制到浏览器地址栏中，另存为「conleyetal.dta」

. use 'conleyetal.dta', clear

. global xvar i2 i3 i4 i5 i6 i7 age age2 fsize hs smcol ///

col marr twoearn db pira hown //设定控制变量

. reg net_tfa p401 $xvar // 进行OLS估计

Source | SS df MS Number of obs = 9,915

-------------+---------------------------------- F(18, 9896) = 147.54

Model | 8.4640e+12 18 4.7022e+11 Prob > F = 0.0000

Residual | 3.1540e+13 9,896 3.1872e+09 R-squared = 0.2116

-------------+---------------------------------- Adj R-squared = 0.2101

Total | 4.0004e+13 9,914 4.0351e+09 Root MSE = 56455

------------------------------------------------------------------------------

net_tfa | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------

p401 | 14573.16 1370.143 10.64 0.000 11887.4 17258.92

i2 | 894.0948 2594.54 0.34 0.730 -4191.732 5979.921

i3 | 2058.42 2649.516 0.78 0.437 -3135.17 7252.011

i4 | 5078.633 2805.765 1.81 0.070 -421.2385 10578.5

i5 | 10095.74 3054.216 3.31 0.001 4108.851 16082.62

i6 | 21465.95 3089.35 6.95 0.000 15410.19 27521.7

i7 | 61984.87 3568.676 17.37 0.000 54989.54 68980.2

age | -1823.743 477.7594 -3.82 0.000 -2760.249 -887.2374

age2 | 28.85322 5.496476 5.25 0.000 18.07901 39.62744

fsize | -719.6151 471.425 -1.53 0.127 -1643.704 204.474

hs | 2729.221 1894.662 1.44 0.150 -984.7015 6443.144

smcol | 2723.484 2088.134 1.30 0.192 -1369.684 6816.653

col | 5146.093 2236.686 2.30 0.021 761.7326 9530.454

marr | 4464.855 1857.818 2.40 0.016 823.1536 8106.556

twoearn | -15066.15 1620.753 -9.30 0.000 -18243.16 -11889.15

db | -2899.825 1362.273 -2.13 0.033 -5570.157 -229.4926

pira | 31580.43 1488.558 21.22 0.000 28662.55 34498.31

hown | 4126.652 1353.735 3.05 0.002 1473.056 6780.248

_cons | 19116.34 9968.135 1.92 0.055 -423.2391 38655.91

------------------------------------------------------------------------------

考虑到以上基准回归模型可能存在内生性，于是采用工具变量方法缓解其中的内生性问题。工具变量估计结果显示，是否参加 (401k) 养老金计划系数的 IV 估计比 OLS 估计有所减小，依然显著为正。工具变量回归的结果进一步证实了基准回归结论的稳健性。

. ivreg2 net_tfa $xvar (p401 = e401) // 采用工具变量e401

IV (2SLS) estimation

--------------------

Estimates efficient for homoskedasticity only

Statistics consistent for homoskedasticity only

Number of obs = 9915

F( 18, 9896) = 144.12

Prob > F = 0.0000

Total (centered) SS = 4.00041e+13 Centered R2 = 0.2115

Total (uncentered) SS = 4.32349e+13 Uncentered R2 = 0.2704

Residual SS = 3.15432e+13 Root MSE = 56404

------------------------------------------------------------------------------

net_tfa | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

p401 | 13222.14 1832.827 7.21 0.000 9629.87 16814.42

i2 | 962.1541 2592.907 0.37 0.711 -4119.85 6044.158

i3 | 2190.277 2649.777 0.83 0.408 -3003.191 7383.744

i4 | 5313.626 2811.217 1.89 0.059 -196.2591 10823.51

i5 | 10400.47 3063.796 3.39 0.001 4395.537 16405.4

i6 | 21859.43 3106.884 7.04 0.000 15770.05 27948.81

i7 | 62464.83 3591.623 17.39 0.000 55425.37 69504.28

age | -1811.558 477.4514 -3.79 0.000 -2747.346 -875.7705

age2 | 28.68893 5.493477 5.22 0.000 17.92191 39.45594

fsize | -724.4649 471.0166 -1.54 0.124 -1647.64 198.7106

hs | 2761.253 1893.159 1.46 0.145 -949.2706 6471.776

smcol | 2750.739 2086.38 1.32 0.187 -1338.491 6839.968

col | 5161.979 2234.698 2.31 0.021 782.0515 9541.906

marr | 4453.186 1856.158 2.40 0.016 815.1838 8091.188

twoearn | -15051.59 1619.332 -9.29 0.000 -18225.42 -11877.76

db | -2750.19 1367.711 -2.01 0.044 -5430.855 -69.52455

pira | 31667.72 1489.287 21.26 0.000 28748.77 34586.67

hown | 4200.889 1354.161 3.10 0.002 1546.783 6854.995

_cons | 18929.86 9960.489 1.90 0.057 -592.3447 38452.06

------------------------------------------------------------------------------

Underidentification test (Anderson canon. corr. LM statistic): 5530.843

Chi-sq(1) P-val = 0.0000

------------------------------------------------------------------------------

Weak identification test (Cragg-Donald Wald F statistic): 1.2e+04

Stock-Yogo weak ID test critical values: 10% maximal IV size 16.38

15% maximal IV size 8.96

20% maximal IV size 6.66

25% maximal IV size 5.53

Source: Stock-Yogo (). Reproduced by permission.

------------------------------------------------------------------------------

Sargan statistic (overidentification test of all instruments): 0.000

(equation exactly identified)

------------------------------------------------------------------------------

Instrumented: p401

Included instruments: i2 i3 i4 i5 i6 i7 age age2 fsize hs smcol col marr

twoearn db pira hown

Excluded instruments: e401

------------------------------------------------------------------------------

使用工具变量进行估计的有效性需要首先确保其符合排除性约束条件。就工具变量 e401 的外生性而言，Poterba et al.(1994,1995,1996) 在一系列文章中进行了讨论。然而，即便如此，该工具变量的可靠性依旧备受质疑。在放松了工具变量的外生性条件下，Conley et al.（）认为工具变量可以是近似外生的。考虑到所使用的工具变量 e401 并非严格外生，于是根据 Conley et al． () 提出的置信区间集合方法 (UCI) 和近似于零方法 (LTZ) 进行额外分析，检验在工具变量非完全外生时估计结果的稳健性。

基于 UCI 方法得出的是否参加 (401k) 养老金计划(p401) 系数的置信区间为 (2296.0855，24148.702)。因此，在近似外生情形下，本文的 IV 估计结果仍然是稳健显著为正的。

本例中，gmin 取值为 -5000，gmax 取值为 5000，最终得到 Beta 的上下限。实际应用中，如何设置 gmin 和 gmax，并没有标准答案，但必须基于合理的经济逻辑或者规则。

. plausexog uci net_tfa $xvar (p401 = e401), gmin(-5000) gmax(5000) ///

grid(2) level(.95) vce(robust)

Estimating Conely et al.'s uci method

Exogenous variables: i2 i3 i4 i5 i6 i7 age age2 fsize hs smcol col marr twoearn db pira hown

Endogenous variables: p401

Instruments: e401

Conley et al ()'s UCI results Number of obs = 9915

------------------------------------------------------------------------------

Variable Lower Bound Upper Bound

------------------------------------------------------------------------------

i2 -463.27103 2393.5641

i3 73.697056 4308.4822

i4 2424.8403 8200.0972

i5 6403.6009 14402.337

i6 17304.114 26421.917

i7 50457.367 74483.412

age -2892.6154 -728.90201

age2 15.221681 42.136539

fsize -1468.2371 18.184644

hs 254.33719 5264.906

smcol -561.31936 6056.6969

col 1289.1183 9026.787

marr 723.44846 8181.085

twoearn -19279.755 -10819.415

db -5404.2827 -100.57368

pira 27923.018 35420.349

hown 2587.5075 5816.0315

p401 2296.0855 24148.702

_cons -975.72159 38807.149

-----------------------------------------------------------------------------

UCI 假定下，是否参加 (401k) 养老金计划(p401) 的系数在 95% 显著性水平下的稳健置信区间如图 1 所示。

. plausexog uci net_tfa $xvar (p401 = e401), graph(p401) ///

gmin(-5000) gmax(5000) grid(2) level(.95) vce(robust)

Estimating Conely et al.'s uci method

Exogenous variables: i2 i3 i4 i5 i6 i7 age age2 fsize hs smcol col marr twoearn db pira ho

> wn

Endogenous variables: p401

Instruments: e401

图 1 基于UCI 方法的置信区间

如果重新设定 gmin 和 gmax 取值，则可以根据新的 gamma 的取值范围，获得新的 Beta 的参数界限，即置信区间集合 (UCI)。例如，如果 gmin 取值为 -10000，gmax 取值为 10000，则可得到 p401 系数新的稳健置信区间 (-4886.9191，31332.203)，结果如图 2 所示。

. plausexog uci net_tfa $xvar (p401 = e401), graph(p401) gmin(-10000) ///

gmax(10000) grid(2) level(.95) vce(robust)

Estimating Conely et al.'s uci method

Exogenous variables: i2 i3 i4 i5 i6 i7 age age2 fsize hs smcol col marr twoearn db pira hown

Endogenous variables: p401

Instruments: e401

Conley et al ()'s UCI results Number of obs = 9915

------------------------------------------------------------------------------

Variable Lower Bound Upper Bound

------------------------------------------------------------------------------

i2 -521.86846 2458.0638

i3 -104.87266 4488.6619

i4 2312.9554 8309.6845

i5 6354.6884 14456.23

i6 17131.861 26601.305

i7 49954.621 74997.276

age -2923.7451 -696.17742

age2 14.900429 42.438197

fsize -1471.6129 20.443792

hs 181.41554 5334.5844

smcol -656.13757 6145.4425

col 1187.9477 9119.9383

marr 622.05162 8280.6488

twoearn -19344.348 -10750.815

db -5695.9016 186.59616

pira 27566.006 35785.257

hown 2473.4966 5931.7854

p401 -4886.9191 31332.203

_cons -1781.7058 39584.939

------------------------------------------------------------------------------

图 2 基于UCI 方法的置信区间

基于 LTZ 方法得出的结果表明，在近似外生的情形下，是否参加 (401k) 养老金计划(p401) 变量的估计系数依然显著为正。因此，采用是否具有参加 401(k) 计划的资格 (e401) 作为是否参加 (401k) 养老金计划(p401) 的工具变量得到的 IV 估计结果是稳健的。

本例中，设定 gamma 服从正态分布，mu 取值为 0，omega 取值为 25000，从而得到有解析形式的参数界限。实际应用中，如何设置 gamma 的分布，一般需要根据先验信息综合确定。此外，如果设定 gamma 服从某个非正态分布，一般通过选项 distribution(name, params) 来进行，只不过此时是通过模拟获取界限。

. plausexog ltz net_tfa $xvar (p401 = e401), mu(0) omega(25000) ///

level(.95) vce(robust)

Estimating Conely et al.'s ltz method

Exogenous variables: i2 i3 i4 i5 i6 i7 age age2 fsize hs smcol col marr twoearn db pira hown

Endogenous variables: p401

Instruments: e401

Conley et al. ()'s LTZ results Number of obs = 9915

------------------------------------------------------------------------------

| Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------

p401 | 13222.14 1926.609 6.86 0.000 9446.061 16998.23

i2 | 962.1541 700.6402 1.37 0.170 -411.0755 2335.384

i3 | 2190.277 992.1113 2.21 0.027 245.7741 4134.779

i4 | 5313.626 1420.208 3.74 0.000 2530.069 8097.183

i5 | 10400.47 .663 5.15 0.000 6445.918 14355.01

i6 | 21859.43 2239.623 9.76 0.000 17469.85 26249.01

i7 | 62464.83 5871.894 10.64 0.000 50956.12 73973.53

age | -1811.558 536.1392 -3.38 0.001 -2862.372 -760.7445

age2 | 28.68893 6.71 4.27 0.000 15.53364 41.84422

fsize | -724.4649 378.4213 -1.91 0.056 -1466.157 17.2273

hs | 2761.253 1244.257 2.22 0.026 322.553 5199.952

smcol | 2750.739 1643.95 1.67 0.094 -471.3435 5972.821

col | 5161.979 1926.959 2.68 0.007 1385.208 8938.749

marr | 4453.186 1853.123 2.40 0.016 821.1317 8085.24

twoearn | -15051.59 2125.758 -7.08 0.000 -19218 -10885.18

db | -2750.19 1207.883 -2.28 0.023 -5117.597 -382.783

pira | 31667.72 1730.29 18.30 0.000 28276.42 35059.03

hown | 4200.889 767.7217 5.47 0.000 2696.182 5705.596

_cons | 18929.86 9755.124 1.94 0.052 -189.8365 38049.55

------------------------------------------------------------------------------

LTZ 假定下，是否参加 (401k) 养老金计划(p401) 的系数在 95% 显著性水平下的估计值如图 3 所示。

. plausexog ltz net_tfa $xvar (p401 = e401), ///

omega(25000) mu(0) vce(robust) ///

graph(p401) graphmu(1000 2000 3000 4000 5000) ///

graphomega(333333.33 1333333.3 3000000 5333333.3 8333333.3) ///

graphdelta(2000 4000 6000 8000 10000)

Estimating Conely et al.'s ltz method

Exogenous variables: i2 i3 i4 i5 i6 i7 age age2 fsize hs smcol col marr twoearn db pira hown

Endogenous variables: p401

Instruments: e401

图 3 基于LTZ 方法的置信区间

总之，基于 Conley et al． () 在放松工具变量外生性条件之下进行 IV 估计的实证框架，是目前解决 IV 非完全外生问题的有利武器。实证研究中，我们可以尝试承认 IV 可能不完全外生，但是通过一系列回归和检验告诉读者，即便不外生不排他，但是这个问题在绝大多数情况下都不会对文章的基本结论产生实质性的影响。这既满足了审稿人的好奇心，也解决了我们的实际问题，皆大欢喜。

「与其进一步争论不休，不如退一步海阔天空」

如果觉得《IV 估计：工具变量不外生时也可以用！》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。