Heckman两步法(1)

Heckman两步法(1)
这期推送简单介绍⼀下样本选择模型和处理效应模型,其中样本选择模型是⼀般意义上的Heckman两步法,后者则借鉴了Heckman两步法的构建思想,但⼜不完全等同于前者。模型介绍之后,将利⽤help⽂件中的⽰例数据与代码简单演⽰⼀下这两个模型在Stata中的具体操作,然后简单评述⼀下现阶段⽂献中对这两个模型的理解与应⽤情况,最后结合⼀篇论⽂的公开数据与代码进⾏结果复盘与⼆次验证。
1、下划线字体为链接,可点击跳转;
2、推⽂中的公式与代码块均可左右滑动;
3、该⽂⾸发于公众
号DMETP,欢迎关注;4、需要本次推送所使⽤的数据和代码的朋友,可以在后台对话框内回复关键词heckman。⼀、样本选择偏差与⾃选择偏差
上期推送『双重差分法 | PSM - DID』介绍了样本选择偏差与⾃选择偏差的区别,最关键的⼀点在于两者⾮随机的选择机制是不同的。
样本选择偏差。样本选择偏差的⾮随机选择机制在于对样本的选择不随机。在样本数据的采集过程中,
只对某部分体进⾏调查,但这部分体与其他体在某些⽅⾯的特征差异较⼤,因此根据这样的样本做回归得到的普适性结论并不可信。体现在具体的数据集中就是,数据集中只有特定体的样本,或者,虽然有全部体的所有解释变量数据,但除特定体之外的其他体的被解释变量数据缺失,在这两种情况下进⾏的回归,都将直接忽视其他体的样本信息(y缺失的样本在参与回归时将被drop掉)。实质上,样本选择偏差说的就是参与回归的样本不能代表总体从⽽产⽣估计偏误的问题。
⾃选择偏差。⾃选择偏差的⾮随机选择机制在于对⾃变量的选择不随机。在使⽤DID⽅法评估政策效应时,⼀个明显的事实就是,相对于未实施政策的地区(控制组),实施政策的地区(处理组)通常情况下经济发展都较为发达、各类基础设施建设都较为完善,⽽所谓的“政策效果评估”也即考察政策的经济效应,因此地区是否参与政策这⼀⾏为是内⽣的。体现在回归⽅程中就是,经济指标(如,GDP、⼈
雷锋精神伴我成长均GDP、GDP增长率等)作为被解释变量y,地区(在某时点)是否实施该项政策的哑元变量D作为核⼼解释变量,但由于政策内⽣,因此某些影响地区是否参与决策D的(可观测或不可观测)因素也将同时影响经济指标y,由于这些因素或者⽆法穷尽、或者影响形式未知、或者不可测度,因此被放到随机扰动项中,造成解释变量D与扰动项ε相关,即。实质上,⾃选择偏差说的就是实验组与控制组的先验条件存在较⼤差异从⽽导致估计偏误的问题。
三维可视化
两者的区别。⾮随机选择机制的不同是两者最⼤的区别,体现在具体回归⽅程中就是,样本选择偏差中被解释变量y是否被观测到或是否取值(⽽⾮取值⼤⼩)是⾮随机的;⽽⾃选择偏差中哑元解释变量D的取值是⾮随机的。陈强(2014)《⾼级计量经济学及Stata应⽤(第⼆版)》第539页认为,样本选择问题通常不考虑某项⽬或政策的效应,故个体间的差异并不在于是否得到处理,⽽在于是否能进⼊样本(即被解释变量是否可观测),通常意味着可观测,⽽则意味着不可观测。⽽在处理效应模型中,⽆论或,结果变量均可观测。这种说法基本概括了两者的区别,但有⼀个⼩问题,在样本选择偏差中,的取值与是否可观测并不存在必然的关系,因为是⼀个确定并可准确测度的因素,⽽影响是否可观测的却是⼀个不可观测的潜变量,这个潜变量由⼀系列控制变量与外⽣变量决定。
⼆、两个模型的估计思路
花⼤篇幅论述样本选择偏差与⾃选择偏差这两个问题,⾃然是为了引出解决这两个问题的具体⽅法。
2.1 样本选择模型
对于样本选择偏差导致的估计偏误,将使⽤样本选择模型(Sample Selection Model)来缓解。样本选择偏差与样本选择模型(或称Heckman 两步估计法、Heckit)由诺贝尔经济学奖获得者Heckman教授于1979年提出。
[2] Heckman J J. Sample Selection Bias as a Specification Error[J]. Econometrica, 1979, 47(01): 153-161.
本质上,样本选择偏差其实是⼀个因遗漏变量⽽导致内⽣性的特例(具体推导请看任意⼀本⾼级计量经济学教材,如陈强(2014)《⾼级计量经济学及Stata应⽤(第⼆版)》第234页、Hansen(2021)《ECONOMETRICS(Version 2021)》第852页等)。
回归⽅程中被遗漏的变量叫做逆⽶尔斯⽐率(Inverse Mill's Ratio,IMR或),也被称为风险函数(Hazard Function),计算公式为:
其中,为第个样本在第⼀步回归(选择⽅程)的拟合值,为标准正态的概率密度函数(Probability Density
Function,pdf),为累积分布函数(Cumulative Distribution Function,cdf)。
因此,样本选择模型的估计思路是:⾸先,计算全部样本的IMR;随后,将遗漏变量IMR代⼊原回归⽅程中,具体来说:第⼀步 :⽤probit⽅法估计选择⽅程,其中原回归⽅程的被解释变量y是否被观测到或是否取值的虚拟变量y_dummy作为probit的被解释变量,解释变量包括原回归⽅程所有解释变量和⾄少⼀个外⽣变量,该外⽣变量只影响y是否取值,⽽不影响y的⼤⼩,即满⾜相关性和外⽣性的要
求(但不是⼯具变量)。估计出所有变量的系数后,将样本数据代⼊⾄probit模型中,计算出拟合值,再将代⼊风险函数(公式)中计算出IMR。这⾥有四点需要注意:
第⼀,选择⽅程的被解释变量是原回归⽅程中被解释变量y是否被观测到或是否取值的虚拟变量,即y_dummy,当y取值不为空(包括取值为0)时,y_dummy等于1,只有当y_dummy取值为空(missing)时,y_dummy才等于0。关于这⼀点,现实应⽤中存在的问题是,即便我们⼗分清楚存在样本选择偏差,但由于前期数据搜集过程中直接忽视了y取值为空的样本,因此⽆法采⽤样本选择模型,因为样本选择模型第⼀步选择⽅程使⽤的是所有样本,包括y取值为空的样本和取值不为空的样本。由于数据搜集过程存在问题,因此许多⽂献使⽤的所谓Heckman两步法实际上是⼀种“伪样本选择模型”,与Heckman(1979)提出的两步估计法(Two-Step Estimation,或Heckit)完全不同,⽽且也不是下⽂将要介绍的处理效应模型。
第⼆,选择⽅程的被解释变量只能是原回归⽅程中被解释变量y是否被观测到或是否取值的虚拟变量,⽽不能是其他变量,更不能是解释变量是否取值的虚拟变量。如果第⼀步回归的被解释变量是原回归中解释变量是否取值的虚拟变量,那么该模型就不再是样本选择模型了,⽽变成了下⽂将要介绍的处理效应模型,关于这⼀点,实际应⽤中经常被搞混。
第三,第⼀步选择⽅程的解释变量必须要包括原回归中所有解释变量和⾄少⼀个外⽣变量,也就是说,
原回归的解释变量是选择⽅程解释变量的真⼦集。如果只使⽤原回归中⼀部分的解释变量或不引⼊外⽣变量,那么就不能确保IMR与原回归的随机⼲扰项不相关,从⽽造成估计系数依然存在偏误。实际应⽤中,多数⽂献并未引⼊外⽣变量,部分⽂献甚⾄没有汇报第⼀步选择⽅程中的解释变量,这样的做法⼗分不推荐。此外,论⽂中如果引⼊了外⽣变量,就需要对相关性与外⽣性进⾏具体说明,其中相关性不能只从外⽣变量的回归系数显著这⼀个⽅⾯进⾏说明,还要从其他⽂献和从理论上进⾏分析;外⽣性的说明与之类似。
第四,第⼀步选择⽅程只能使⽤probit模型进⾏回归,不能使⽤logit模型。在选择⽅程中,假设扰动项服从正态分布,从⽽可以推导出将IMR代⼊原回归⽅程可以缓解样本选择偏差问题,因此对于被解释变量为0-1型的虚拟变量,只能使⽤probit模型⽽不能使⽤logit模型,因为logit模型不具有扰动项服从正态分布的假设。但问题是,probit假设时间效应和个体效应与扰动项不相关,即第⼀步选择⽅程中只能使⽤随机效应模型,不能使⽤更⼀般化的固定效应模型。实际应⽤中,多数⽂献在汇报第⼀阶段回归结果时,在末尾加上“时间固定效应 -Yes”、“个体固定效应 - Yes”等,这样的做法是有待商榷的,因为这根本就不是固定效应模型。
第⼆步 :将第⼀步回归计算得到的IMR作为控制变量引⼊原回归⽅程中。如果IMR显著,说明原回归中存在样本选择偏差,需要使⽤样本选择模型进⾏缓解,⽽其余变量的回归系数则是缓解样本选择偏差后更为稳健的结果;如果IMR不显著,说明原回归存在的样本选择偏差问题不是很严重,不需要使
⽤样本选择模型,当然,使⽤了也没关系,因为引⼊控制变量的回归结果可以与原回归结果⽐较,作为⼀种形式的稳健性检验。这⾥有两点需要注意:
汤永涛第⼀,两步估计法中第⼆步回归代⼊的是第⼀步回归的结果,因此第⼀步回归的估计误差也将被代⼊第⼆步,造成效率损失,最终导致第⼆
步估计系数的标准误存在偏差,影响p值进⽽影响系数显著性。解决⽅法有两种:⼀是对第⼆步回归的标准误进⾏校正处理,但标准误的校正⽅法相对复杂,因此现阶段采⽤这种解决⽅案的⽂献⼏乎没有;⼆是使⽤极⼤似然估计(Maximum Likelihood Estimate,MLE),直接对两阶段回归进⾏整体估计,这种⽅法在实际应⽤中使⽤较多,但存在的问题在于如果样本量太⼤,计算会⾮常耗时。因此,考虑到操作的简便性、理解的直观性以及对分布的假设更为宽松,⽬前国内流⾏使⽤的还是两步估计法。
第⼆,第⼆步回归使⽤的样本数⽬少于第⼀步。假设所有的解释变量(包括第⼀步的外⽣变量)都没有缺失值,仅被解释变量y存在缺失值,那么第⼀步回归中使⽤的样本数⽬是全样本,因为第⼀步选择⽅程的被解释变量y_dummy设置为当y取值不为空(包括y取值为0)时y_dummy等于1,y取值为空时y_dummy等于0,故所有样本的y_dummy都有取值,因此都参与了第⼀步回归。⽽第⼆步回归中的被解释变量y存在缺失值,存在缺失值的样本在参与回归时将直接被剔除。因此第⼆步回归使⽤的样本数⽬少于第⼀步,这也是样本选择模型⼀个最直观的特征,这与下⽂介绍的处理效应模型形成⽐较。
2.2 处理效应模型
对于⾃选择偏差导致的估计偏误,将使⽤处理效应模型(Treatment Effects Model)来缓解,该模型由Maddala(1983)提出。
[4] Maddala G S. Limited-Dependent and Qualitative Variables in Econometrics[M]. Cambridge University
Press, 1986.
事实上,使⽤处理效应模型也只是⼀定程度上缓解⾃选择偏差问题。正如『上期推⽂的1.3⼩节』所论述的,决定个体是否参与实验的因素可以分为两种:
⼀种是可观测因素,如果个体参与实验的决策依赖于可观测因素,就说明该个体的决策依可测变量选择。
另⼀种是不可观测因素,如果个体参与实验的决策依赖于不可观测因素,就说明该个体的决策依不可测变量选择。
相应地,解决⾃选择偏差问题的⽅法也⼤致可以分为两类:
解决依可测变量选择问题的⽅法如上期介绍的PSM,通过控制处理组与控制组协变量的取值⼤致相等,从⽽达到变量选择近似随机的⽬的。
解决依不可测变量选择问题的⽅法包括PSM - DID⽅法、断点回归⽅法(RDD)以及这⾥的处理效应模型等。需要注意的是,单纯的PSM只能解决依可测变量选择的内⽣问题,⽽将PSM和DID结合(即PSM - DID)就可以缓解⼀部分由不可观测因素带来的⾃选择偏差问题。
处理效应模型的构建基于Heckman两步法的思想,但与Heckman两步法或者样本选择模型有着本质上的区别,最明显的区别在于,样本选择模型第⼀阶段回归的被解释变量是第⼆阶段被解释变量y是否取值的虚拟变量y_dummy,并且y_dummy不参与第⼆阶段回归;⽽处理效应模型第⼀阶段回归的被解释变量是第⼆阶段的核⼼解释变量D,并且D的取值为0或1,不存在缺失值。
同样,⾃选择偏差本质上也是⼀个因遗漏变量⽽导致的内⽣性问题,被遗漏的变量也是IMR,但其计算公式与样本选择偏差存在区别。具体⽽⾔,存在⾃选择偏差的回归⽅程中被遗漏的IMR计算公式为:
上式各字母的解释同公式。关于IMR计算公式的更多细节,请参考Stata官⽅⽹站的回答(FAQs)。
明显可以看到,公式说明在样本选择模型中,所有样本的IMR均⽤⼀个公式来计算;公式说明在处理效应模型中,D取值为1的样本
与D取值为0的样本的IMR计算公式不同,⽽且由于处理效应模型第⼆阶段回归中所有样本均参与了回归,因此如果混⽤了计量模型将直接导致变量IMR的取值错误,进⽽影响第⼆步回归的估计结果。
同样,处理效应模型的估计思路是:⾸先,计算全部样本的IMR;随后,将遗漏变量IMR代⼊原回归⽅程中,具体来说:
滨州医学院图书馆第⼀步 :使⽤probit模型估计选择⽅程,其中选择⽅程的被解释变量是第⼆步回归中的核⼼解释变量D,该解释变量为虚拟变量且不存在缺失值;选择⽅程的解释变量包括由第⼆阶段回归中所有解释变量组成的控制变量集以及⼀个或多个外⽣变量组成的⼯具变量集Z,这⾥之所以直接说Z是⼯具变量,是因为要求Z满⾜相关性与外⽣性,⽽相关性说的是Z与原回归⽅程中的解释变量D相关,⽽⾮样本选择模型中的要求外⽣变量与y_dummy相关。同样,回归模型只能使⽤probit⽅法,此外也不能使⽤固定效应模型,在汇报时只能说是“个体效应 - Yes”或“时间效应 - Yes”。
需要注意的是,选择⽅程中的⼯具变量应尽量避免使⽤D的滞后项D_lag,原因在于如果是普通DID,对于所有处理组来说政策实施时点都是⼀致的,那么在第⼀步回归中,D_lag会因为多重共线性⽽被omitted;如果是多期DID,尽管政策实施时点不固定,但总共的实施时点必然不会过多,D_lag同样也会因为多重共线性⽽被omitted。⽽对于⾮DID的D⽽⾔,滞后项D_lag则有可能作为⼀个良好的⼯具变量,下⽂第六部分『公开数据的Stata实操』就是⼀个⾮DID的例⼦。
第⼆步 :将样本数据代⼊第⼀步选择⽅程中,得到各个样本的的拟合值,再将代⼊处理效应模型的风险函数(公式)中,计算得到各样本的IMR,最后将IMR作为额外的控制变量引⼊原回归⽅程中,考察核⼼解释变量D以及IMR的估计系数。如果IMR的估计系数显著,说明⾃选择偏差问题不可忽视,此时核⼼解释变量D的系数就是考虑了⾃选择偏差后的估计结果,并可与基准回归结果对⽐构成稳健性检验;⽽如果IMR的估计系数不显著,则说明⾃选择偏差问题在原回归中不明显,基准回归结果本⾝就是可信的。
需要注意的是,核⼼解释变量D在两步模型中均参与了回归,其中第⼀阶段回归中D作为被解释变量,在第⼆阶段回归中作为解释变量,并且我们假设D不存在缺失值,因此处理效应模型两步回归中的样本均是全样本,这不同于样本选择模型。
2.3 估计思路的对⽐
总结⼀下样本选择模型和处理效应模型的估计思路的异同点。
相同点在于:
1. 都是两步估计法。Heckman于1979年提出的两步估计法最开始是⽤于解决样本选择偏差的,即最初的Heckman两步法指的就是样本选择模
c大调的城
型,后来有学者借鉴这种两步估计法的思想,应⽤于解决⾃选择偏差的处理效应模型。这两个模型在估计思路上是⼀脉相承的,⽽正是因为这种相似性,所以才导致各个学者对这两个模型的错误理解与错误应⽤,这种错误在现阶段的⽂献中较为常见。
2. 都可以使⽤MLE进⾏模型的整体估计。两步估计法(如2SLS、PSM - DID以及这⾥的样本选择模型和处理效应模型等)⼀个明显的缺陷是,
第⼀步估计的误差将被带⼊第⼆步,导致效率损失。⽽使⽤MLE从整体上进⾏参数估计可以避免这种问题,但如果样本量过⼤,MLE估计耗时较长,且MLE对分布的假设较为严格,因此需要在估计的精准性、操作的简便性等⽅⾯进⾏权衡。
3. 第⼀阶段回归都需要引⼊外⽣变量,同时应包括第⼆阶段的所有外⽣解释变量。引⼊的外⽣变量需满⾜相关性和外⽣性的要求,即与选择⽅程
中的被解释变量在理论上和统计上均具有相关性,⽽与第⼆步回归的被解释变量不具有直接的相关关系。引⼊外⽣变量的⽬的是确保第⼀步计算得到的IMR在引⼊原回归⽅程后不与⼲扰项相关。该外⽣变量在处理效应模型中可以直接称作⼯具变量。此外,如果核⼼解释变量D是DID 模型的did项,那么为了防⽌出现多重共线性,应该尽量避免使⽤D的滞后项D_lag作为⼯具变量。事实上,如果到了⼀个良好的⼯具变量,也完全能够使⽤2SLS解决内⽣性问题。此外,两个模型除了都需要在第⼀阶段引
⼊⾄少⼀个外⽣变量,第⼀阶段回归中的其余控制变量也应该是第⼆阶段回归中所有的控制变量,即应该包括所有的外⽣解释变量,原因在于保证两阶段估计的⼀致性,详情请看陈强教授的推⽂『⼯具变量法(五): 为何第⼀阶段回归应包括所有外⽣解释变量』。然⽽,部分⽂献在第⼀阶段并未包括第⼆阶段所有的外⽣解释变量,少部分⽂献甚⾄根本就不引⼊第⼆阶段的外⽣解释变量(如,考虑滞后效应,直接引⼊第⼆阶段外⽣解释变量的滞后项),并且在Stata处理效应模型的官⽅命令etregress的help⽂件的演⽰案例中,第⼀阶段回归也并未包括所有的外⽣解释变量,原因可能在于IMR是⼀个⾮线性项,因此不包含所有外⽣解释变量引起的内⽣性问题可能并没有2SLS那么严重。
4. 第⼀步回归都只能是probit模型。由于logit模型不具备扰动项服从正态分布的假设,如果使⽤logit模型估计选择⽅程,将直接导致IMR计算错
误,因为Heckman(1979)在推导IMR时,假设选择⽅程的随机扰动项服从正态分布。这与PSM不同,PSM估计概率⽅程可以使⽤logit模
型,也可以使⽤probit模型,并且实际使⽤中流⾏的是logit模型。然⽽,选择⽅程使⽤probit模型进⾏估计有⼀个问题不可忽视,那就是probit(包括Stata的xtprobit)不能估计固定效应模型,因此即便在回归⽅程中引⼊时间虚拟变量和个体虚拟变量,控制的也只是“时间效应”和“个体效应”,不能加⼊“固定”⼆字。
不同点在于:
1. 解决的问题不同。样本选择模型解决的是样本选择偏差导致的内⽣性问题,处理效应模型解决(或者“缓解”)的是依不可观测因素导致的⾃
选择偏差问题。在实际应⽤中,部分⽂献在分析内⽣性问题时将样本选择偏差与⾃选择偏差混淆,从⽽使⽤的模型也是不恰当的。在数据搜集过程中,对被解释变量存在缺失值的样本,多数⽂献的做法是直接把这些样本剔除,因⽽即便⽂章中考虑到了样本选择偏差问题,我们也⽆法使⽤样本选择模型(或Heckman两步法)。事实上,囿于数据缺陷,⼤多数实证类论⽂都不具备实施Heckman两步法的条件。对于DID类的实证论⽂,对内⽣性的分析⾓度应该更多考虑从⾃选择偏差切⼊,⽽⾮样本选择偏差,因为各样本处理组虚拟变量D的取值本⾝就提供了⾃选择偏差分析的条件,即D取值为1的样本与D取值为0的样本在某些⽅⾯是否存在明显的特征差异?或者,是否存在某些因素影响了各样本是否实施政策的决定,⽽这些因素在两组间⼜是否存在巨⼤差异?同时,这些因素是否在理论与统计意义上影响我们想研究的经济指标?在这样的分析之后,就可以使⽤处理效应模型来缓解因⾃选择偏差⽽导致的估计偏误。
2. 变量的设置不同。在样本选择模型第⼀阶段回归⽅程中,被解释变量是原⽅程中的被解释变量y是否被观测到的虚拟变量y_dummy,该变量不
参与第⼆阶段回归,同时第⼀阶段引⼊的外⽣变量直接影响的是y_dummy。在处理效应模型第⼀阶段回归⽅程中,被解释变量是原⽅程的核⼼解释变量D,D取值为0或1,且不存在缺失值,该变量还同时参与了第⼆阶段回归,此外第⼀阶段引⼊的外⽣变量(或称⼯具变量)直接影响的是D。
3. 各阶段样本参与回归的数⽬不同。假设除关键变量,其余变量都不存在缺失值,那么对于样本选择模型来说,第⼀阶段回归的解释变量均不存
在缺失值,被解释变量y_dummy取值为0或1,也不存在缺失值,因此选择⽅程中参与回归的样本是全样本,第⼆阶段由于被解释变量y本⾝就存在缺失值,因此参与第⼆阶段回归的样本不是全样本,从⽽第⼀阶段的样本多于第⼆阶段。对于处理效应模型来说,所有变量均不存在缺失值,因此两阶段参与回归的样本是相同的,虽然在第⼀阶段引⼊滞后项D_lag作为⼯具变量的情况下会损失⼀部分样本,但由于计算出来的IMR同样也存在缺失值,从⽽第⼆阶段参与回归的样本也将与第⼀阶段相同。
肉肉更健康4. IMR的计算公式不同。从公式和公式就可以看出,对于样本选择模型,各样本的IMR计算公式相同;对于处理效应模型来说,D取值
为1的样本和D取值为0的样本IMR计算公式并不相同,并且所有样本的IMR均参与了第⼆步回归。所以,如果混淆了样本选择模型和处理效应模型,将直接导致变量IMR的计算错误,反⽽进⼀步造成了估计偏误。
下⾯推⽂的第三、第四部分将分别使⽤⽰例数据演⽰样本选择模型和处理效应模型在Stata中的规范操作。

本文发布于:2024-09-21 22:54:29,感谢您对本站的认可!

本文链接:https://www.17tex.com/xueshu/208063.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:变量   选择   样本   模型
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2024 Comsenz Inc.Powered by © 易纺专利技术学习网 豫ICP备2022007602号 豫公网安备41160202000603 站长QQ:729038198 关于我们 投诉建议