因果推断简介之四:观察性研究,可忽略性和倾向得分

因果推断简介之四：观察性研究，可忽略性和倾向得分

通感编辑部于2019年10⽉在端开启《朝花⼣拾》栏⽬，⽬的是推送2013年（含）之前主站发表的优秀⽂章，端与主站的同步始于2013年年初，然⽽初期⽤户量有限，故优质⽂章可能被埋没。

在传统的农业和⼯业试验中，由于随机化，可忽略性⼀般是能够得到保证的；因此在这些领域谈论因果推断是没有太⼤问题的。Jerzy Neyman 最早的博⼠论⽂，就研究的是农业试验。但是，这篇写于 1923 年的重要统计学⽂章，迟迟没有得到统计学界的重视，也没有⼈将相关⽅法⽤到社会科学的研究中。1970 年代，Donald Rubin 访问 UC Berkeley 统计系，已退休的 Jerzy Neyman 曾问起：为什么没有⼈将潜在结果的记号⽤到试验设计之外？正如 Jerzy Neyman 本⼈所说 “without randomization an experiment has little value irrespective of the subsequent treatment（没有随机化的试验价值很⼩）”，⼈们对于观察性研究中的因果推断总是抱着强烈的怀疑态度。我们经常听到这样的声⾳：统计就不是⽤来研究因果关系的！

在第⼀讲 Yule-Simpson 悖论的评论中，有⼈提到了哲学（史）上的休谟问题（我的转述）：⼈类是否能从有限的经验中得到因果律？这的确是⼀个问题，这个问题最后促使德国哲学家康德为调和英国经验派（休谟）和⼤陆理性派（莱布尼兹-沃尔夫）⽽写了巨著《纯粹理性批判》。其实，如果⼀个⼈是绝对的怀疑论者（如休谟），他可能怀疑⼀切，甚⾄包括因果律，所以，康德的理论也不能完全“解决”休谟问题。怀疑论者是⽆法反驳的，他们的问题也是⽆法回答的。他们存在的价值是为现⾏⼀切理论起到警⽰作⽤。⼀般来说，统计学家不会从过度哲学的⾓度谈论问题。从前⾯的说明中可以看出，统计中所谓的“因果”是“某种”意义的“因果”，即统计学只讨论“原因的结果”，⽽不讨论“结果的原因”。前者是可以⽤数据证明或者证伪的；后者是属于科学研究所探索的。⽤科学哲学家卡尔·波普的话来说，科学知识的积累是“猜想与反驳”的过程：“猜想”结果的原因，再“证伪”原因的结果；如此循环即科学。

从上⾯的公式来看，似乎我们的任务是估计两个条件矩E{Y|X, Z=z}(z=0,1).这就是⼀个回归问题。不错，这也是为什么通常的回归模型被赋予“因果”含义的原因。如果我们假定可忽略性和线性模型

成⽴，那么就表⽰平均因果作⽤。线性模型⽐较容易实现，实际中⼈们⽐较倾向这种⽅法。但是他的问题是：（1）假定个体因果作⽤是常数；（2）对于处理和对照组之间的不平衡（unbalance）没有很好的检测，常常在对观测数据外推（extrapolation）。

青岛大拇指广场

上⾯的第⼆条，是线性回归最主要的缺陷。在 Donald Rubin 早期因果推断的⽂献中，推崇的⽅法是“匹

配”（matching）。⼀般来说，我们有⼀些个体接受处理，另外更多的个体接受对照；简单的想法就是从对照组中到和处理组中⽐较“接近”的个体进⾏匹配，这样得出的作⽤，可以近似平均因果作⽤。“接近”的标准是基于观测协变量的，⽐如，如果某项研究，性别是唯⼀重要的混杂因素，我们就将处理组中的男性和对照组中的男性进⾏匹配。但是，如果观测协变量的维数较⾼，匹配就很难实现了。现有的渐近理论表明，匹配⽅法的收敛速度随着协变量维数的增⾼⽽线性的衰减。

后来 Paul Rosenbaum 到 Harvard 统计系读 Ph.D.，在 Donald Rubin 的课上问到了这个问题。这就促使两⼈合作写了⼀篇⾮常有名的⽂章，于 1983 年发表在 Biometrika 上：“The central role of the propensity score in observational studies for causal effects”。倾向得分定义为

容易验证，在可忽略性下，它满⾜性质

马甲文化（在数据降维的⽂献中，称之为“充分降维”，sufficient dimension reduction）和

4m3

（给定倾向得分下的可忽略性）。根据前⾯的推导，显然有 ACE=E[E(Y|e(X), Z=1)]-E[E(Y|e(X),Z=0)] 。此时，倾向得分是⼀维的，我们可以根据它分层（Rosenbaum 和 Rubin 建议分成 5 层），得到平均因果作⽤的估计。连续版本的分层，就是下⾯的加权估计：

iea

不过，不管是分层还是加权，第⼀步我们都需要对倾向得分进⾏估计，通常的建议是 Logistic 回归。甚⾄有⽂献证明的下⾯的“离奇”结论：使⽤估计的倾向得分得到平均因果作⽤的估计量的渐近⽅差⽐使⽤真实的倾向得分得到的⼩。

熟悉传统回归分析的⼈会感到奇怪，直接将 Y 对 Z 和 X 做回归的⽅法简单直接，为何要推荐倾向得分的⽅法呢？确实，读过 Rosenbaum 和 Rubin 原始论⽂的⼈，⼀般会觉得，这篇⽂章很有意思，但是⼜觉得线性回归（或者 logistic 回归）⾜矣，何必这么复杂？在因果推断中，我们应该更加关⼼处理机制，也就是倾向得分。按照 Don Rubin 的说法，我们应该根据倾向得分来“设计”观察性研究；按

照倾向得分将⼈进⾏匹配，形成⼀个近似的“随机化试验”。⽽这个设计的过程，不能依赖于结果变量；甚⾄在设计的阶段，我们要假装没有观察到结果变量。否则，将会出现如下的怪现象：社会科学的研究者不断地尝试加⼊或者剔除某些回归变量，直到回归的结果符合⾃⼰的“故事”为⽌。这种现象在社会科学中实在太普遍了！结果的回归模型固然重要，但是如果在 Y 模型上做⽂章，很多具有“欺骗性”的有偏结果就会出现在⽂献中。这导致⼤多数的研究中，因果性并不可靠。

讲到这⾥，我们有必要回到最开始的 Yule-Simpson’s Paradox。⽤Z表⽰处理（1表⽰处理，0表⽰对照），Y表⽰存活与否（1是表⽰存活，0表⽰死亡），X表⽰性别（1表⽰男性，0表⽰⼥性）。⽬前我们有处理“因果作⽤”的两个估计量：⼀个不⽤性别进⾏加权调整

另⼀个⽤性别进⾏加权调整（由于此时协变量是⼀维的，倾向得分和协变量本⾝存在⼀⼀对应，⽤倾向得分调整结果相同，见下⾯问题 1）

其中，表⽰相应的矩估计。是否根据性别进⾏调整，对结果有本质的影响。当

时，第⼀个估计量是因果作⽤的相合估计；当

时，第⼆个估计量是因果作⽤的相合估计。根据实际问题的背景，我们应该选择哪个估计量呢？到此为⽌，回答这个问题有些似是⽽⾮（选择调整的估计量？），更进⼀步的回答，请听下回分解：因果图（causal diagram）。

作为结束，留下如下的问题：

1.如果X是⼆值的变量（如性别），那么匹配或者倾向的分都导致如下的估计量: 这个公式在流⾏病学中⾮常基本，即

根据混杂变量进⾏分层调整。在后⾯的介绍中将讲到，这个公式被 Judea Pearl 称为“后门准则”（backdoor

criterion）。

2.倾向得分的加权形式，本质上是抽样调查中的 Horvitz-Thompson 估计。在流⾏病学的⽂献中，这样的估计量常被

称为“逆概加权估计量”（inverse probability weighting estimator; IPWE）。

3.直观上，为什么估计的倾向得分会更好？想想偏差和⽅差的权衡（bias-variance tradeoff）。

关于“可忽略性”（ignorability），需要做⼀些说明。在中⽂翻译的计量经济学教科书中，这个术语翻译存在错误，⽐如Wooldridge 的 Econometric Analysis of Cross Section and Panel Data 的中译本中，“可忽略性”被翻译成“不可知”。⼦⽈：“名不正，则⾔不顺；⾔不顺，则事不成。”在 Rubin (1978) 中，“可忽略性”这个概念是在贝叶斯推断的框架下提出来的：当处理的分配机制满⾜这样的条件时，在后验的推断中，可将分配机制“忽略”掉。在传统的贝叶斯看来，所有的推断都是条件在观测数据上的，那么为什么处理的分配机制会影响贝叶斯后验推断呢？Donald Rubin 说，当时连Leonard Jimmie Savage 和 Dennis Victor Lindley 都在此困惑不解，他 1978 年的⽂章，原意就是为了解释为什么随机化会影响贝叶斯推断。

“可忽略性” 这个名字最早是在缺失数据的⽂献中提出来的。当缺失机制是随机缺失（missing at random：MAR）且模型的参数与缺失机制的参数不同时，缺失机制“可忽略”（ignorable）。“可忽略”是指，缺失机制不进⼊基于观测数据的似然或者贝叶斯后验分布。

参考⽂献：

1.Rosenbaum, P. R. and Rubin, D. B. (1983) The central role of the propensity score in observational studies for

借贷记账法causal effects. Biometrika, 70, 41-55.

2.Rubin, D. B. (1976) Inference and missing data (with discussion). Biometrika, 63, 581-592.

3.Rubin, D. B. (1978) Bayesian inference for causal effects: The role of randomization. The Annals of Statistics, 6, 34-

58.

4.Wooldridge, J. M. (2002) Econometric analysis of cross section and panel data. The MIT press.

关于作者

丁鹏，2004-2011 年在北京⼤学概率统计系学习，获得学⼠和硕⼠学位；2011-2015 年在哈佛⼤学统计系学习，获得博⼠学位；2015 年在哈佛⼤学流⾏病学系做博⼠后；2016 年加⼊伯克利统计系任教。研究⽅向是因果推断。

作者：丁鹏

编辑：向悦

本文发布于:2024-09-20 17:17:31，感谢您对本站的认可！

本文链接：https://www.17tex.com/xueshu/581424.html

上一篇：走向平衡的宪政理论(一)

下一篇：论莱欣巴哈关于归纳问题的解决方案

标签：倾向结果得分

留言与评论（共有 0 条评论）