跳转至

An Introduction to Causal Inference (Pearl 2010)

Pearl 本人对其因果推理框架的权威性综述。这是理解结构因果模型(SCM)最重要的单一参考文献——Pearl 以统一的视角呈现了从关联到因果的范式跃迁,涵盖了 SCM 的形式化定义、do 算子、图形化判据、反事实分析和中介分析的完整工具链。

来源信息

  • 作者: Judea Pearl
  • 发表: 2010, The International Journal of Biostatistics
  • 来源路径: sources/pearl-intro-causal-inference-2010.md
  • URL: https://pmc.ncbi.nlm.nih.gov/articles/PMC2836213/

核心论点

关联与因果的不可还原分界

Pearl 首先建立了一条"脆而清晰"的分界线:关联概念是任何可以从观测变量的联合分布中定义的关系(相关、回归、条件独立、似然、倾向得分等),因果概念是任何不能仅从分布定义的关系(随机化、效应、混淆、干预、解释、归因等)。这条分界线意味着:

  1. 每一个因果主张必须依赖至少一个因果前提——不可能仅从统计关联推出
  2. 因果关系无法用概率语言表达——需要新的数学记号
  3. 概率演算的语法甚至不允许表达"症状不导致疾病"这样的简单事实

结构因果模型(SCM)作为统一框架

Pearl 展示 SCM 如何统一以下六种因果分析路径为同一框架的特例:

  • 图模型路径(Wright 路径分析、贝叶斯网络)
  • 潜在结果框架(Neyman-Rubin)
  • 结构方程模型(计量经济学)
  • 决策分析路径(Dawid)
  • 干预主义路径(Woodward)
  • 概率因果路径(Suppes)

SCM 的核心操作是 do 算子:通过"模型手术"(删除指向被干预变量的方程,用常数替代)模拟物理干预,从而将因果效应定义为修改后子模型的概率分布。

四步方法论:Define-Assume-Identify-Estimate

Pearl 提出因果推理的规范流程:

  1. 定义(Define): 将目标因果量 Q(M) 定义为可以在任何完全指定模型上计算的算法——与参数化形式无关
  2. 假设(Assume): 用图和结构方程编码因果假设——缺失箭头比存在的箭头更重要
  3. 识别(Identify): 判断目标量能否从观测数据估计(是否可以将 do 表达式转换为 do-free 表达式)
  4. 估计(Estimate): 使用统计方法估计已识别的因果量;检验模型的可检验蕴含

后门准则与前门准则

后门准则提供了选择调整变量集的图形化方法:变量集 S 如果 (1) 不含 X 的后代,且 (2) 阻断 X 到 Y 的所有后门路径,则 S 是充分调整集。这解决了困扰流行病学家数十年的混淆因子选择问题。

前门准则在所有从 X 到 Y 的正向路径都经过可观测中介变量 Z 时,允许两步估计因果效应——即使存在不可观测的混淆因子。Pearl 称 Z 为"中介工具变量"。

反事实分析

SCM 为反事实提供了"手术定义":Y_x(u) 是在子模型 M_x 中 Y 的解,其中 u 是个体的背景特征向量。这一定义将 Neyman-Rubin 框架中的原始未定义量(潜在结果)转化为可推导量,为该框架提供了形式基础。

反事实推理遵循三步法:溯因(从观测数据推断背景变量 U 的值)→ 行动(对模型施加手术)→ 预测(在修改后的模型中求解)。

中介分析

Pearl 区分三种效应分解:

  • 控制直接效应(CDE): 固定中介变量在特定值时,X 对 Y 的效应
  • 自然直接效应(NDE): 保持中介变量在"自然"基线水平(即 X 改变前 Z 本应达到的水平),X 对 Y 的效应
  • 自然间接效应(NIE): 保持 X 不变,仅让中介变量从 do(x) 下的值变到 do(x') 下的值所引起的 Y 的变化

中介公式(Mediation Formula): IE_{x,x'}(Y) = Σ_z E(Y|x,z)[P(z|x') - P(z|x)],适用于任意非线性系统、任意分布、任意变量类型。

因果的概率(Probabilities of Causation)

Pearl 定义了三种"效果的原因"查询:

  • 必然性概率(PN): 给定 X=x 且 Y=y 已发生,"若 X 非 x,Y 是否非 y"的概率
  • 充分性概率(PS): X=x 足以导致 Y=y 的概率
  • 必然且充分概率: PN 与 PS 的联合

在单调性假设下,PN 可识别,且等于超额风险比加上一个混淆校正项。

潜在结果框架的定位

Pearl 展示潜在结果框架是 SCM 的一个受限特例——它使用"黑箱"范式,缺乏过程模型的指导。关键批判:

  • 条件可忽略性(ignorability)假设几乎不可能被经验研究者判断真假
  • 缺少图模型后,研究者无法系统地选择调整变量
  • "将因果推理重新表述为缺失数据问题"的范式过于限制性

关键收获

  1. 因果分析的两个进入壁垒: (a) 必须从不可检验的假设出发;(b) 必须扩展概率语言的语法。统计训练助长了对这两者的抵触。
  2. 图中缺失的箭头比存在的箭头更重要: 缺失箭头编码了不可检验的因果假设。
  3. 识别性是关于查询 Q 的,不是关于模型 M 的: 同一模型中不同查询可能有不同的识别性状态。
  4. 信号感知比操纵更基本: 间接效应的分析表明,因果关系的基本操作是选择哪些信号被感知,而非哪些变量被固定。"没有操纵就没有因果"的口号应被拒绝。
  5. 反事实的经验内容可以被形式化分析揭示: 看似假设性的反事实量(如 PN)在特定数据组合下可以被精确估计甚至达到概率一。

与 wiki 其他来源的关系

References

  • Pearl, Judea (2010). "An Introduction to Causal Inference." The International Journal of Biostatistics, 6(2), Article 7.
  • Pearl, Judea (2000/2009). Causality: Models, Reasoning, and Inference. Cambridge University Press.