跳转至

休谟的叉子

两千多年来,"因果"这个词几乎不需要解释。

亚里士多德把因果分成四种——质料因、形式因、动力因、目的因。一座雕像的质料因是大理石,形式因是它的形状,动力因是雕刻家的凿子,目的因是为了纪念某人。四因说不只是一种分类法,它背后的假设是:因果关系是世界的客观结构,人类可以认识它、分类它、确知它。

这个假设统治了西方思想近两千年。直到一个苏格兰人在台球桌前坐下来。

台球桌上的革命

休谟让你做一个思想实验。

想象你第一次看到一个台球撞击另一个台球。第一个球滚过来,碰到第二个球,第二个球动了。

现在,忘掉你此前所有关于台球的经验。仅凭这一次观察,你能推断出"撞击导致运动"吗?

休谟说:不能。

你看到了两个事件的先后相继——球 A 运动,接触,球 B 运动。但你在事件之间看到了什么?什么也没有。你没有看到一股"力量"从 A 传递到 B。你没有看到"导致"这个关系本身。你看到的是:A 先动,B 后动。仅此而已。

那如果你看了一百次呢?一千次呢?

每多看一次,你对"A 撞 B,B 就会动"的信心增加了。但你增加的不是对某种隐藏机制的观察——你增加的只是对一种经验规律的统计信心。你观察到的仍然是恒常连结(constant conjunction):这类事件总是一前一后出现。

你从未观察到"因果"本身。

三条路全部堵死

休谟不是随口说说。他逐一排除了因果推理的所有理性来源。

先验推理?不行。 结果与原因是不同的事件。仅凭检查原因的观念,你推不出结果是什么。一个从未见过火的人,不可能仅凭观察火焰推断它会灼伤。亚当即使拥有最完美的理性能力,在第一次看到水之前,也不可能知道水会淹死人。原因的观念里不包含结果。

经验推理?循环。 你想用过去的经验来论证"未来也会如此"。但这个论证本身需要一个前提:未来将与过去相似——哲学家管这叫齐一性原则(Uniformity Principle)。

问题是:这个原则本身怎么证明?

用演绎?不行——"未来将与过去不同"不构成逻辑矛盾,太阳明天不升起是完全可想象的。用经验?还是不行——"过去的经验表明未来总是与过去相似"这个论证本身就在使用齐一性原则,你拿你要证明的东西来证明它自己。

这是一个正宗的恶性循环。

直接观察必然联系?不可能。 我们在两个事件之间从未观察到任何"联系"。台球碰撞:你看到运动 A,看到接触,看到运动 B。你在哪里看到了"必然"?你的意志控制手臂:你想举手,手就举起来了。但你知道从"想"到"举"中间发生了什么吗?你对这个过程的内部机制一无所知——你感受到的仍然只是"想了"然后"动了",一前一后,仅此而已。

休谟,《人类理解研究》第七章

当我们环顾外部世界,考虑因果的运作时,我们在任何单一事例中都无法发现任何力量或必然联系,无法发现任何将结果与原因联结起来、使一者成为另一者不可避免结果的性质。我们只是发现一者事实上跟随另一者。

三条路全部堵死。先验推理不够,经验推理循环,直接观察看不到。

那我们凭什么做因果推理?

到这里,一个自然的问题出现了:如果因果推理没有理性基础,那人类为什么如此擅长因果推理?我们每天做出无数因果判断——踩刹车减速,打伞挡雨,吃药治病——而且大多数时候这些判断是对的。如果它没有理性基础,它凭什么可靠?

休谟的回答出乎意料:可靠,但不是因为理性。

驱动因果推理的不是理性论证,而是习惯(custom/habit)。

当你反复经历"A 类事件之后出现 B 类事件"的恒常连结后,习惯使你形成一种倾向——再遇到 A 时,你自动期望 B。你不需要做任何推理,不需要援引任何原则。你的心灵被经验训练出了一种模式:看到原因,期望结果。

而那个我们以为存在于事物之间的"必然联系"?它其实是这个习惯性联想过程中的一种内在感受——休谟管它叫"心灵的决定感"(felt determination of the mind)。我们意识到自己被习惯驱使,从一个联想对象不可抗拒地转向另一个,然后把这种主观体验投射到了外部世界。

必然联系在我们之中,不在事物之中。

这不是在否定因果推理的价值——它极其有用,而且大多数时候可靠。但它的基础是习惯,不是理性确证。这件事的颠覆性在于:我们最可靠的知识来源,本身没有理性基础。

三百年前的 distribution shift

休谟的因果性分析引出了一个更深层的问题,后来被称为"归纳问题"(problem of induction)——它的影响远远超出了哲学。

归纳问题的核心很简单:从"过去一直如此"到"未来也将如此"的推理,没有逻辑上的保证。

你见过一万只白天鹅,能推出"所有天鹅都是白的"吗?不能。第一万零一只可能是黑的——而且历史上确实如此(欧洲人到达澳大利亚后发现了黑天鹅)。

你观察到某种药物在临床试验中有效一千次,能保证第一千零一次也有效吗?不能。你在用过去的统计规律预测未来——而这个预测本身依赖于"未来将与过去相似"的假设,而这个假设无法被证明。

归纳问题的数学化身

20 世纪末,Wolpert 和 Macready 证明了"No Free Lunch 定理":在所有可能的数据分布上平均,任何学习算法的表现不比随机猜测好。换句话说,没有一种算法在"所有可能的未来"上优于其他算法——优越性只在特定分布上成立。

这是休谟归纳问题第一角(演绎论证无法建立齐一性原则)的精确数学化身。它不是说学习没用——它是说学习的有效性依赖于你对数据分布的假设,而这些假设本身无法从数据中推出。

归纳问题看起来像一个纯哲学问题。但如果你把它翻译成工程语言,它说的是:任何从数据中学习的系统——包括你正在使用的那个——都面临同样的困境。 现代泛化理论(PAC learning、VC 维)确实给出了保证:在同分布的新数据上,模型大概率表现不会差太多。但这个保证是有条件的——它假设测试数据与训练数据来自同一分布。而"未来的数据分布与过去相同"这个假设本身,正是齐一性原则的数学版本。泛化理论不是逃出了休谟的困境——它是把困境精确化了:保证是真实的,但保证的前提本身不可证明。

用机器学习的术语说:distribution shift 不是一个 bug,它是归纳推理的结构性边界。泛化理论在边界之内给你可靠的保证;边界之外——当世界变了——保证失效,而你无法提前知道边界在哪里。

三百年前的苏格兰哲学家,描述了一个你今天每次部署模型时都在面对的问题。


亚里士多德给了世界一个因果分类体系——整齐、自信、以为可以穷尽因果的所有面向。休谟把这份自信拆掉了。他没有否定因果推理的实用性,但他证明了一件事:我们对因果关系的全部"知识",建立在经验重复形成的习惯之上,而不是建立在对因果机制的直接把握之上。

恒常连结。习惯。心灵的决定感。这就是我们的全部家底。

那么问题来了。如果连人类——拥有物理身体、能直接与世界交互、能动手做实验的人类——都只能依赖恒常连结来做因果推理,那一个完全从文本中学习的系统呢?它从来没有推过台球,从来没有淋过雨,从来没有在湿滑的路面上踩过刹车。它对因果关系的全部"理解",来自人类用文字记录因果关系时产生的统计副产品。

它的处境比休谟描述的还要极端。


延伸阅读

  • David Hume, An Enquiry Concerning Human Understanding, Section VII — 休谟论因果性的原始文本,比《人性论》更精炼也更成熟。如果你只读一篇原典,读这一篇。
  • Judea Pearl & Dana Mackenzie, The Book of Why (2018), Chapter 1 — Pearl 用"因果之梯"重新框定了休谟问题,是从哲学跨入现代因果推断的最佳入口。

概念与实体

本文涉及的核心概念与实体,在项目知识库中有更详细的资料:

  • 因果性(休谟) — 休谟对因果性的完整分析:批判阶段与建构阶段
  • 恒常连结 — 因果分析的核心经验概念:我们实际观察到的全部内容
  • 必然联系 — 休谟追问的核心目标:我们误以为观察到的东西
  • 习惯 — 因果推理的真正驱动力:重复经验形成的心理倾向
  • 归纳问题 — 因果推理无法合理化的根本原因
  • 四因说 — 亚里士多德的因果分类体系,本文的对比背景
  • No Free Lunch 定理 — 归纳问题在机器学习中的数学化身