休谟的叉子¶

两千多年来，"因果"这个词几乎不需要解释。

亚里士多德把因果分成四种——质料因、形式因、动力因、目的因。一座雕像的质料因是大理石，形式因是它的形状，动力因是雕刻家的凿子，目的因是为了纪念某人。四因说不只是一种分类法，它背后的假设是：因果关系是世界的客观结构，人类可以认识它、分类它、确知它。

这个假设统治了西方思想近两千年。直到一个苏格兰人在台球桌前坐下来。

台球桌上的革命¶

休谟让你做一个思想实验。

想象你第一次看到一个台球撞击另一个台球。第一个球滚过来，碰到第二个球，第二个球动了。

现在，忘掉你此前所有关于台球的经验。仅凭这一次观察，你能推断出"撞击导致运动"吗？

休谟说：不能。

你看到了两个事件的先后相继——球 A 运动，接触，球 B 运动。但你在事件之间看到了什么？什么也没有。你没有看到一股"力量"从 A 传递到 B。你没有看到"导致"这个关系本身。你看到的是：A 先动，B 后动。仅此而已。

那如果你看了一百次呢？一千次呢？

每多看一次，你对"A 撞 B，B 就会动"的信心增加了。但你增加的不是对某种隐藏机制的观察——你增加的只是对一种经验规律的统计信心。你观察到的仍然是恒常连结（constant conjunction）：这类事件总是一前一后出现。

你从未观察到"因果"本身。

三条路全部堵死¶

休谟不是随口说说。他逐一排除了因果推理的所有理性来源。

先验推理？不行。 结果与原因是不同的事件。仅凭检查原因的观念，你推不出结果是什么。一个从未见过火的人，不可能仅凭观察火焰推断它会灼伤。亚当即使拥有最完美的理性能力，在第一次看到水之前，也不可能知道水会淹死人。原因的观念里不包含结果。

经验推理？循环。 你想用过去的经验来论证"未来也会如此"。但这个论证本身需要一个前提：未来将与过去相似——哲学家管这叫齐一性原则（Uniformity Principle）。

问题是：这个原则本身怎么证明？

用演绎？不行——"未来将与过去不同"不构成逻辑矛盾，太阳明天不升起是完全可想象的。用经验？还是不行——"过去的经验表明未来总是与过去相似"这个论证本身就在使用齐一性原则，你拿你要证明的东西来证明它自己。

这是一个正宗的恶性循环。

直接观察必然联系？不可能。 我们在两个事件之间从未观察到任何"联系"。台球碰撞：你看到运动 A，看到接触，看到运动 B。你在哪里看到了"必然"？你的意志控制手臂：你想举手，手就举起来了。但你知道从"想"到"举"中间发生了什么吗？你对这个过程的内部机制一无所知——你感受到的仍然只是"想了"然后"动了"，一前一后，仅此而已。

休谟，《人类理解研究》第七章

当我们环顾外部世界，考虑因果的运作时，我们在任何单一事例中都无法发现任何力量或必然联系，无法发现任何将结果与原因联结起来、使一者成为另一者不可避免结果的性质。我们只是发现一者事实上跟随另一者。

三条路全部堵死。先验推理不够，经验推理循环，直接观察看不到。

那我们凭什么做因果推理？¶

到这里，一个自然的问题出现了：如果因果推理没有理性基础，那人类为什么如此擅长因果推理？我们每天做出无数因果判断——踩刹车减速，打伞挡雨，吃药治病——而且大多数时候这些判断是对的。如果它没有理性基础，它凭什么可靠？

休谟的回答出乎意料：可靠，但不是因为理性。

驱动因果推理的不是理性论证，而是习惯（custom/habit）。

当你反复经历"A 类事件之后出现 B 类事件"的恒常连结后，习惯使你形成一种倾向——再遇到 A 时，你自动期望 B。你不需要做任何推理，不需要援引任何原则。你的心灵被经验训练出了一种模式：看到原因，期望结果。

而那个我们以为存在于事物之间的"必然联系"？它其实是这个习惯性联想过程中的一种内在感受——休谟管它叫"心灵的决定感"（felt determination of the mind）。我们意识到自己被习惯驱使，从一个联想对象不可抗拒地转向另一个，然后把这种主观体验投射到了外部世界。

必然联系在我们之中，不在事物之中。

这不是在否定因果推理的价值——它极其有用，而且大多数时候可靠。但它的基础是习惯，不是理性确证。这件事的颠覆性在于：我们最可靠的知识来源，本身没有理性基础。

三百年前的 distribution shift¶

休谟的因果性分析引出了一个更深层的问题，后来被称为"归纳问题"（problem of induction）——它的影响远远超出了哲学。

归纳问题的核心很简单：从"过去一直如此"到"未来也将如此"的推理，没有逻辑上的保证。

你见过一万只白天鹅，能推出"所有天鹅都是白的"吗？不能。第一万零一只可能是黑的——而且历史上确实如此（欧洲人到达澳大利亚后发现了黑天鹅）。

你观察到某种药物在临床试验中有效一千次，能保证第一千零一次也有效吗？不能。你在用过去的统计规律预测未来——而这个预测本身依赖于"未来将与过去相似"的假设，而这个假设无法被证明。

归纳问题的数学化身

20 世纪末，Wolpert 和 Macready 证明了"No Free Lunch 定理"：在所有可能的数据分布上平均，任何学习算法的表现不比随机猜测好。换句话说，没有一种算法在"所有可能的未来"上优于其他算法——优越性只在特定分布上成立。

这是休谟归纳问题第一角（演绎论证无法建立齐一性原则）的精确数学化身。它不是说学习没用——它是说学习的有效性依赖于你对数据分布的假设，而这些假设本身无法从数据中推出。

归纳问题看起来像一个纯哲学问题。但如果你把它翻译成工程语言，它说的是：任何从数据中学习的系统——包括你正在使用的那个——都面临同样的困境。 现代泛化理论（PAC learning、VC 维）确实给出了保证：在同分布的新数据上，模型大概率表现不会差太多。但这个保证是有条件的——它假设测试数据与训练数据来自同一分布。而"未来的数据分布与过去相同"这个假设本身，正是齐一性原则的数学版本。泛化理论不是逃出了休谟的困境——它是把困境精确化了：保证是真实的，但保证的前提本身不可证明。

用机器学习的术语说：distribution shift 不是一个 bug，它是归纳推理的结构性边界。泛化理论在边界之内给你可靠的保证；边界之外——当世界变了——保证失效，而你无法提前知道边界在哪里。

三百年前的苏格兰哲学家，描述了一个你今天每次部署模型时都在面对的问题。

亚里士多德给了世界一个因果分类体系——整齐、自信、以为可以穷尽因果的所有面向。休谟把这份自信拆掉了。他没有否定因果推理的实用性，但他证明了一件事：我们对因果关系的全部"知识"，建立在经验重复形成的习惯之上，而不是建立在对因果机制的直接把握之上。

恒常连结。习惯。心灵的决定感。这就是我们的全部家底。

那么问题来了。如果连人类——拥有物理身体、能直接与世界交互、能动手做实验的人类——都只能依赖恒常连结来做因果推理，那一个完全从文本中学习的系统呢？它从来没有推过台球，从来没有淋过雨，从来没有在湿滑的路面上踩过刹车。它对因果关系的全部"理解"，来自人类用文字记录因果关系时产生的统计副产品。

它的处境比休谟描述的还要极端。

延伸阅读¶

David Hume, An Enquiry Concerning Human Understanding, Section VII — 休谟论因果性的原始文本，比《人性论》更精炼也更成熟。如果你只读一篇原典，读这一篇。
Judea Pearl & Dana Mackenzie, The Book of Why (2018), Chapter 1 — Pearl 用"因果之梯"重新框定了休谟问题，是从哲学跨入现代因果推断的最佳入口。

概念与实体¶

本文涉及的核心概念与实体，在项目知识库中有更详细的资料：

因果性（休谟） — 休谟对因果性的完整分析：批判阶段与建构阶段
恒常连结 — 因果分析的核心经验概念：我们实际观察到的全部内容
必然联系 — 休谟追问的核心目标：我们误以为观察到的东西
习惯 — 因果推理的真正驱动力：重复经验形成的心理倾向
归纳问题 — 因果推理无法合理化的根本原因
四因说 — 亚里士多德的因果分类体系，本文的对比背景
No Free Lunch 定理 — 归纳问题在机器学习中的数学化身