因果之道¶

五篇文章走下来，因果纪律的结构已经清晰了。

回到起点：休谟证明我们从未观察到因果本身——只有恒常连结和习惯。LLM 面对同样的困境，而且更极端——它的全部经验来自文本中的统计共现。Pearl 的因果阶梯量化了这个困境：第一层的数据在数学上几乎总是不足以回答第二层的问题。因果纪律——证据分级、时序约束、假说验证、推理溯源——是对这个困境的工程回应。

如果这个结构是对的，那么一些更深层的洞察会自然浮出水面。

反馈环路是因果赌注¶

本系列的第二章讲控制论——agent 系统的反馈环路：观察→判断→行动→观察。当时的焦点是环路的结构和稳定性。

现在，从因果的视角重新看这个环路。

"观察"意味着：我假设我的观测反映了世界的真实状态。这是一个因果声称——观测数据与世界状态之间存在因果关系。

"判断"意味着：我假设我的推理能正确识别观测数据中的因果结构。这是一个更强的因果声称——我不只是看到了数据，我还从中推断出了因果关系。

"行动"意味着：我假设我的干预能产生预期效果。这是一个第二层（干预层）的因果声称——如果我 do(X)，Y 将会发生。

反馈环路的每一步都包含因果声明。它不只是一个"架构模式"——它是一套因果赌注。每一圈循环，系统都在押注：我的观测是可靠的，我的推断是正确的，我的行动是有效的。

大多数时候这些赌注会赢。但当它们输的时候——观测不准确、推断基于虚假相关、行动产生意外后果——整个环路的行为就不再可预测。这就是控制论中的"不稳定"在因果层面的含义：不是参数调错了，而是因果假设错了。

因果纪律在反馈环路中的角色，是让每一步的因果赌注变得显式——至少让你知道你在押什么注，押了多大的注。

熵增是因果纪律缺失的症状¶

本系列的第三章讲熵——长链推理中的信息衰减。当时的焦点是"无序度自然增加"这个热力学类比。

现在可以给这个类比一个更精确的解释。

长链推理中的信息衰减，有一个重要的来源：从相关性滑向因果性的无声偷换。

链条的第一步观察到"A 和 B 经常一起出现"——这是一个关联性声明。第二步说"A 导致 B"——这悄悄地从第一层滑到了第二层，但系统没有标记这次跃迁。第三步基于"A 导致 B"推出"所以控制 A 就能控制 B"——这是一个干预性结论，建立在一个未经验证的因果假设之上。

每一次"偷换"都在推理链中注入一点噪声——不确定性从"我观察到的相关性有多可靠"变成了"我假设的因果关系有多可靠"，而后者的不确定性严格大于前者（因果层级定理保证了这一点）。

链条越长，累积的噪声越大。这就是推理链中的熵增——不是抽象的比喻，而是信息论意义上的不确定性增加。

因果纪律的工作之一，是在推理链的每一环强制做信号质量检查——标注"这一步是关联性观察"还是"因果性推断"，标注"这个假说已验证"还是"尚未确认"。它不能消除不确定性，但它能阻止不确定性的无声放大。

因果纪律是另一个分形¶

本系列的第五章讲分形——自相似结构在不同尺度上重复。

因果纪律也有这个性质。

在单个推断的层面：每条推断需要标注证据等级和推理依据。

在单个 agent 的层面：agent 的每次输出需要附带置信度和依据链。agent 内部的推理过程需要维护假说状态和时序一致性。

在多 agent 编排的层面：每个 agent 的输出被当作下游 agent 的输入——证据等级需要跨 agent 传递。一个 agent 输出的"假说"，不应该在传递到另一个 agent 后变成"已确认的事实"。溯源链需要跨 agent 延伸——你需要能追溯到"这个最终结论，最初基于哪个 agent 的哪条观察"。

在系统审计的层面：整个决策链条的因果纪律需要可审查。从触发到决策到执行，每一步的证据等级和推理依据需要完整记录。

四个尺度，同一个结构。证据分级、时序约束、假说验证、推理溯源——在每一层都需要，表现形式不同但核心需求一致。

这不是巧合。因果纪律的自相似性和 agentic 系统架构的自相似性（第五章的核心论点）来自同一个根源：信息在不同尺度之间传递时，面临的质量管理问题在结构上是一样的。

悬而未决的载体问题¶

到这里，我们知道了因果纪律的四条内容，知道了什么时候需要它，知道了它的代价，也看到了它如何与本系列的前几章形成结构性呼应。

但有一个根本问题还没碰。

因果纪律需要载体——一种能够表达因果结构、执行因果约束、维护因果链条的计算形式。

逻辑系统天生适合这件事。因果图可以编码因果方向，do 算子可以区分观察和干预，反事实推理有精确的数学定义。Pearl 的整个框架就是建立在符号化的因果模型之上的。但逻辑系统有一个致命弱点：它需要人类预先编码因果结构。你得告诉它什么导致什么——它不会自己从数据中发现。

神经网络天生适合从数据中发现模式。它能从数十亿文本中提取出"下雨"和"路滑"之间的统计关联，甚至能用因果语言表达这些关联。但我们已经用了五篇文章的篇幅说明了，它发现的是相关性，不是因果性。

一个擅长结构但不擅长发现。一个擅长发现但不擅长结构。

一个正在发生的融合

2024-2025 年的研究中，一条明确的趋势正在浮现：把 LLM 作为知识先验（knowledge prior），与传统因果算法结合使用。LLM 提供关于变量之间可能因果关系的"猜测"，传统算法（如 PC 算法）从数据中验证这些猜测的统计一致性。两者结合的表现显著优于任何一方单独使用。

这不是"让 LLM 做因果推理"。这是让 LLM 做它擅长的事（从文本中提取因果知识的语言表达），然后用形式化工具做它不擅长的事（验证这些表达是否与数据中的因果结构一致）。

因果纪律的工程实现，最终要回答的是：结构与发现——符号系统和神经网络——如何协作？

这个问题的答案，不属于因果性这一章。它属于另一个更古老的分歧——人工智能从诞生之日起就面对的两条路线：符号主义与联结主义。

那是下一章的故事。

延伸阅读¶

Shantanu Yanagihara et al., "Failure Modes of LLMs for Causal Reasoning on Narratives" (2024) — 识别了 LLM 因果推理的三种系统性失败模式（时序偏差、长程崩溃、参数知识过度依赖），并发现要求模型先提取因果图再推理可以显著改善表现。这是"因果纪律的载体问题"在实证层面的一个缩影。

概念与实体¶

本文涉及的核心概念与实体，在项目知识库中有更详细的资料：

因果性（休谟） — 全章起点：恒常连结与习惯
结构因果模型 — 符号系统承载因果纪律的主要形式
因果之梯 — 三层分离定理：相关性数据不足以回答干预性问题
误差级联 — 熵增的因果性解释：从相关到因果的无声偷换
Harness Engineering — 因果纪律的工程上下文：harness 作为控制系统