因果之道¶
五篇文章走下来,因果纪律的结构已经清晰了。
回到起点:休谟证明我们从未观察到因果本身——只有恒常连结和习惯。LLM 面对同样的困境,而且更极端——它的全部经验来自文本中的统计共现。Pearl 的因果阶梯量化了这个困境:第一层的数据在数学上几乎总是不足以回答第二层的问题。因果纪律——证据分级、时序约束、假说验证、推理溯源——是对这个困境的工程回应。
如果这个结构是对的,那么一些更深层的洞察会自然浮出水面。
反馈环路是因果赌注¶
本系列的第二章讲控制论——agent 系统的反馈环路:观察→判断→行动→观察。当时的焦点是环路的结构和稳定性。
现在,从因果的视角重新看这个环路。
"观察"意味着:我假设我的观测反映了世界的真实状态。这是一个因果声称——观测数据与世界状态之间存在因果关系。
"判断"意味着:我假设我的推理能正确识别观测数据中的因果结构。这是一个更强的因果声称——我不只是看到了数据,我还从中推断出了因果关系。
"行动"意味着:我假设我的干预能产生预期效果。这是一个第二层(干预层)的因果声称——如果我 do(X),Y 将会发生。
反馈环路的每一步都包含因果声明。它不只是一个"架构模式"——它是一套因果赌注。每一圈循环,系统都在押注:我的观测是可靠的,我的推断是正确的,我的行动是有效的。
大多数时候这些赌注会赢。但当它们输的时候——观测不准确、推断基于虚假相关、行动产生意外后果——整个环路的行为就不再可预测。这就是控制论中的"不稳定"在因果层面的含义:不是参数调错了,而是因果假设错了。
因果纪律在反馈环路中的角色,是让每一步的因果赌注变得显式——至少让你知道你在押什么注,押了多大的注。
熵增是因果纪律缺失的症状¶
本系列的第三章讲熵——长链推理中的信息衰减。当时的焦点是"无序度自然增加"这个热力学类比。
现在可以给这个类比一个更精确的解释。
长链推理中的信息衰减,有一个重要的来源:从相关性滑向因果性的无声偷换。
链条的第一步观察到"A 和 B 经常一起出现"——这是一个关联性声明。第二步说"A 导致 B"——这悄悄地从第一层滑到了第二层,但系统没有标记这次跃迁。第三步基于"A 导致 B"推出"所以控制 A 就能控制 B"——这是一个干预性结论,建立在一个未经验证的因果假设之上。
每一次"偷换"都在推理链中注入一点噪声——不确定性从"我观察到的相关性有多可靠"变成了"我假设的因果关系有多可靠",而后者的不确定性严格大于前者(因果层级定理保证了这一点)。
链条越长,累积的噪声越大。这就是推理链中的熵增——不是抽象的比喻,而是信息论意义上的不确定性增加。
因果纪律的工作之一,是在推理链的每一环强制做信号质量检查——标注"这一步是关联性观察"还是"因果性推断",标注"这个假说已验证"还是"尚未确认"。它不能消除不确定性,但它能阻止不确定性的无声放大。
因果纪律是另一个分形¶
本系列的第五章讲分形——自相似结构在不同尺度上重复。
因果纪律也有这个性质。
在单个推断的层面:每条推断需要标注证据等级和推理依据。
在单个 agent 的层面:agent 的每次输出需要附带置信度和依据链。agent 内部的推理过程需要维护假说状态和时序一致性。
在多 agent 编排的层面:每个 agent 的输出被当作下游 agent 的输入——证据等级需要跨 agent 传递。一个 agent 输出的"假说",不应该在传递到另一个 agent 后变成"已确认的事实"。溯源链需要跨 agent 延伸——你需要能追溯到"这个最终结论,最初基于哪个 agent 的哪条观察"。
在系统审计的层面:整个决策链条的因果纪律需要可审查。从触发到决策到执行,每一步的证据等级和推理依据需要完整记录。
四个尺度,同一个结构。证据分级、时序约束、假说验证、推理溯源——在每一层都需要,表现形式不同但核心需求一致。
这不是巧合。因果纪律的自相似性和 agentic 系统架构的自相似性(第五章的核心论点)来自同一个根源:信息在不同尺度之间传递时,面临的质量管理问题在结构上是一样的。
悬而未决的载体问题¶
到这里,我们知道了因果纪律的四条内容,知道了什么时候需要它,知道了它的代价,也看到了它如何与本系列的前几章形成结构性呼应。
但有一个根本问题还没碰。
因果纪律需要载体——一种能够表达因果结构、执行因果约束、维护因果链条的计算形式。
逻辑系统天生适合这件事。因果图可以编码因果方向,do 算子可以区分观察和干预,反事实推理有精确的数学定义。Pearl 的整个框架就是建立在符号化的因果模型之上的。但逻辑系统有一个致命弱点:它需要人类预先编码因果结构。你得告诉它什么导致什么——它不会自己从数据中发现。
神经网络天生适合从数据中发现模式。它能从数十亿文本中提取出"下雨"和"路滑"之间的统计关联,甚至能用因果语言表达这些关联。但我们已经用了五篇文章的篇幅说明了,它发现的是相关性,不是因果性。
一个擅长结构但不擅长发现。一个擅长发现但不擅长结构。
一个正在发生的融合
2024-2025 年的研究中,一条明确的趋势正在浮现:把 LLM 作为知识先验(knowledge prior),与传统因果算法结合使用。LLM 提供关于变量之间可能因果关系的"猜测",传统算法(如 PC 算法)从数据中验证这些猜测的统计一致性。两者结合的表现显著优于任何一方单独使用。
这不是"让 LLM 做因果推理"。这是让 LLM 做它擅长的事(从文本中提取因果知识的语言表达),然后用形式化工具做它不擅长的事(验证这些表达是否与数据中的因果结构一致)。
因果纪律的工程实现,最终要回答的是:结构与发现——符号系统和神经网络——如何协作?
这个问题的答案,不属于因果性这一章。它属于另一个更古老的分歧——人工智能从诞生之日起就面对的两条路线:符号主义与联结主义。
那是下一章的故事。
延伸阅读¶
- Shantanu Yanagihara et al., "Failure Modes of LLMs for Causal Reasoning on Narratives" (2024) — 识别了 LLM 因果推理的三种系统性失败模式(时序偏差、长程崩溃、参数知识过度依赖),并发现要求模型先提取因果图再推理可以显著改善表现。这是"因果纪律的载体问题"在实证层面的一个缩影。
概念与实体¶
本文涉及的核心概念与实体,在项目知识库中有更详细的资料:
- 因果性(休谟) — 全章起点:恒常连结与习惯
- 结构因果模型 — 符号系统承载因果纪律的主要形式
- 因果之梯 — 三层分离定理:相关性数据不足以回答干预性问题
- 误差级联 — 熵增的因果性解释:从相关到因果的无声偷换
- Harness Engineering — 因果纪律的工程上下文:harness 作为控制系统