因果纪律¶

阶梯让我们看清了处境：LLM 天然停留在第一层——关联层。而很多有价值的工程问题需要第二层甚至第三层的推理。

但这里有一个微妙的转向。

问题不是"如何让 LLM 爬到第二层"。也许有一天能做到——RLVR（Reinforcement Learning with Verifiable Rewards）训练等方向正在探索——但目前这不是一个已解决的问题。更切实的问题是：一个知道自己的推理引擎只能做第一层工作的系统，如何对自己保持诚实？

这个问题的答案，不是从任何具体的工程实践中总结出来的。它是从因果性的本质——从休谟的分析、Pearl 的框架、以及推理引擎的机制性局限——自然推导出来的。

证据必须分级¶

不是所有"知道"都一样可靠。

一个 agent 报告："数据库延迟飙升导致了 API 超时。"这句话包含一个因果断言。但这个断言的依据是什么？

如果依据是"数据库延迟和 API 超时在同一时间段升高"——这是第一层证据，关联性观察。两者可能都是第三个原因（网络拥堵）的结果。因果方向可能完全弄反了。

如果依据是"我们在灰度环境中人为注入了数据库延迟，观察到 API 超时随之出现"——这是第二层证据，干预性实验。因果方向得到了实验控制。

如果依据是"数据库团队确认了查询优化器回退导致延迟，并解释了延迟如何传播到 API 层"——这是专家判断，通常基于对系统内部机制的理解。

这三种"知道"不在同一个层面上。从因果阶梯直接推出的结论是：不区分证据层级的系统，在用关联性观察的可靠度来支撑因果性断言的重量。

一个没有证据分级的系统，会用关联性观察的语气说出因果性断言——"导致"这个词从它嘴里说出来，和从一个做过 RCT 的研究者嘴里说出来，听起来一模一样，但分量完全不同。

时间箭头不可违反¶

因果关系有一个物理学保证的结构性属性：原因在先，结果在后。

这听起来太明显了，不值一提。但在 LLM 的世界里，这一点并不是自动保证的。模型可以在任意方向上编织叙事——它可以说"API 超时导致了数据库延迟"，只要这个说法在语言统计上足够合理。语言不强制时间方向。

休谟在分析因果性时列出的三个要素中，时间先后性（temporal priority）是唯一一个纯粹客观的——它不是心灵投射的，不是习惯产生的，它是物理世界的结构性约束。

从这个约束直接推出：一条因果链中，原因的时间戳晚于结果的时间戳，意味着这条链在物理上不成立。 这不是可选的一致性检查——这是物理定律对任何因果叙事的基本约束。

违反时序约束的因果断言不只是"可能错了"——它在结构上不可能是对的。一个诚实的系统不会允许这类断言通过。

假说不能跳过验证¶

科学方法的核心循环是：观察→假说→预测→验证→接受或拒绝。

这个循环里有一个关键的状态区分：假说和已验证的结论不是同一种东西。"我猜数据库延迟导致了超时"和"实验证实了数据库延迟导致超时"之间的距离，可能是一次灰度实验的距离，也可能是一次事后分析的距离——但不是零距离。

LLM 不做这个区分。它用同样的语气、同样的确定性表达假说和结论。"数据库延迟可能导致了 API 超时"和"数据库延迟导致了 API 超时"在模型的输出概率上的差别，远小于它们在认知状态上的差别。

从认知诚实的角度推出：不区分假说和已验证结论的系统，在用未检验过的猜测来驱动下游决策——而它自己不知道。 假说可以存在，可以被记录，可以等待验证。但假说和结论之间的距离不是零。

这不是过度工程化。想象一个 agent 在长链推理中把一个未验证的假说当作事实，基于它推导出结论，基于结论做出决策，基于决策采取行动——每一步看起来都合理，但整条链子挂在一个没有检验过的钩子上。这就是推理链中的熵增——一个因果纪律缺失的具体症状。

推理链必须可追溯¶

每一条结论都应该能被追问"你是怎么知道的？"

这不是一个修辞性的要求。在长链推理中，一条看起来合理的结论可能建立在五步之前的一个相关性观察上，而那个观察本身的因果可靠性是有限的。如果你无法追溯这条链子，你就无法评估结论的可信度。

科学出版物的引用系统就是一种推理溯源机制。每一条声称都链接到它的依据，依据链接到更深层的依据。你可以沿着引用链条一路追到原始数据。这不是学术繁文缛节——这是让知识体系可审计的结构性要求。

推理溯源对 agentic 系统的意义尤其重大。当一个 agent 做出一个决策，你需要能够回答：它基于什么观察？它做了什么推断？每一步推断的证据等级是什么？哪些环节是强因果推理（实验验证），哪些是弱因果推理（相关性观察），哪些纯粹是模式匹配？

没有这条追溯链，你面对的是一个黑箱——一个能说出"答案是 X"但无法解释"为什么是 X"的黑箱。对于低风险场景，这也许可以接受。对于高风险场景，这是不可接受的。

四条纪律的统一性¶

回过头来看，这四条不是独立的"规则清单"。

证据分级是对"知道的层次"的诚实。时序约束是对"因果方向"的诚实。假说验证是对"确认的程度"的诚实。推理溯源是对"依据的链条"的诚实。

它们都是同一个核心需求的不同面向——让系统对"它知道什么"和"它怎么知道的"保持诚实。

这就是因果纪律（causal discipline）。

因果纪律不是因果推理能力本身——它不让系统变得更擅长因果推理。它做的是一件更基本的事：迫使系统在使用它有限的因果推理能力时，对证据质量保持透明。

一个没有因果纪律的系统把最合理的叙事当作事实报告。一个有因果纪律的系统标注：这是一个基于时间共现的假说，证据等级为"关联性观察"，因果方向未经验证，推理链条如下。

区别不在于第二个系统更聪明——而在于它更诚实。

延伸阅读¶

Judea Pearl, "An Introduction to Causal Inference" (2010) — Pearl 本人最可读的框架综述。涵盖 SCM、do 算子、后门准则、中介分析，仅约 30 页。如果你想理解"因果纪律"在形式化框架中意味着什么，这是最佳起点。

概念与实体¶

本文涉及的核心概念与实体，在项目知识库中有更详细的资料：

因果性（休谟） — 时间先后性是休谟三要素中唯一客观的结构约束
因果之梯 — 证据分级的理论基础：三层证据不在同一层面
因果 DAG — 因果方向的形式化表达：箭头方向编码因果假设
后门准则 — 从观察数据控制混杂的图形判据
误差级联 — 未验证假说在推理链中的放大效应
可靠性衰减 — 推理链越长，每一环的可靠性要求越高