因果纪律¶
阶梯让我们看清了处境:LLM 天然停留在第一层——关联层。而很多有价值的工程问题需要第二层甚至第三层的推理。
但这里有一个微妙的转向。
问题不是"如何让 LLM 爬到第二层"。也许有一天能做到——RLVR(Reinforcement Learning with Verifiable Rewards)训练等方向正在探索——但目前这不是一个已解决的问题。更切实的问题是:一个知道自己的推理引擎只能做第一层工作的系统,如何对自己保持诚实?
这个问题的答案,不是从任何具体的工程实践中总结出来的。它是从因果性的本质——从休谟的分析、Pearl 的框架、以及推理引擎的机制性局限——自然推导出来的。
证据必须分级¶
不是所有"知道"都一样可靠。
一个 agent 报告:"数据库延迟飙升导致了 API 超时。"这句话包含一个因果断言。但这个断言的依据是什么?
如果依据是"数据库延迟和 API 超时在同一时间段升高"——这是第一层证据,关联性观察。两者可能都是第三个原因(网络拥堵)的结果。因果方向可能完全弄反了。
如果依据是"我们在灰度环境中人为注入了数据库延迟,观察到 API 超时随之出现"——这是第二层证据,干预性实验。因果方向得到了实验控制。
如果依据是"数据库团队确认了查询优化器回退导致延迟,并解释了延迟如何传播到 API 层"——这是专家判断,通常基于对系统内部机制的理解。
这三种"知道"不在同一个层面上。从因果阶梯直接推出的结论是:不区分证据层级的系统,在用关联性观察的可靠度来支撑因果性断言的重量。
一个没有证据分级的系统,会用关联性观察的语气说出因果性断言——"导致"这个词从它嘴里说出来,和从一个做过 RCT 的研究者嘴里说出来,听起来一模一样,但分量完全不同。
时间箭头不可违反¶
因果关系有一个物理学保证的结构性属性:原因在先,结果在后。
这听起来太明显了,不值一提。但在 LLM 的世界里,这一点并不是自动保证的。模型可以在任意方向上编织叙事——它可以说"API 超时导致了数据库延迟",只要这个说法在语言统计上足够合理。语言不强制时间方向。
休谟在分析因果性时列出的三个要素中,时间先后性(temporal priority)是唯一一个纯粹客观的——它不是心灵投射的,不是习惯产生的,它是物理世界的结构性约束。
从这个约束直接推出:一条因果链中,原因的时间戳晚于结果的时间戳,意味着这条链在物理上不成立。 这不是可选的一致性检查——这是物理定律对任何因果叙事的基本约束。
违反时序约束的因果断言不只是"可能错了"——它在结构上不可能是对的。一个诚实的系统不会允许这类断言通过。
假说不能跳过验证¶
科学方法的核心循环是:观察→假说→预测→验证→接受或拒绝。
这个循环里有一个关键的状态区分:假说和已验证的结论不是同一种东西。"我猜数据库延迟导致了超时"和"实验证实了数据库延迟导致超时"之间的距离,可能是一次灰度实验的距离,也可能是一次事后分析的距离——但不是零距离。
LLM 不做这个区分。它用同样的语气、同样的确定性表达假说和结论。"数据库延迟可能导致了 API 超时"和"数据库延迟导致了 API 超时"在模型的输出概率上的差别,远小于它们在认知状态上的差别。
从认知诚实的角度推出:不区分假说和已验证结论的系统,在用未检验过的猜测来驱动下游决策——而它自己不知道。 假说可以存在,可以被记录,可以等待验证。但假说和结论之间的距离不是零。
这不是过度工程化。想象一个 agent 在长链推理中把一个未验证的假说当作事实,基于它推导出结论,基于结论做出决策,基于决策采取行动——每一步看起来都合理,但整条链子挂在一个没有检验过的钩子上。这就是推理链中的熵增——一个因果纪律缺失的具体症状。
推理链必须可追溯¶
每一条结论都应该能被追问"你是怎么知道的?"
这不是一个修辞性的要求。在长链推理中,一条看起来合理的结论可能建立在五步之前的一个相关性观察上,而那个观察本身的因果可靠性是有限的。如果你无法追溯这条链子,你就无法评估结论的可信度。
科学出版物的引用系统就是一种推理溯源机制。每一条声称都链接到它的依据,依据链接到更深层的依据。你可以沿着引用链条一路追到原始数据。这不是学术繁文缛节——这是让知识体系可审计的结构性要求。
推理溯源对 agentic 系统的意义尤其重大。当一个 agent 做出一个决策,你需要能够回答:它基于什么观察?它做了什么推断?每一步推断的证据等级是什么?哪些环节是强因果推理(实验验证),哪些是弱因果推理(相关性观察),哪些纯粹是模式匹配?
没有这条追溯链,你面对的是一个黑箱——一个能说出"答案是 X"但无法解释"为什么是 X"的黑箱。对于低风险场景,这也许可以接受。对于高风险场景,这是不可接受的。
四条纪律的统一性¶
回过头来看,这四条不是独立的"规则清单"。
证据分级是对"知道的层次"的诚实。时序约束是对"因果方向"的诚实。假说验证是对"确认的程度"的诚实。推理溯源是对"依据的链条"的诚实。
它们都是同一个核心需求的不同面向——让系统对"它知道什么"和"它怎么知道的"保持诚实。
这就是因果纪律(causal discipline)。
因果纪律不是因果推理能力本身——它不让系统变得更擅长因果推理。它做的是一件更基本的事:迫使系统在使用它有限的因果推理能力时,对证据质量保持透明。
一个没有因果纪律的系统把最合理的叙事当作事实报告。一个有因果纪律的系统标注:这是一个基于时间共现的假说,证据等级为"关联性观察",因果方向未经验证,推理链条如下。
区别不在于第二个系统更聪明——而在于它更诚实。
延伸阅读¶
- Judea Pearl, "An Introduction to Causal Inference" (2010) — Pearl 本人最可读的框架综述。涵盖 SCM、do 算子、后门准则、中介分析,仅约 30 页。如果你想理解"因果纪律"在形式化框架中意味着什么,这是最佳起点。
概念与实体¶
本文涉及的核心概念与实体,在项目知识库中有更详细的资料: