跳转至

相关性的海洋

休谟证明了一件令人不安的事:即使是人类——拥有物理身体、能亲手推台球、能用实验干预世界的人类——也从未直接观察到因果关系本身。我们依赖的是恒常连结和习惯。

那么,一个完全从文本中学习的系统呢?

Next-token prediction:学习的是什么?

大语言模型的训练目标可以用一句话概括:给定一段文本的前文,预测下一个 token 的概率分布。

这个目标函数简洁到近乎优美。但它学到的是什么?

当模型在训练数据中反复遇到"下雨"之后出现"路滑","路滑"之后出现"事故",它学到的是这些 token 序列的统计共现模式。"下雨"这个 token(或 token 序列)之后,"路滑"的概率高于"天晴"。这是一个关于文本分布的统计事实,不是一个关于物理世界的因果判断。

用休谟的语言来重新描述:next-token prediction 学到的是 token 层面的恒常连结

"下雨"之后高概率出现"路滑"——因为训练数据中这两个概念经常一前一后出现。模型从这种恒常连结中形成了一种倾向:遇到"下雨"就期望"路滑"。如果我们允许对一个统计模型使用休谟的词,这种倾向就是"习惯"。

这跟休谟描述的人类因果推理有惊人的结构相似性。人类从事件的恒常连结中形成习惯性期望,并将这种期望误认为对因果必然性的把握。LLM 从 token 共现中学习统计规律,并以因果叙事的形式输出这些规律。

区别在于层级。人类至少还有一条通道——你可以动手做实验,主动干预世界,观察结果。你可以自己推那个台球。LLM 没有这条通道。它的全部经验来自文本。它从来没有淋过雨,从来没有在湿滑的路面上踩过刹车。它对因果关系的全部"理解",来自人类用文字记录因果关系时产生的统计副产品。

恒常连结的惊人力量

但这里有一个需要诚实面对的事实:统计共现的力量远超直觉。

在自然语言中,因果关系和统计相关性高度重叠。如果两件事经常一起出现在人类书写的文本中,它们之间很可能确实存在某种因果关联——因为人类倾向于在描述有意义的关系时把相关事物放在一起。

这就是为什么一个"只是"学习统计共现的模型,能够生成如此像因果推理的输出。它不需要理解因果机制——它只需要学到人类表达因果关系时使用的语言模式。而由于人类在绝大多数时候表达的因果关系是正确的,模型输出的"因果叙事"在大多数时候也是正确的。

这不是巧合,也不是奇迹。这是统计共现在高质量数据上的自然结果。恒常连结不是一个弱信号——在人类精心组织的文本中,它是一个非常强的信号。

信号失真的地方

但"大多数时候"不是"总是"。而且失真的地方不是随机的——它有结构。

公鸡问题。 公鸡在日出前打鸣。如果你从数据中只能学到相关性,公鸡打鸣和太阳升起之间的恒常连结足以让你推断"公鸡打鸣导致太阳升起"。当然没有人真的相信这个。但把场景换成不那么直觉的领域——某个 API 指标在服务崩溃前总是升高——"相关"和"导致"之间的区分就没那么容易了。

Simpson 悖论。 一种药物在男性和女性中分别测试都有效,但合并数据后看起来无效。或者反过来。这不是数据错误——这是因为你没有控制混杂变量。纯粹基于相关性的推理在这类场景下会系统性地给出错误答案。

Collider 结构。 两个独立的原因共同影响一个结果。当你按结果分组后,两个原本独立的原因之间会出现虚假的相关性。这是因果推理中最经典的陷阱之一。

Collider 的工程直觉

想象一个招聘场景。进入终面的候选人要么技术特别强,要么沟通特别强(或两者兼具)。如果你只看进入终面的候选人的数据,你会发现技术能力和沟通能力之间存在负相关——技术强的人沟通似乎差,沟通强的人技术似乎差。

但这不是真的。在全部候选人中,这两种能力可能完全独立。负相关是"进入终面"这个 collider 变量的选择效应创造出来的。

这不是假设性的风险。当 LLM 面对 collider 结构时,它们系统性地给出错误答案——具体的基准测试证据,下一篇会展开。

这些不是边缘案例。它们是相关性推理的结构性盲区——是统计共现无论多么精确都无法覆盖的区域。不是因为数据不够多,而是因为相关性这种信号本身的分辨率就不够。

不站队,看机制

关于"LLM 到底有没有因果推理能力",学术界有一场正在进行的认真辩论。

有研究发现 LLM 在某些因果推理基准上表现不错。也有研究指出这些表现可能来自训练数据中因果知识的记忆,而非真正的因果推理——当面对训练数据截止日期之后的新因果结构时,表现显著下降。2025 年的一项初步研究尝试用结构因果模型测量 LLM 内部推理过程的因果结构,发现标准 LLM 的推理步骤中只有少部分符合理想的因果结构。

这场辩论远未结束,它的结论对我们的工程实践有重要含义。但在它结束之前,有一件事可以从机制层面确定:预训练阶段的目标函数——next-token prediction——不区分"因为 A 所以 B"和"A 和 B 经常一起出现"。后续的训练阶段(RLHF、RLVR)引入了额外的信号——人类偏好、推理正确性——这些信号可能隐式编码了某种因果结构。前面提到的研究也确实发现 RLVR 训练能缩小与理想因果结构的差距。但即使如此,差距仍然显著,而且你没有机制性的理由判断它在你关心的具体场景中是否已经够小。

从工程角度看,这意味着:你面前的系统在因果可靠性上不能被默认信任。它可能做对了很多因果推理——预训练学到了统计共现中的因果信号,后训练可能进一步强化了这种信号——但你缺乏一种可靠的方式来判断它在你关心的那个具体场景中,做的是因果推理还是模式匹配。

海洋的边界

相关性的海洋广阔而有用。

大多数日常任务不需要严格的因果推理。"帮我写封邮件"——模型给你统计上最可能合适的措辞,够了。"补全这行代码"——模型给你在类似上下文中最常见的模式,大多数时候够用。"总结这篇文档"——模型给你文本中最显著的信息,没问题。

相关性够用的原因不是它等于因果性——而是在这些场景下,错了也不贵。

但海洋有边界。当你需要回答"为什么"而不只是"什么"的时候,当你需要做出不可逆的决策的时候,当你需要区分"碰巧一起出现"和"一个导致另一个"的时候——你发现脚下的水越来越浅,相关性的分辨率不够了。

你需要一把梯子,从相关性的海面爬到更高的地方。

这把梯子已经被人造出来了。


延伸阅读

  • Zhizhang Fu et al., "Correlation or Causation: Analyzing the Causal Structures of LLM and LRM Reasoning Process" (2025) — 首次用结构因果模型测量 LLM 内部推理的因果结构,发现标准 LLM 与理想因果结构差距显著,而 RLVR 训练能缩小这个差距。方法论比结论更有启发。

概念与实体

本文涉及的核心概念与实体,在项目知识库中有更详细的资料:

  • 恒常连结 — 核心类比的源头:LLM 学到的是 token 层面的恒常连结
  • LLM 训练流水线 — next-token prediction 作为训练目标的技术细节
  • 因果 DAG — collider 结构的形式化定义:为什么条件化 collider 会创造虚假相关
  • 缩放定律 — 一种现代版的恒常连结:从过去的数据规律推断未来趋势
  • 误差级联 — 因果推理错误在长链推理中的累积效应