这股力的方向,会变吗¶
光知道模型在变强还不够。如果这股力只是沿着同一个方向越来越大,你至少可以选一个固定的正交方向然后安心干活。
但如果它在变强的同时还在转向呢?那就是另一个工程问题了。
当前的主流:Transformer¶
当前的主流架构——Transformer——建立在一个核心机制上:自注意力(self-attention)。每个 token 都能"看到"上下文中的所有其他 token,并据此计算自己的表征。这就是你的上下文窗口的由来:模型能"看到"多少,取决于 attention 机制能覆盖多长的序列。
Transformer 架构下的大语言模型,归根到底是在文本序列上做统计建模。它通过 next-token prediction 学到了语言的结构、知识和推理模式。很强——但"通过预测文本来理解世界"只是编码世界的方式之一。
至少还有三种不同的路径正在演进。
四种编码世界的方式¶
| Transformer | 状态空间模型 (SSM) | 基于能量的模型 (EBM) | 世界模型 (World Model) | |
|---|---|---|---|---|
| 一句话 | 读遍所有文字的补全者 | 带有限记忆的流处理器 | 给整体兼容性打分的裁判 | 在脑中模拟物理后果的想象者 |
| 建模目标 | 给定前文,下一个 token 最可能是什么 | 怎样把全部历史压缩进一个固定大小的状态向量 | 一个完整的配置有多"合理" | 如果我采取这个行动,世界会变成什么样 |
| 怎么"理解"世界 | 从文本共现中提取统计规律 | 将序列动态建模为状态的演化 | 在全局配置的能量景观中寻找低能态 | 学习因果结构与状态转移规律 |
状态空间模型 (SSM)
以 Mamba 系列为代表。灵感来自控制论中的动态系统:一个固定大小的隐藏状态随时间演化,每个新输入决定状态怎么更新、哪些信息保留、哪些信息遗忘。
跟 Transformer 的区别是根本性的——Transformer 把所有历史 token 都存在一个叫 KV cache 的结构里(可以理解为"对话记忆缓存"),让每个 token 都能随机访问任何历史信息;SSM 把整个历史压缩进一个固定大小的状态向量,内存恒定,但信息是有损的。极长序列下更快、更省内存,但精确检索不如 Transformer。
Mamba-3(2025)的作者自己坦承:"线性层将主要与全局自注意力层配合使用。"业界的共识正在收敛于混合架构——比如 AI21 的 Jamba:7 层 Mamba 配 1 层 attention,256K 上下文只需要 4GB KV cache,吞吐量是同级 Transformer 的 3 倍。
基于能量的模型 (EBM)
以 Yann LeCun 力推的 JEPA 架构为代表。思路完全不同:不做序列预测,而是定义一个能量函数来给整个输入配置打分——低能量意味着"兼容、合理",高能量意味着"矛盾、不自然"。
推理不是"一个 token 接一个 token 地采样",而是"在能量景观中寻找低能态"——本质上是一个优化过程,不是采样过程。JEPA 的变体在嵌入空间中操作:它预测的不是原始像素或文字,而是学到的抽象表征,这迫使模型丢弃无关细节、聚焦结构。
LeCun 2025 年底离开 Meta 创办 AMI Labs,2026 年 3 月以 35 亿美元估值融了 10 亿美元,就是奔着这条路去的。
世界模型 (World Model)
试图从根本上弥合"描述因果"和"建模因果"之间的鸿沟。大语言模型说"重力使物体下落",是因为它在训练文本中见过这句话及其变体——它学到的是语言层面的因果描述。世界模型的目标是让系统真正学习到物理的动态规律:物体有持久性、重力向下、碰撞传递动量、行动有后果。
DeepMind 的 Genie 3 通过逐帧预测生成交互式 3D 世界,在其中涌现出了直觉物理(重力、碰撞、物体持久性)。NVIDIA 的 Cosmos 平台用超过 2000 万小时的真实世界数据训练物理 AI。短期物理模拟已经可用——但长期的通用规划和推理,仍是开放前沿。
不是互斥的¶
看到这里,你可能会以为这是四条分道扬镳的路径,未来某天会有一条胜出。实际的画面比这更有趣。
2025 年底的一篇论文证明,自回归模型和基于能量的模型在函数空间上存在双射关系——通过最大熵强化学习中的 soft Bellman 方程,每一个自回归模型都隐含地定义了一个能量函数,反之亦然。这是一个数学上的等价性,不意味着两者在工程实现上可以互换——训练方式、推理开销、适用场景仍然差异很大。但它说明这些路径在理论根基上比表面看起来更近。
SSM 的实际走向是与 Transformer 融合,不是替代它。世界模型的当前实现大量建立在 Transformer 架构之上。这些路径正在交汇,而不是分叉。
对 harness engineering 意味着什么¶
但它们确实是不同的力的方向。
如果这些方向兑现了
- 如果未来的模型能原生地模拟因果关系(World Model),你在 harness 层搭建的 chain-of-thought scaffolding——本质上是你在替模型做规划——可能变得不再必要。
- 如果未来的模型能在无损的无限上下文中操作(SSM 的极限场景),你精心设计的 context window management 策略——压缩、摘要、遗忘、检索——可能变得不再必要。
- 如果未来的模型能全局评估一个完整配置的合理性(EBM),你为了让模型"一步一步想"而搭建的推理链路,可能变得不再必要。
这些都是"可能",不是"一定"。这些架构还在早期——LeCun 的 AMI Labs 才刚拿到钱;纯 SSM 在需要精确检索的任务上仍然弱于 Transformer;世界模型的长程推理和规划依然是研究前沿,而不是工程现实。
但趋势看得见:模型在试图从更本质的层面去编码世界,不只是预测下一个 token。
这股力不只在变强,它可能在转向。
延伸阅读¶
- Hounie, I., Dieng, A. B., & Dathathri, S. (2025). Autoregressive Language Models Are Secretly Energy-Based Models. arXiv:2512.15605 — 本文说四种路径"不是互斥的",这篇论文给出了数学证明:自回归模型和能量模型之间存在双射关系——理解了这个等价性,你对架构演进方向的判断会更准
- Gu, A. & Dao, T. (2023). Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv:2312.00752 — SSM 不是"另一种 Transformer",而是一种完全不同的序列建模哲学;这篇原始论文解释了"固定大小状态向量"为什么能在极长序列上胜出,以及它付出了什么代价
- Introl. (2026). World Models Race 2026: LeCun, DeepMind, and Beyond. introl.com — 如果你想追踪世界模型从研究到工程的最新进展——Genie 3、Cosmos、AMI Labs——这篇综述比单独追每个团队的博客高效得多
概念与实体¶
本文涉及的核心概念与实体,在项目知识库中有更详细的资料:
- SSM Hybrid Architecture — 本文讨论的 Mamba/Jamba 混合架构,Transformer 之外的第二条路径
- World Models — 本文讨论的第四种编码世界的方式:学习因果结构而非文本共现
- Harness Engineering — 本文最后追问的核心:架构转向如何影响 harness 层的工程决策
- Context Management — SSM 极限场景下可能被颠覆的工程实践之一