心 智 七 篇 · Seven Mental Models
篇 I · 心智模型

正交

Orthogonality
§ 01

合力

高中物理课上你学过一件事:一个物体的运动状态,不由任何一个力单独决定——它是所有作用力的合成结果。

一辆车能跑多快,不只取决于发动机输出了多少马力。路面摩擦力、空气阻力、轮胎抓地力、传动效率——每一股力都在影响最终结果。发动机再强,轮胎打滑的话,动力也只是在空转。

合力 合力

Agentic system 也是一样。

当你把一个大语言模型接入工具、喂进上下文、包裹进运行时框架、部署到沙箱里,最终系统的表现——它能解决多复杂的问题、能多可靠地完成任务、能在多大范围内自主行动——是所有这些力的合成结果,不是其中任何一股力的独角戏。

模型能力是一股力。它决定了系统的”智力上限”——推理深度、知识广度、指令遵循的精度。

但你在 harness 层做的一切——怎么编排上下文、怎么设计工具接口、怎么管理运行时状态、怎么隔离执行环境、怎么验证输出的正确性——这是另一股力。它决定了那个”智力上限”有多少能被真正释放出来,以及释放的过程是否安全、可控、可持续。

两股力,同时作用于同一个系统,合力决定最终输出。

这引出了一个问题——一个看起来简单、但会改变你整个工程策略的问题:

核心问题

你的力,该往哪个方向使?

方向使错了,你投入的每一份努力都可能被另一股力的增长悄悄吞噬。方向使对了,两股力各做各的功,互不干扰,系统持续变强。

“使对方向”在物理学里有一个精确的名字。不过在说出那个词之前,先得搞清楚:那股不受你控制的力——模型本身——到底是什么。


概念与实体

本文涉及的核心概念与实体,在项目知识库中有更详细的资料:

  • Agentic Systems — 本文的分析对象:多组件协作的智能体系统,合力决定其最终表现
  • Harness Engineering — “另一股力”的工程实体:你在模型之外构建的一切
  • Augmented LLM — 模型接入工具和上下文后的复合体,是两股力交汇的界面
§ 02

第一股力:模型是什么

要判断你的力该往哪使,得先看清另一股力长什么样。

一个读遍了所有文字的补全者

把当今的大语言模型剥到最底层,它在做一件事:预测下一个 token。

你给它一串文字——一个问题、一段代码、半篇文章——它返回一个概率分布:“在所有我见过的人类文本中,接在这串文字后面最可能的那个 token 是什么。“然后它把这个 token 拼接到输入后面,再预测下一个。如此往复,直到它认为该停了。

预训练阶段的目标函数只有这一个。后续的对齐训练(RLHF、RLAIF、DPO 等)会在这个基底之上进一步塑造模型行为——让它更”有用”、更”安全”——但底层的生成机制不变:每一次输出,仍然是一次条件概率预测。

如果你期待的是一个在硅基大脑中沉思的数字先知,这可能会让你有点失望。但别急着失望——因为故事真正有趣的部分,恰恰在这个朴素机制之上。

简单的目标,涌现的复杂

Next-token prediction 是一个朴素到近乎无聊的目标函数。但当你把这个目标函数放在足够大的参数空间里,用人类产出的几乎全部文本去训练,一些意料之外的东西开始浮现。

模型开始能写代码、能解数学题、能分析复杂的商业案例。它能遵循多步骤的指令,能在上下文中做出看起来像”推理”的操作,能生成让人类读者觉得”有洞察”的文字。

这些行为不是被直接编程进去的。训练目标自始至终只有一个——把下一个 token 猜对。但在追求这个目标的过程中,模型内部涌现出了某些训练目标从未明确要求的结构。

Mechanistic interpretability——一个专门拆解神经网络内部运作的研究领域——已经开始用实验数据证实这一点。MIT Technology Review 把它列进了 2026 年度十大突破性技术。

早期线索(2023)
  • Othello-GPT:一个只在棋谱字符序列上训练的模型,内部自发形成了棋盘状态的结构化表征——它不只是在预测下一步棋的符号,它在某种意义上”知道”棋盘长什么样。
  • 空间与时间表征:Gurnee 和 Tegmark 发现大语言模型的内部编码了城市的地理空间关系和事件的时间顺序。这些结构不是训练目标要求的,却真实地存在于模型的参数中。

2025 年,Anthropic 的 circuit tracing 研究直接在 Claude 内部追踪了从输入到输出的计算路径。几个发现值得一提:

问”small 的反义词”,无论用英语、法语还是中文,模型内部激活的是同一组概念特征——先激活”小”和”对立”,再触发”大”,最后翻译成提问语言输出。它不是在做三种独立的翻译,它有一个跨语言共享的语义空间。

写诗的时候,模型会先”想好”押韵的候选词,再倒回去写前面的句子来凑上那个词。不是逐字碰运气,是先定终点再铺路。

回答”Dallas 所在州的首府是哪里”时,模型先激活”Dallas → Texas”,再跳到”Texas 首府 → Austin”。它在拼接独立的知识碎片,不是在背一个预存的答案。

同年 6 月,另一项研究证明大语言模型内部编码了线性空间世界模型——不只是棋盘状态,而是一般性的物理空间表征。

它”理解”吗?

这里我们走到了一个岔路口。一边是 Bender 等人的”随机鹦鹉”论——语言模型只是在做复杂的统计拼贴,统计共现不等于语义理解。另一边是上述实证研究暗示的可能性——在 next-token prediction 的压力下,模型内部涌现出了某种对世界结构的编码,这至少是某种”理解”的雏形。

这场辩论还在继续,双方都有严肃的研究者和不可忽视的论据。短期内,不会有定论。

但作为工程师,我们可以不等裁判吹哨。

工程师的立场

不管你把这些涌现行为叫做”理解”还是”统计涌现”还是别的什么——模型的运行机制是确定的:它做的是 next-token prediction,它的行为由训练数据和参数空间共同塑造。你的工程决策应该基于这个机制的操作特性,而不是基于它背后是否藏着一个真正”懂了”的灵魂。

操作特性

四个对工程师来说真正重要的特性:

特性含义
概率性同样的输入不一定产生同样的输出。它给你的是采样自概率分布的一个样本,不是确定性函数的返回值。
推理无状态每次调用都是一次全新的计算。上一轮对话中它”记住”的东西,不是因为它真的记住了——是因为你(或者你的 harness)把上一轮的上下文重新喂了进去。
上下文窗口约束它能”看到”的信息量有物理上限。超过这个窗口的信息,对它来说就不存在。
能力随规模可预测增长更多参数、更多数据、更多算力 → 更低的预测误差 → 更强的涌现行为。这不是信仰,是一条被反复验证的经验规律。

这四条就是你跟模型打交道时真正需要在意的约束。它很强,而且还在变强——但怎么个强法,有结构。

那么,到底有多强?在以什么速度变强?


延伸阅读

  • Anthropic. (2025). On the Biology of a Large Language Model. transformer-circuits.pub — 如果你想看 circuit tracing 的完整证据链——模型内部的跨语言语义空间、诗歌中的”先定终点再铺路”、多跳知识检索——这篇是一手研究报告,不是科普摘要
  • Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? doi:10.1145/3442188.3445922 — 本文刻意不在”理解”问题上站队;这篇是”统计鹦鹉”论的原始文本,读完它再读 circuit tracing,你才能自己判断这场辩论的分量

概念与实体

本文涉及的核心概念与实体,在项目知识库中有更详细的资料:

  • Mechanistic Interpretability — 本文用来证明”涌现结构”的核心研究方法论
  • Scaling Laws — “能力随规模可预测增长”这条操作特性背后的经验规律
  • Context Management — “推理无状态”和”上下文窗口约束”两条操作特性的工程应对
  • Anthropic — Circuit tracing 研究的主要推动者,本文多处引用其成果
§ 03

这股力有多强,还在变强吗

机制搞清楚了,但光知道”它做的是 next-token prediction”还不够。你得感受一下这股力的量级,以及它变大的速度。

不是一条直线,是同心圆

如果你只看基准测试分数的折线图,模型能力的增长看起来像一条陡峭的直线。但这条直线掩盖了一个更有趣的结构:能力不是在同一个维度上持续拔高,而是在不断解锁新的维度。

更像是一圈一圈向外扩展的同心圆——每一圈新能力叠加在所有前序能力之上,前一圈不会消失,而是成为下一圈的地基。

时期解锁的能力维度标志性事件
2020–2022文本流畅度与知识GPT-3 证明了规模本身能催生涌现能力;PaLM 进一步验证
2022–2023指令遵循与对齐ChatGPT 通过 RLHF(基于人类反馈的强化学习)让模型变得”可用”;Claude 1 以安全对齐为核心设计
2023推理 + 多模态(并行解锁)GPT-4 同时带来了推理跃升和视觉输入;Gemini 1.0 从设计之初就是多模态的;Claude 2 将上下文窗口推到 100K
2023–2024工具使用与结构化输出Function calling、Claude tool use、JSON mode——注意,这发生在 extended reasoning 之前
2024–2025推理时计算 / 深度思考o1 引入”思考 token”范式;DeepSeek-R1 证明开源也能做到;Claude extended thinking 让模型在回答前”想一想”
2025–2026模型的 agentic 能力Claude Code 支持 agent teams 并行协作;OpenAI Codex 在云端沙箱中自主编码;多家模型在 agentic coding 评测中刷新纪录
叠加,不是替代

每一行不是替代了上一行,而是叠加在上一行之上。2026 年的模型不只是”更 agentic”——它同时也更流畅、更对齐、更能推理、更多模态、更擅长使用工具、更会深度思考。六个维度同时在增长,只是每个时期有一个维度是新解锁的。

三年,一条产品线

让我们用一条产品线来具象化这个增长。

2023 年 3 月:Claude 1

上下文窗口 9K tokens——大约够放一篇中等长度的文章。能力范围:能聊天,能写文字,有一定的推理能力,但谈不上可靠。没有视觉,没有工具调用,没有深度思考。

2026 年 2 月:Claude Opus 4.6

上下文窗口 1M tokens——是 Claude 1 的 111 倍。输出上限 128K tokens。支持 adaptive thinking(模型自主决定何时需要深度推理)。在 agent teams 模式下,多个 agent 实例可以并行协作完成复杂任务。在多项 agentic coding 和知识工作评测中达到行业领先水平。

三年。同一家公司,同一条产品线。从”能聊天”到”能组队自主完成复杂软件工程任务”。

谨慎乐观

这股力还在增长——这一点,目前的证据是支持的。但增长的来源在多元化:

  • 预训练规模仍在推进,但遇到了高质量数据的瓶颈——行业的应对方式是合成数据、数据精选和多轮训练。
  • 推理时计算成为了新的 scaling 轴线。让模型”多想一会儿”的效果,有时等价于模型规模扩大 10–100 倍——而且这条路还远没走到头。
  • 模型自身的 agentic 能力在持续增长——更好的规划、更长的自主执行、更可靠的自我纠错。

方向大致看得见——推理更深、上下文更长、模态更多、自主执行更可靠。但什么时候到,没人说得准。

Anthropic 在一篇关于怎么用好 Claude 的博文里写了一句话:

“The frontier of Claude’s intelligence is always changing. Assumptions about what Claude can’t do need to be re-tested with each step change.”

记住这句话。后面会把它翻译成力学语言。

这股力光是变强也就罢了——它的方向会不会也在变?


延伸阅读

  • Kaplan, J., McCandlish, S., Henighan, T., et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361 — “能力随规模可预测增长”不是口号,这篇论文给出了幂律公式和实验曲线;理解了它,你就能自己判断每一代模型升级的期望收益
  • Hoffmann, J., Borgeaud, S., Mensch, A., et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556 — Chinchilla 论文修正了 Kaplan 的结论:数据和参数要同步放大;这篇解释了为什么”高质量数据瓶颈”是真问题而不是借口

概念与实体

本文涉及的核心概念与实体,在项目知识库中有更详细的资料:

  • Scaling Laws — 本文”同心圆”叙事的理论基础:能力随规模幂律增长的经验规律
  • LLM Training Pipeline — 从预训练到 RLHF 到推理时计算,本文时间线上每个阶段对应的训练范式
  • Agentic Systems — 2025-2026 同心圆最外层解锁的能力维度
  • Anthropic — Claude 产品线的缔造者,本文用三年 Claude 演进具象化模型增长
  • OpenAI — o1 推理范式和 Codex 的推出者,本文时间线中的关键节点
§ 04

这股力的方向,会变吗

光知道模型在变强还不够。如果这股力只是沿着同一个方向越来越大,你至少可以选一个固定的正交方向然后安心干活。

但如果它在变强的同时还在转向呢?那就是另一个工程问题了。

当前的主流:Transformer

当前的主流架构——Transformer——建立在一个核心机制上:自注意力(self-attention)。每个 token 都能”看到”上下文中的所有其他 token,并据此计算自己的表征。这就是你的上下文窗口的由来:模型能”看到”多少,取决于 attention 机制能覆盖多长的序列。

Transformer 架构下的大语言模型,归根到底是在文本序列上做统计建模。它通过 next-token prediction 学到了语言的结构、知识和推理模式。很强——但”通过预测文本来理解世界”只是编码世界的方式之一。

至少还有三种不同的路径正在演进。

四种编码世界的方式

Transformer状态空间模型 (SSM)基于能量的模型 (EBM)世界模型 (World Model)
一句话读遍所有文字的补全者带有限记忆的流处理器给整体兼容性打分的裁判在脑中模拟物理后果的想象者
建模目标给定前文,下一个 token 最可能是什么怎样把全部历史压缩进一个固定大小的状态向量一个完整的配置有多”合理”如果我采取这个行动,世界会变成什么样
怎么”理解”世界从文本共现中提取统计规律将序列动态建模为状态的演化在全局配置的能量景观中寻找低能态学习因果结构与状态转移规律
状态空间模型 (SSM)

以 Mamba 系列为代表。灵感来自控制论中的动态系统:一个固定大小的隐藏状态随时间演化,每个新输入决定状态怎么更新、哪些信息保留、哪些信息遗忘。

跟 Transformer 的区别是根本性的——Transformer 把所有历史 token 都存在一个叫 KV cache 的结构里(可以理解为”对话记忆缓存”),让每个 token 都能随机访问任何历史信息;SSM 把整个历史压缩进一个固定大小的状态向量,内存恒定,但信息是有损的。极长序列下更快、更省内存,但精确检索不如 Transformer。

Mamba-3(2025)的作者自己坦承:“线性层将主要与全局自注意力层配合使用。“业界的共识正在收敛于混合架构——比如 AI21 的 Jamba:7 层 Mamba 配 1 层 attention,256K 上下文只需要 4GB KV cache,吞吐量是同级 Transformer 的 3 倍。

基于能量的模型 (EBM)

以 Yann LeCun 力推的 JEPA 架构为代表。思路完全不同:不做序列预测,而是定义一个能量函数来给整个输入配置打分——低能量意味着”兼容、合理”,高能量意味着”矛盾、不自然”。

推理不是”一个 token 接一个 token 地采样”,而是”在能量景观中寻找低能态”——本质上是一个优化过程,不是采样过程。JEPA 的变体在嵌入空间中操作:它预测的不是原始像素或文字,而是学到的抽象表征,这迫使模型丢弃无关细节、聚焦结构。

LeCun 2025 年底离开 Meta 创办 AMI Labs,2026 年 3 月以 35 亿美元估值融了 10 亿美元,就是奔着这条路去的。

世界模型 (World Model)

试图从根本上弥合”描述因果”和”建模因果”之间的鸿沟。大语言模型说”重力使物体下落”,是因为它在训练文本中见过这句话及其变体——它学到的是语言层面的因果描述。世界模型的目标是让系统真正学习到物理的动态规律:物体有持久性、重力向下、碰撞传递动量、行动有后果。

DeepMind 的 Genie 3 通过逐帧预测生成交互式 3D 世界,在其中涌现出了直觉物理(重力、碰撞、物体持久性)。NVIDIA 的 Cosmos 平台用超过 2000 万小时的真实世界数据训练物理 AI。短期物理模拟已经可用——但长期的通用规划和推理,仍是开放前沿。

不是互斥的

看到这里,你可能会以为这是四条分道扬镳的路径,未来某天会有一条胜出。实际的画面比这更有趣。

2025 年底的一篇论文证明,自回归模型和基于能量的模型在函数空间上存在双射关系——通过最大熵强化学习中的 soft Bellman 方程,每一个自回归模型都隐含地定义了一个能量函数,反之亦然。这是一个数学上的等价性,不意味着两者在工程实现上可以互换——训练方式、推理开销、适用场景仍然差异很大。但它说明这些路径在理论根基上比表面看起来更近。

SSM 的实际走向是与 Transformer 融合,不是替代它。世界模型的当前实现大量建立在 Transformer 架构之上。这些路径正在交汇,而不是分叉。

对 harness engineering 意味着什么

但它们确实是不同的力的方向

如果这些方向兑现了
  • 如果未来的模型能原生地模拟因果关系(World Model),你在 harness 层搭建的 chain-of-thought scaffolding——本质上是你在替模型做规划——可能变得不再必要。
  • 如果未来的模型能在无损的无限上下文中操作(SSM 的极限场景),你精心设计的 context window management 策略——压缩、摘要、遗忘、检索——可能变得不再必要。
  • 如果未来的模型能全局评估一个完整配置的合理性(EBM),你为了让模型”一步一步想”而搭建的推理链路,可能变得不再必要。

这些都是”可能”,不是”一定”。这些架构还在早期——LeCun 的 AMI Labs 才刚拿到钱;纯 SSM 在需要精确检索的任务上仍然弱于 Transformer;世界模型的长程推理和规划依然是研究前沿,而不是工程现实。

但趋势看得见:模型在试图从更本质的层面去编码世界,不只是预测下一个 token。

这股力不只在变强,它可能在转向


延伸阅读

  • Hounie, I., Dieng, A. B., & Dathathri, S. (2025). Autoregressive Language Models Are Secretly Energy-Based Models. arXiv:2512.15605 — 本文说四种路径”不是互斥的”,这篇论文给出了数学证明:自回归模型和能量模型之间存在双射关系——理解了这个等价性,你对架构演进方向的判断会更准
  • Gu, A. & Dao, T. (2023). Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv:2312.00752 — SSM 不是”另一种 Transformer”,而是一种完全不同的序列建模哲学;这篇原始论文解释了”固定大小状态向量”为什么能在极长序列上胜出,以及它付出了什么代价
  • Introl. (2026). World Models Race 2026: LeCun, DeepMind, and Beyond. introl.com — 如果你想追踪世界模型从研究到工程的最新进展——Genie 3、Cosmos、AMI Labs——这篇综述比单独追每个团队的博客高效得多

概念与实体

本文涉及的核心概念与实体,在项目知识库中有更详细的资料:

  • SSM Hybrid Architecture — 本文讨论的 Mamba/Jamba 混合架构,Transformer 之外的第二条路径
  • World Models — 本文讨论的第四种编码世界的方式:学习因果结构而非文本共现
  • Harness Engineering — 本文最后追问的核心:架构转向如何影响 harness 层的工程决策
  • Context Management — SSM 极限场景下可能被颠覆的工程实践之一
§ 05

正交分解:你的力往哪使

力的方向看清了——还可能在转。回到第一篇留下的问题:

核心问题

你的力,该往哪个方向使?

同向的力

想象两股力作用于同一个物体,方向完全相同。合力很大,对吧?问题是——当其中一股力持续增强时,另一股力的边际贡献在递减。

如果发动机已经提供了 500 马力,你再在车顶加一个小风扇往前吹——理论上合力确实变大了,但那个风扇的存在几乎没有意义。更糟的是,当发动机升级到 1000 马力时,风扇不仅没用,它的重量反而成了累赘。

映射到 agentic systems:如果你在 harness 层做的事情,跟模型能力增长的方向重合——你在补偿模型当前做不好的某个能力维度——那么每一次模型在那个维度上变强,你的工作就被抵消一点。

还记得 Anthropic 那句话吗?

“Assumptions about what Claude can’t do need to be re-tested with each step change.”

翻译成力学语言:沿着模型能力方向使出的力,保质期取决于模型两次升级之间的间隔。

消耗性投入

这不是说这些工作没有价值——在模型尚未足够强的当下,它们是必要的。但你需要清醒地意识到:这些是消耗性投入,不是累积性投入。它们的价值会随着模型变强而衰减。

正交的力

现在想象两股力方向正交——互成 90 度。

在这种配置下,每股力在自己的方向上独立做功,互不干扰。无论其中一股力变得多强,另一股力的贡献完全不受影响。合力不是简单相加,而是向量和——系统的总自由度增加了。

映射到 agentic systems:存在一些工作,它们的价值不依赖于模型当前有多强或未来会变得多强。无论模型的推理能力翻十倍,无论上下文窗口扩展到无穷,无论架构从 Transformer 变成能量模型或世界模型——这些工作依然有独立价值。

它们正交于模型能力。

判断标准,不是答案

我不打算在这里列出”哪些事情是正交的”。原因很简单:如果我列了,那就成了另一张可能过期的清单。

我给你的是一个判断标准

面对你正在做或准备做的任何一项 harness 工程决策,问自己一个问题——

正交性检验

如果明天模型在这个维度上突然变强了十倍,我今天做的这件事,是变得更有价值,还是变得没有必要?

  • 如果答案是”变得没有必要”——你的力跟模型的力方向重合,你在做消耗性投入。不是说不该做,但要知道它的保质期。
  • 如果答案是”不受影响,甚至更有价值”——你的力正交于模型的力。这是累积性投入。你做的每一份努力,都在为系统增加一个模型自身无法提供的自由度。
  • 如果答案是”我不确定”——这也是有价值的发现。回到上一篇看看模型能力的演进方向,想想你的工作在那个向量上的投影是什么。投影大,小心;投影接近零,放心。

不要跟一股你无法控制的力较劲。找到与它垂直的方向,去做它做不到的事。

延伸阅读

  • Anthropic. (2026). Harnessing Claude’s Intelligence. claude.com/blog — 本文引用了其中一句话并将其翻译成力学语言;完整读完它,你会看到 Anthropic 自己是如何理解”模型能力边界”与”harness 工程”之间关系的

概念与实体

本文涉及的核心概念与实体,在项目知识库中有更详细的资料:

  • Harness Engineering — “你的力”的工程化身:正交性检验直接决定 harness 层的投资方向
  • Agentic Systems — 正交分解的作用对象:两股力合成后的完整系统
  • Context Management — 一个典型的正交性待检验项:如果上下文窗口无限扩展,你的管理策略是否仍有独立价值
  • Anthropic — “Assumptions need to be re-tested” 这一关键引文的来源