这股力有多强，还在变强吗¶

机制搞清楚了，但光知道"它做的是 next-token prediction"还不够。你得感受一下这股力的量级，以及它变大的速度。

不是一条直线，是同心圆¶

如果你只看基准测试分数的折线图，模型能力的增长看起来像一条陡峭的直线。但这条直线掩盖了一个更有趣的结构：能力不是在同一个维度上持续拔高，而是在不断解锁新的维度。

更像是一圈一圈向外扩展的同心圆——每一圈新能力叠加在所有前序能力之上，前一圈不会消失，而是成为下一圈的地基。

时期	解锁的能力维度	标志性事件
2020–2022	文本流畅度与知识	GPT-3 证明了规模本身能催生涌现能力；PaLM 进一步验证
2022–2023	指令遵循与对齐	ChatGPT 通过 RLHF（基于人类反馈的强化学习）让模型变得"可用"；Claude 1 以安全对齐为核心设计
2023	推理 + 多模态（并行解锁）	GPT-4 同时带来了推理跃升和视觉输入；Gemini 1.0 从设计之初就是多模态的；Claude 2 将上下文窗口推到 100K
2023–2024	工具使用与结构化输出	Function calling、Claude tool use、JSON mode——注意，这发生在 extended reasoning 之前
2024–2025	推理时计算 / 深度思考	o1 引入"思考 token"范式；DeepSeek-R1 证明开源也能做到；Claude extended thinking 让模型在回答前"想一想"
2025–2026	模型的 agentic 能力	Claude Code 支持 agent teams 并行协作；OpenAI Codex 在云端沙箱中自主编码；多家模型在 agentic coding 评测中刷新纪录

叠加，不是替代

每一行不是替代了上一行，而是叠加在上一行之上。2026 年的模型不只是"更 agentic"——它同时也更流畅、更对齐、更能推理、更多模态、更擅长使用工具、更会深度思考。六个维度同时在增长，只是每个时期有一个维度是新解锁的。

三年，一条产品线¶

让我们用一条产品线来具象化这个增长。

2023 年 3 月：Claude 12026 年 2 月：Claude Opus 4.6

上下文窗口 9K tokens——大约够放一篇中等长度的文章。能力范围：能聊天，能写文字，有一定的推理能力，但谈不上可靠。没有视觉，没有工具调用，没有深度思考。

上下文窗口 1M tokens——是 Claude 1 的 111 倍。输出上限 128K tokens。支持 adaptive thinking（模型自主决定何时需要深度推理）。在 agent teams 模式下，多个 agent 实例可以并行协作完成复杂任务。在多项 agentic coding 和知识工作评测中达到行业领先水平。

三年。同一家公司，同一条产品线。从"能聊天"到"能组队自主完成复杂软件工程任务"。

谨慎乐观¶

这股力还在增长——这一点，目前的证据是支持的。但增长的来源在多元化：

预训练规模仍在推进，但遇到了高质量数据的瓶颈——行业的应对方式是合成数据、数据精选和多轮训练。
推理时计算成为了新的 scaling 轴线。让模型"多想一会儿"的效果，有时等价于模型规模扩大 10–100 倍——而且这条路还远没走到头。
模型自身的 agentic 能力在持续增长——更好的规划、更长的自主执行、更可靠的自我纠错。

方向大致看得见——推理更深、上下文更长、模态更多、自主执行更可靠。但什么时候到，没人说得准。

Anthropic 在一篇关于怎么用好 Claude 的博文里写了一句话：

"The frontier of Claude's intelligence is always changing. Assumptions about what Claude can't do need to be re-tested with each step change."

记住这句话。后面会把它翻译成力学语言。

这股力光是变强也就罢了——它的方向会不会也在变？

延伸阅读¶

Kaplan, J., McCandlish, S., Henighan, T., et al. (2020). Scaling Laws for Neural Language Models. arXiv:2001.08361 — "能力随规模可预测增长"不是口号，这篇论文给出了幂律公式和实验曲线；理解了它，你就能自己判断每一代模型升级的期望收益
Hoffmann, J., Borgeaud, S., Mensch, A., et al. (2022). Training Compute-Optimal Large Language Models. arXiv:2203.15556 — Chinchilla 论文修正了 Kaplan 的结论：数据和参数要同步放大；这篇解释了为什么"高质量数据瓶颈"是真问题而不是借口

概念与实体¶

本文涉及的核心概念与实体，在项目知识库中有更详细的资料：

Scaling Laws — 本文"同心圆"叙事的理论基础：能力随规模幂律增长的经验规律
LLM Training Pipeline — 从预训练到 RLHF 到推理时计算，本文时间线上每个阶段对应的训练范式
Agentic Systems — 2025-2026 同心圆最外层解锁的能力维度
Anthropic — Claude 产品线的缔造者，本文用三年 Claude 演进具象化模型增长
OpenAI — o1 推理范式和 Codex 的推出者，本文时间线中的关键节点