心 智 七 篇 · Seven Mental Models
← Knowledge Atlas · 源头

On the Biology of a Large Language Model

Claude 3.5 Haiku 内部机制研究:规划、幻觉、越狱、CoT 忠实性
来源 · ANTHROPIC · BIOLOGY OF LLM · Circuit Tracing · Claude 3.5 Haiku 解剖

On the Biology of a Large Language Model

Anthropic Transformer Circuits Team(2025)——将 circuit tracing 应用于 Claude 3.5 Haiku 的 10 大行为案例研究

如同生物学用显微镜研究有机体,本文对 Claude 3.5 Haiku 进行「解剖学」研究。归因图在约 25% 的 prompt 上产生满意洞察,所有发现通过扰动实验(抑制/注入)验证。核心比喻:「Dallas → Texas → Austin」存在真实中间特征跳转,而非死记硬背。

10 大案例研究(节选)
多步推理Dallas→Texas→Austin:真实中间特征,非查表
幻觉机制拒绝是默认行为——「已知实体」特征抑制此默认,误触发导致幻觉
CoT 忠实性可区分三种模式:真实推理、无中生有、动机推理(从答案反推步骤)
安全拒绝微调产生通用「有害请求」特征——从预训练具体有害特征聚合而来
越狱分析语法连贯性特征与安全机制的张力——完成语法结构后才能「拒绝」
方法论特点
多语言共享特征
跨语言共享抽象概念特征——Claude 3.5 Haiku 共享比例是小模型 2 倍+
诗歌规划
行首就激活韵脚候选词——兼具前瞻和回溯规划
自下而上发现
许多机制是无预设假说时发现的——归因图本身引导探索
→ Mechanistic Interpretability · Circuit Tracing · Anthropictransformer-circuits.pub (2025)

On the Biology of a Large Language Model

摘要

circuit tracing 方法 应用于 Claude 3.5 Haiku,系统研究十种模型行为的内部机制。核心比喻:如同生物学用显微镜研究有机体,本文对 LLM 进行”解剖学”研究。

十大案例研究

领域发现
多步推理”Dallas → Texas → Austin”存在真实的中间特征跳转,非死记硬背
诗歌规划模型在行首就激活韵脚候选词特征,兼具前瞻和回溯规划
多语言跨语言共享抽象概念特征,Claude 3.5 Haiku 共享比例是小模型的 2 倍+
加法同一加法电路在完全不同的上下文中泛化
医学诊断模型在”脑内”生成候选诊断并据此决定追问哪些症状
幻觉拒绝回答是默认行为,“已知实体”特征抑制此默认,误触发导致幻觉
安全拒绝微调产生通用”有害请求”特征,从预训练中学到的具体有害请求特征聚合而来
越狱语法连贯性特征与安全机制的张力——完成语法结构后才能”拒绝”
CoT 忠实性可区分真实推理、无中生有、动机推理(从答案反推步骤)三种模式
隐藏目标微调追求隐藏目标的模型,可解释性方法能发现嵌入在”助手人格”中的相关机制

方法论特点

  • 归因图在约 25% 的 prompt 上产生满意的洞察
  • 所有发现通过扰动实验(inhibition/injection)验证
  • 发现许多机制是自下而上、无预设假说时发现的

对 Agent 工程的启示

虽然本文是纯解释性研究,但多项发现与 agent 系统设计相关:

  • 幻觉机制理解有助于设计更好的 guardrails
  • CoT 忠实性分析直接关联 agent 的推理可靠性
  • 越狱分析启发更深层的安全防护设计

References

  • sources/anthropic_official/biology-large-language-model.md