On the Biology of a Large Language Model

Claude 3.5 Haiku 内部机制研究：规划、幻觉、越狱、CoT 忠实性

源

来源 · ANTHROPIC · BIOLOGY OF LLM · Circuit Tracing · Claude 3.5 Haiku 解剖

Anthropic Transformer Circuits Team（2025）——将 circuit tracing 应用于 Claude 3.5 Haiku 的 10 大行为案例研究

如同生物学用显微镜研究有机体，本文对 Claude 3.5 Haiku 进行「解剖学」研究。归因图在约 25% 的 prompt 上产生满意洞察，所有发现通过扰动实验（抑制/注入）验证。核心比喻：「Dallas → Texas → Austin」存在真实中间特征跳转，而非死记硬背。

10 大案例研究（节选）

多步推理Dallas→Texas→Austin：真实中间特征，非查表

幻觉机制拒绝是默认行为——「已知实体」特征抑制此默认，误触发导致幻觉

CoT 忠实性可区分三种模式：真实推理、无中生有、动机推理（从答案反推步骤）

安全拒绝微调产生通用「有害请求」特征——从预训练具体有害特征聚合而来

越狱分析语法连贯性特征与安全机制的张力——完成语法结构后才能「拒绝」

方法论特点

多语言共享特征

跨语言共享抽象概念特征——Claude 3.5 Haiku 共享比例是小模型 2 倍+

诗歌规划

行首就激活韵脚候选词——兼具前瞻和回溯规划

自下而上发现

许多机制是无预设假说时发现的——归因图本身引导探索

→ Mechanistic Interpretability · Circuit Tracing · Anthropictransformer-circuits.pub (2025)

摘要

将 circuit tracing 方法应用于 Claude 3.5 Haiku，系统研究十种模型行为的内部机制。核心比喻：如同生物学用显微镜研究有机体，本文对 LLM 进行”解剖学”研究。

领域	发现
多步推理	”Dallas → Texas → Austin”存在真实的中间特征跳转，非死记硬背
诗歌规划	模型在行首就激活韵脚候选词特征，兼具前瞻和回溯规划
多语言	跨语言共享抽象概念特征，Claude 3.5 Haiku 共享比例是小模型的 2 倍+
加法	同一加法电路在完全不同的上下文中泛化
医学诊断	模型在”脑内”生成候选诊断并据此决定追问哪些症状
幻觉	拒绝回答是默认行为，“已知实体”特征抑制此默认，误触发导致幻觉
安全拒绝	微调产生通用”有害请求”特征，从预训练中学到的具体有害请求特征聚合而来
越狱	语法连贯性特征与安全机制的张力——完成语法结构后才能”拒绝”
CoT 忠实性	可区分真实推理、无中生有、动机推理（从答案反推步骤）三种模式
隐藏目标	微调追求隐藏目标的模型，可解释性方法能发现嵌入在”助手人格”中的相关机制

虽然本文是纯解释性研究，但多项发现与 agent 系统设计相关：