Circuit Tracing: Revealing Computational Graphs in Language Models

电路追踪方法论：跨层转码器、归因图、替代模型

源

来源 · CIRCUIT TRACING · Anthropic Transformer Circuits · CLT · 归因图 · 2025

Circuit Tracing: Revealing Computational Graphs in Language Models

Anthropic Transformer Circuits Team（2025）——从特征发现到电路追踪的完整 MI 工作流

构建「可解释替代模型」：用跨层转码器（CLT）替换 MLP 层，追踪稀疏激活特征之间的线性因果链路，生成「归因图」。前向传播中特征间的直接交互是线性的——CLT 桥接 MLP，注意力模式冻结。最大 CLT 在 50% 的 prompt 上匹配底层模型的 top-1 token。

五步工作流

1SAE/CLT 提取特征——从残差流读入，向后续层 MLP 输出写入

2构建局部替代模型——固定注意力模式，加入误差调整项，精确还原原模型输出

3生成归因图——节点=活跃特征/token/误差/logit；边=线性效应

4剪枝简化——保留最大贡献子图，典型压缩率 10x 节点，损失 20% 解释力

5扰动验证——抑制/注入特征，观察下游效应，验证因果链路

方法局限

缺失 QK-circuits

方法捕获 OV-circuits 的信息流，但不解释「为什么注意该位置」

归因图有效率 ~25%

仅约 25% 的 prompt 产生满意洞察——适合探索性研究，不适合批量分析

抑制模式识别困难

当特征的作用是「阻止」某输出时，归因图更难解读

→ Mechanistic Interpretability · Circuit Tracing · Anthropic Biology of LLMtransformer-circuits.pub (2025)

Circuit Tracing: Revealing Computational Graphs in Language Models

来源: sources/anthropic_official/circuit-tracing-methods.md
URL: https://transformer-circuits.pub/2025/attribution-graphs/methods.html
作者: Anthropic (Transformer Circuits team)
发布: 2025

摘要

提出用于揭示语言模型内部计算机制的方法论。核心思路：构建”可解释替代模型”（replacement model），用跨层转码器（cross-layer transcoder, CLT）替换原模型的 MLP 层，然后追踪稀疏激活特征之间的线性因果链路，生成”归因图”（attribution graph）。

方法论要点

跨层转码器（CLT）：每个特征从某一层的残差流读入，可向所有后续层的 MLP 输出写入。最大 CLT 在 50% 的 prompt 上匹配底层模型的 top-1 token。
局部替代模型：固定特定 prompt 的注意力模式和归一化分母，加入误差调整项，使替代模型在该 prompt 上精确还原原模型输出。
归因图：节点 = 活跃特征 + token embedding + 误差项 + 输出 logit；边 = 线性效应。前向传播中特征间的直接交互是线性的（因 MLP 被 CLT 桥接，注意力模式被冻结）。
剪枝：保留对目标 token 贡献最大的子图，典型压缩率 10x 节点、仅损失 20% 解释力。
超节点（Supernode）：将功能相近的特征手动分组，简化分析。
验证：通过扰动实验（抑制/注入特征，观察下游效应）检验归因图发现的可靠性。

关键局限

缺失注意力电路：方法捕获 OV-circuits 的信息流，但不解释 QK-circuits（即”为什么注意该位置”）。
重建误差：CLT 不完美重建 MLP 输出，误差可跨层累积。
抑制模式识别困难：当特征的作用是”阻止”某输出时，归因图更难解读。
全局权重干扰：跨 prompt 的全局权重分析比单 prompt 归因图更嘈杂。

核心概念贡献

本文为 mechanistic interpretability 领域提供了完整的从特征发现到电路追踪的工作流：SAE/CLT 提取特征 → 构建替代模型 → 生成归因图 → 剪枝简化 → 扰动验证。

References

sources/anthropic_official/circuit-tracing-methods.md