← Knowledge Atlas · 概念

激活干预（Activation Intervention）

激活干预：修改中间层激活以验证表征因果性，OthelloGPT 首创，梯度引导/缓存替换/向量操控三种变体

念

概念 · ACTIVATION INTERVENTION · 机制可解释性

激活干预

Activation Intervention / Steering / Patching

探针问”是否编码”，干预问”是否因果驱动”。在前向传播中修改中间层激活，观察输出变化——从相关性跃升到因果性证据。

梯度引导修改Li et al. 2022

梯度下降将激活推向目标状态 B’；可干预训练分布外状态

线性向量加法Nanda et al. 2023

x’ ← x + α·v，单次加法等效干预；证明表征本身是线性的

缓存替换 PatchingMeng et al. 2022

干净运行 vs 受损运行；定位哪一层存储事实（ROME）

方向向量操控Zou et al. 2023

对比两类输入提取特征方向，注入方向向量改变模型行为

OthelloGPT 结果干预后预测错误：2.68 → 0.12（合法棋位）；线性向量版本 0.02——验证表征对预测具有因果作用

→ 探针分类器 · 机制可解释性 · 线性表征假说Li (2022) · Nanda (2023)

激活干预（Activation Intervention）

定义

激活干预（Activation Intervention，也称激活修补 Activation Patching 或激活操控 Activation Steering）是机制可解释性研究中的一类实验方法：在模型前向传播过程中修改中间层的激活值，观察这一修改是否影响最终输出，从而验证表征的功能性（因果性）角色。

与探针分类器不同，激活干预不仅回答”模型内部是否编码了信息X”，更回答”编码X的表征是否因果性地驱动模型行为”。

方法分类

1. 梯度引导修改（Li et al. 2022，OthelloGPT）

通过梯度下降，将某一层的激活修改为使探针预测反事实状态 B’ 的值：

x′ ← x − α ∂ℒ_CE(p_θ(x), B′)/∂x

适用场景：当有明确的”目标状态”（如某个棋盘配置）时，可精确施加因果干预。优点：可以测试模型对训练分布外（不可达）状态的响应。局限：需要多次迭代优化，干预后的激活可能偏离自然激活流形。

OthelloGPT 结果：干预后平均预测错误从 2.68 降至 0.12（合法棋位），证明棋盘表征对预测具有因果作用。

1b. 线性方向向量加法（Nanda et al. 2023，OthelloGPT 线性化）

Nanda et al. 发现，在正确的特征坐标系（Mine/Yours/Empty）下，只需将线性探针方向加入每层残差流即可实现等效干预：

x′ ← x + α · p^λ_d(x)

其中 $d \in \{\text{Mine}, \text{Yours}, \text{Empty}\}$ ， $p^\lambda_d$ 是对应方向的线性探针向量。

相比梯度干预的优势：

单次向量加法，无需迭代优化
更直接地揭示线性表征结构——干预向量就是探针向量本身
在”Erasing”（清除已下棋子）任务上错误率更低（0.02 vs 0.11）

理论意义：如果单次向量加法就能精确干预，说明表征本身就是线性的，干预方向等于特征方向。这验证了线性表征假说在世界模型表征中的适用性，也与 Park et al. (2023) 的嵌入表征理论直接对应。

→ 参见 Nanda et al. 源文件

2. 直接缓存替换（Activation Patching，Meng et al. 2022）

从一个”干净”运行和一个”受损”运行中缓存激活，将受损模型的特定层激活替换为干净激活，观察输出是否恢复：

h_i ← h_i^{clean}  (只替换第 i 层)

适用场景：事实编辑、定位哪一层/哪个注意力头负责特定知识。 代表工作：ROME（Meng et al.，ICLR 2023）用此方法定位事实记忆的存储层，发现 GPT 的”事实关联”主要存储在早中期 MLP 层。

3. 激活向量操控（Activation Steering，Zou et al. 2023 等）

在前向传播中加入特定方向的向量：

h_i ← h_i + α · v

其中 v 是通过对比两类输入（如”快乐/悲伤”句子）的激活差提取的”特征方向”。

适用场景：研究单个概念对模型行为的影响，情感/内容操控。 代表工作：Anthropic 的”内省意识”研究（通过概念注入研究自我觉察）；Zou et al. (2023) “Representation Engineering”。

与探针方法的关系

维度	探针分类器	激活干预
回答的问题	激活中是否编码了信息 X？	编码 X 的激活是否因果驱动输出？
操作	训练外部分类器	修改激活本身
证据强度	相关性	因果性
局限	可能反映虚假相关	干预可能离开自然激活流形

OthelloGPT 的方法论贡献之一：先用探针建立假设（“某层编码棋盘状态”），再用激活干预验证因果性——这一两步范式成为机制可解释性的标准流程。

在符号 vs 联结主义问题中的意义

激活干预是检验”联结主义系统是否真正持有符号结构”的关键工具：

探针只是观察：表征可能”存在”但不被使用
激活干预证明表征是功能性的——它真的在驱动计算
OthelloGPT 的干预结果（包括对不可达棋盘状态的有效干预）表明：模型内部持有的不是记忆的模式，而是可组合的结构性表征

当前局限

流形偏离：修改后的激活可能落在”自然激活流形”之外，导致模型行为变得不可预测
多义性：同一激活向量可能同时编码多个特征，孤立干预难以分离
层级依赖：干预早期层会影响后续所有层，难以精确归因
泛化性存疑：在特定输入上有效的干预不一定泛化到所有输入

References

Li et al. (2022)：“Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task”，ICLR 2023 → sources/arxiv_papers/2210.13382-emergent-world-representations-othello-gpt.md
Nanda et al. (2023)：“Emergent Linear Representations in World Models of Self-Supervised Sequence Models”，BlackboxNLP @ EMNLP 2023 → sources/arxiv_papers/2309.00941-emergent-linear-representations-world-models.md，Wiki 摘要：sources/2309.00941-emergent-linear-representations-world-models.md
Meng et al. (2022)：“Locating and Editing Factual Associations in GPT”（ROME）
Zou et al. (2023)：“Representation Engineering: A Top-Down Approach to AI Transparency”
sources/anthropic-emergent-introspective-awareness.md — 概念注入研究（激活干预思路的应用）

激活干预

激活干预（Activation Intervention）

定义

方法分类

1. 梯度引导修改（Li et al. 2022，OthelloGPT）

1b. 线性方向向量加法（Nanda et al. 2023，OthelloGPT 线性化）

2. 直接缓存替换（Activation Patching，Meng et al. 2022）

3. 激活向量操控（Activation Steering，Zou et al. 2023 等）

与探针方法的关系

在符号 vs 联结主义问题中的意义

当前局限

相关概念

References