心 智 七 篇 · Seven Mental Models
← Knowledge Atlas · 实体

Neel Nanda

Neel Nanda:Google DeepMind 可解释性研究者,TransformerLens 作者,MATS 导师,机制可解释性领域核心建设者
实体 · NEEL NANDA · Google DeepMind · TransformerLens · MATS · 机制可解释性

Neel Nanda

Google DeepMind 可解释性研究员——机制可解释性领域的核心基础设施建设者

Nanda 开发了 TransformerLens——MI 领域最广泛使用的开源工具库,提供干净的 hook API 和残差流分解支持。他主导 MATS(ML Alignment Theory Scholars)研究训练计划,同时对 OthelloGPT 的表征研究作出关键贡献:发现正确的特征坐标系(MINE/YOURS/EMPTY)使线性探针准确率从 ~75% 跃升至 ~99%。

核心贡献
TransformerLensMI 领域标准工具库——hook API 可在任意位置读取/修改激活,支持残差流分解、注意力模式分析
MATS 研究训练计划密集 MI 研究项目——jylin04 的 OthelloGPT「Bag of Heuristics」即来自 MATS 6.0(2024 夏)
OthelloGPT 线性化(2023)与 Lee、Wattenberg 合作——MINE/YOURS/EMPTY 坐标系修正,线性探针从 ~75% 跃升至 ~99%
方法论洞察
坐标系问题
Li et al. 非线性探针结论的根源是错误的特征坐标系,而非表征本身的非线性
干预简洁性
提出单次线性向量加法干预法——比 Li et al. 的梯度迭代干预更简洁有效
Grokking 研究
对小型 transformer 玩具任务(模块加法)的电路分析,发现算法相变和 grokking 现象
→ Mechanistic Interpretability · Othello World Model · Linear RepresentationBlackboxNLP @ EMNLP 2023

Neel Nanda

领域:机制可解释性(Mechanistic Interpretability) 机构:Google DeepMind(可解释性团队);前 Anthropic 角色:MATS(ML Alignment Theory Scholars)项目导师,机制可解释性研究者


主要贡献

TransformerLens(开源库)

Neel Nanda 开发了 TransformerLens(前身 EasyTransformer),是机制可解释性研究领域最广泛使用的开源工具库。提供:

  • 干净的 hook API,可在任意位置读取/修改激活
  • 预训练模型库
  • 支持残差流分解、注意力模式分析等 MI 核心操作

MATS 项目

MATS(ML Alignment Theory Scholars)是 Neel Nanda 主导的研究训练计划,每期招募研究生和研究者进行密集的机制可解释性研究。jylin04 的 OthelloGPT 分析(“Bag of Heuristics”)即来自 MATS 6.0(2024 年夏季)。

OthelloGPT 线性表征(2023)

与 Andrew Lee、Martin Wattenberg 合作,发表”Emergent Linear Representations in World Models of Self-Supervised Sequence Models”(BlackboxNLP @ EMNLP 2023)。

核心发现:Li et al. (2022) 认为 OthelloGPT 使用非线性探针,Nanda et al. 找到了问题根源——错误的特征坐标系。用 Mine/Yours/Empty(相对行棋方)代替 Black/White/Empty(绝对颜色)后,线性探针准确率从 ~75% 跃升至 ~99%。同时提出单次线性向量加法干预法,比 Li et al. 的梯度迭代干预更简洁。

→ Wiki 摘要:sources/2309.00941-emergent-linear-representations-world-models.md

模块化性与玩具任务研究

Neel Nanda 及其合作者对小型 transformer 在玩具任务(如 modular addition)上的电路进行了系统研究,发现”小要塞(grokking)“现象和算法发现的相变过程。


与 OthelloGPT 研究的关系

jylin04 (2024) 的 OthelloGPT Bag of Heuristics 分析是 MATS 6.0 的产物,由 Neel Nanda 指导。Nanda 在自己的工作中也使用了 OthelloGPT 数据集——他与合作者的研究发现了 Othello 世界模型假说的线性化版本(MINE/YOURS/EMPTY 标注方案),这成为假说演化中的 Nanda et al. (2023) 那篇。


相关概念

References

  • Nanda et al. (2023):“Emergent Linear Representations in World Models of Self-Supervised Sequence Models”(BlackboxNLP @ EMNLP 2023)→ sources/arxiv_papers/2309.00941-emergent-linear-representations-world-models.md,Wiki 摘要:sources/2309.00941-emergent-linear-representations-world-models.md
  • jylin04 (2024):“OthelloGPT Learned a Bag of Heuristics”(MATS 6.0)→ sources/othellogpt-bag-of-heuristics-jylin04-mats2024.md