心 智 七 篇 · Seven Mental Models
← Knowledge Atlas · 源头

The Linear Representation Hypothesis and the Geometry of Large Language Models

Park、Choe、Veitch (ICML 2024):LRH 严格反事实形式化,因果内积统一子空间/测量/干预三种表征,LLaMA-2 实验验证
来源 · PARK CHOE VEITCH · ICML 2024 · LRH 严格形式化 · 因果内积

The Linear Representation Hypothesis

Park、Choe、Veitch(U Chicago / Google,ICML 2024)——LRH 的严格数学形式化

「线性表征假说」在经验上广为人知,但「线性表征」到底指什么?本文区分了三种不同直觉(子空间/测量/干预),用反事实变量形式化「概念」,提出因果内积——唯一使因果可分离概念在此内积下正交的内积,将三种直觉统一到同一数学框架。

三种线性表征直觉
子空间(Subspace)反事实词对差值落在同一方向:queen-king ∥ woman-man
测量(Measurement)线性探针能预测概念值:这是法语还是英语?
干预(Intervention)沿方向向量修改激活改变目标概念而不影响其他
因果内积的核心性质
定义
唯一满足「因果可分离概念正交」条件的内积
形式
⟨γ̄, γ̄’⟩_C = γ̄ᵀ Cov(γ)⁻¹ γ̄’(词汇非嵌入协方差逆加权)
LLaMA-2 7B 验证
27 个概念的 block diagonal 结构——语义相似概念同块,因果可分离概念近似正交
为何普通欧氏内积无效
LLM 激活空间存在任意可逆线性变换的不可辨性——欧氏距离无语义意义
→ Linear Representation Hypothesis · Mechanistic InterpretabilityICML 2024 arXiv:2311.03658

The Linear Representation Hypothesis and the Geometry of Large Language Models

来源: sources/arxiv_papers/2311.03658-linear-rep-hypothesis.md URL: https://arxiv.org/abs/2311.03658 作者: Kiho Park、Yo Joong Choe、Victor Veitch(University of Chicago / Google) 发表时间: 2023-11-07(ICML 2024 录用)


论文核心问题

“线性表征假说”(LRH)是一个广泛流传的经验观察,但几乎没有人认真问过:“线性表征”到底是什么意思?

LRH 实际上对应着至少三种不同的直觉:

  1. 子空间(Subspace):counterfactual 词对差值落在同一方向(如 “queen”-“king” 平行于 “woman”-“man”)
  2. 测量(Measurement):线性探针能预测概念值(是法语还是英语?)
  3. 干预(Intervention):沿方向向量修改激活可改变输出概念,而不影响其他概念

这三种直觉在什么条件下等价?又应该用什么几何结构来衡量方向间的相似性?Park et al. 给出了迄今最严格的回答。


核心贡献

1. 概念的反事实形式化

反事实变量(counterfactual)形式化”概念”:概念 WW 是一个潜变量,由上下文 XX 引起,同时作为输出 YY 的原因。两个概念因果可分离(causally separable)当且仅当它们可以独立变化(如语言和性别可以各自独立切换,但”法语→英语”和”法语→俄语”不能同时成立)。

2. 三种表征的数学连接

表征类型空间定义方式连接定理
非嵌入表征(Unembedding)输出词向量空间 Γ\Gammacounterfactual 词对差值方向连接到测量(Thm 2.2)
嵌入表征(Embedding)上下文激活空间 Λ\Lambda仅改变目标概念的上下文对差值方向连接到干预(Thm 2.5)
因果内积统一(Causal IP)变换后的统一空间因果内积下二者重合Riesz 同构(Thm 3.2)

核心定理链:非嵌入表征 → 测量表征(线性探针);嵌入表征 → 干预表征(steering vector);因果内积将两者统一到同一方向。

3. 因果内积(Causal Inner Product)

普通欧氏内积对于 LLM 表征空间而言没有语义意义——因为模型参数仅由 softmax 概率确定,表征空间存在任意可逆线性变换的不可辨性。

Park et al. 提出的因果内积是唯一满足以下条件的内积:

因果可分离的概念在此内积下正交。

即如果”语言”和”性别”是独立的概念,它们的方向向量在因果内积下的内积为零。

其显式形式(在合理假设下): γˉ,γˉC:=γˉCov(γ)1γˉ\langle \bar{\gamma}, \bar{\gamma}' \rangle_C := \bar{\gamma}^\top \mathrm{Cov}(\gamma)^{-1} \bar{\gamma}'

其中 γ\gamma 是均匀采样词汇的非嵌入向量,Cov(γ)1\mathrm{Cov}(\gamma)^{-1} 是词汇非嵌入矩阵的协方差逆矩阵。


实验结果(LLaMA-2 7B)

  • 27 个概念(BATS 3.0 词类比数据集 + 语言对)的非嵌入表征验证:counterfactual 词对差值高度对齐 → LRH 成立(仅 “thing⇒part” 一个例外)
  • 因果内积下因果可分离概念近似正交:block diagonal 结构清晰,块对应语义相似概念组
  • 概念方向作为线性探针:非嵌入表征方向 γˉW\bar{\gamma}_W 对上下文分类的准确率远超随机
  • 干预实验:沿概念方向修改激活(λλ+αλˉW\lambda \leftarrow \lambda + \alpha\bar{\lambda}_W)可将 “king” 改为 “queen”,同时不影响大小写概念

关键词与关联概念


References

  • sources/arxiv_papers/2311.03658-linear-rep-hypothesis.md