The Linear Representation Hypothesis and the Geometry of Large Language Models
The Linear Representation Hypothesis
Park、Choe、Veitch(U Chicago / Google,ICML 2024)——LRH 的严格数学形式化
「线性表征假说」在经验上广为人知,但「线性表征」到底指什么?本文区分了三种不同直觉(子空间/测量/干预),用反事实变量形式化「概念」,提出因果内积——唯一使因果可分离概念在此内积下正交的内积,将三种直觉统一到同一数学框架。
The Linear Representation Hypothesis and the Geometry of Large Language Models
来源: sources/arxiv_papers/2311.03658-linear-rep-hypothesis.md
URL: https://arxiv.org/abs/2311.03658
作者: Kiho Park、Yo Joong Choe、Victor Veitch(University of Chicago / Google)
发表时间: 2023-11-07(ICML 2024 录用)
论文核心问题
“线性表征假说”(LRH)是一个广泛流传的经验观察,但几乎没有人认真问过:“线性表征”到底是什么意思?
LRH 实际上对应着至少三种不同的直觉:
- 子空间(Subspace):counterfactual 词对差值落在同一方向(如 “queen”-“king” 平行于 “woman”-“man”)
- 测量(Measurement):线性探针能预测概念值(是法语还是英语?)
- 干预(Intervention):沿方向向量修改激活可改变输出概念,而不影响其他概念
这三种直觉在什么条件下等价?又应该用什么几何结构来衡量方向间的相似性?Park et al. 给出了迄今最严格的回答。
核心贡献
1. 概念的反事实形式化
用反事实变量(counterfactual)形式化”概念”:概念 是一个潜变量,由上下文 引起,同时作为输出 的原因。两个概念因果可分离(causally separable)当且仅当它们可以独立变化(如语言和性别可以各自独立切换,但”法语→英语”和”法语→俄语”不能同时成立)。
2. 三种表征的数学连接
| 表征类型 | 空间 | 定义方式 | 连接定理 |
|---|---|---|---|
| 非嵌入表征(Unembedding) | 输出词向量空间 | counterfactual 词对差值方向 | 连接到测量(Thm 2.2) |
| 嵌入表征(Embedding) | 上下文激活空间 | 仅改变目标概念的上下文对差值方向 | 连接到干预(Thm 2.5) |
| 因果内积统一(Causal IP) | 变换后的统一空间 | 因果内积下二者重合 | Riesz 同构(Thm 3.2) |
核心定理链:非嵌入表征 → 测量表征(线性探针);嵌入表征 → 干预表征(steering vector);因果内积将两者统一到同一方向。
3. 因果内积(Causal Inner Product)
普通欧氏内积对于 LLM 表征空间而言没有语义意义——因为模型参数仅由 softmax 概率确定,表征空间存在任意可逆线性变换的不可辨性。
Park et al. 提出的因果内积是唯一满足以下条件的内积:
因果可分离的概念在此内积下正交。
即如果”语言”和”性别”是独立的概念,它们的方向向量在因果内积下的内积为零。
其显式形式(在合理假设下):
其中 是均匀采样词汇的非嵌入向量, 是词汇非嵌入矩阵的协方差逆矩阵。
实验结果(LLaMA-2 7B)
- 27 个概念(BATS 3.0 词类比数据集 + 语言对)的非嵌入表征验证:counterfactual 词对差值高度对齐 → LRH 成立(仅 “thing⇒part” 一个例外)
- 因果内积下因果可分离概念近似正交:block diagonal 结构清晰,块对应语义相似概念组
- 概念方向作为线性探针:非嵌入表征方向 对上下文分类的准确率远超随机
- 干预实验:沿概念方向修改激活()可将 “king” 改为 “queen”,同时不影响大小写概念
关键词与关联概念
- 线性表征假说 — 本文是 LRH 的严格形式化
- 因果内积 — 本文核心创新
- 探针分类器 — 测量表征的实验工具;本文证明子空间表征 ≡ 线性探针方向
- 机制可解释性 — 上位研究领域
- 时空世界模型 — Gurnee & Tegmark 的经验验证与本文形式化互为补充
References
sources/arxiv_papers/2311.03658-linear-rep-hypothesis.md