心 智 七 篇 · Seven Mental Models
← Knowledge Atlas · 源头

Yuan & Søgaard (2025):重访 Othello 世界模型假说

Yuan & Søgaard (ICLR 2025):7 个 LLM 的 Othello 实验,99% 无监督接地精度,跨架构表征对齐 93–96%,世界模型假说的最强证据,但 2-hop 规划退化
来源 · YUAN & SØGAARD · ICLR 2025 · OthelloGPT 重访 · 跨架构对齐

Revisiting the Othello World Model Hypothesis

Yuan & Søgaard(哥本哈根大学,ICLR 2025)——跨架构 Procrustes 对齐验证世界模型假说

将 OthelloGPT 实验扩展到 7 个 LLM(GPT-2、T5、Bart、Flan-T5、Mistral、LLaMA-2、Qwen2.5),用 Procrustes 表征对齐替代探针:无监督对齐精度达 96.1%——不同架构在序列预测压力下收敛到了相同的底层表征吸引子。但发现关键局限:2-hop 连续预测显著退化。

跨架构对齐结果
有监督对齐(GPT-2 → Bart)93.1% 余弦相似度
无监督对齐(Bart → Mistral)96.1% 余弦相似度
7 个模型:解码器(GPT-2, Mistral)+ 编码器-解码器(T5, Bart)均收敛到相同表征吸引子
关键张力与解读
2-hop 退化
1-hop 着手预测近乎完美,2-hop 显著退化——棋盘表征精度 ≠ 战略规划能力
与 jylin04 的关系
MATS「Bag of Heuristics」:表征可以精确,但计算表征的机制仍然是分布式启发式规则聚合——两个层次的问题
空间关系结构
潜在着手投影:预测的前 5 合法着手在嵌入空间中与目标格的空间相邻格最近——不仅学规则,还学棋盘几何
方法优越性
Procrustes 对齐揭示全局表征组织,而非单一特征的存在性——比探针更强的方法论
→ Othello World Model Hypothesis · World Models · Neel NandaICLR 2025 arXiv:2503.04421

Yuan & Søgaard (2025):重访 Othello 世界模型假说

来源sources/arxiv_papers/2503.04421-revisiting-othello-world-model-hypothesis.md 原始 URLhttps://arxiv.org/abs/2503.04421 作者:Yifei Yuan, Anders Søgaard(哥本哈根大学) 发表:2025-03-06,ICLR 2025


摘要

本文是对 Li et al. (2023) “Othello 世界模型假说”的系统性重访。该假说认为:GPT-2 等序列模型在仅接受棋局着手序列训练后,能够在内部涌现出对棋盘状态的表征——即一种隐式的”世界模型”。

Yuan & Søgaard 将实验规模扩展到七个 LLM(GPT-2、T5、Bart、Flan-T5、Mistral、LLaMA-2、Qwen2.5),并以比探针更强的方法论(跨模型表征对齐)验证假说,结论是:所有模型都达到高达 99% 的无监督接地精度,且学到的棋盘特征跨架构高度相似。


核心发现

1. 七模型全部涌现棋盘表征

无论解码器(GPT-2、Mistral)还是编码器-解码器(T5、Bart),无论预训练还是非预训练变体,所有模型都能在足够数据下学会 Othello 着手预测,并诱导出棋盘布局。

2. 跨架构表征对齐高达 93–96%

关键方法创新:用 Procrustes 表征对齐(来自跨语言嵌入研究)替代探针。在两个模型分别处理相同序列后,学一个线性映射 W 使两模型的最终隐层表征对齐。

  • 有监督对齐(GPT-2 → Bart):93.1% 余弦相似度
  • 无监督对齐(Bart → Mistral):96.1% 余弦相似度

这说明不同架构在序列预测压力下收敛到了相同的底层表征吸引子

3. 99% 精度 vs. 浅层序列预测的张力

  • 1-hop 着手预测:近乎完美(near-perfect)
  • 2-hop 连续着手预测:显著退化

棋盘状态表征精度 ≠ 战略深度。 结构性世界模型不自动蕴含规划能力。

4. 潜在着手投影揭示空间关系

通过将隐层特征投影到视觉空间,模型预测的前5合法着手在嵌入空间中与目标格的空间相邻格最为相近——表明模型不仅学习游戏规则,还学习了棋盘的空间关系结构


方法论贡献

方法优于探针之处
Procrustes 表征对齐揭示跨模型全局信息组织,而非单一特征的存在性
无监督对齐(对抗训练+Procrustes 精炼)无需平行标注数据
2-hop 生成评估区分棋盘表征与战略规划能力
潜在着手投影展示空间关系编码,探针无法触及

对相关概念的影响

与 Li et al. (2022) 的关系

Yuan & Søgaard 在方法上更进一步:原始 OthelloGPT 用非线性探针和因果干预证明表征存在;本文用跨模型对齐证明这一表征是跨架构收敛的,且有空间结构。假说的证据链更坚实。

与 jylin04 (2024) MATS 分析的张力

MATS 分析认为 OthelloGPT 学到的是”启发式规则的集合”而非统一算法。Yuan & Søgaard 的发现(高精度、跨架构收敛)并不直接反驳这一点——表征可以是准确的,而计算该表征的机制仍然是分布式的启发式规则集合。两个层次的问题不同:

  • “表征是什么”(本文回答:精确的棋盘状态)
  • “表征如何被计算”(MATS 回答:局部启发式规则聚合)

相关资源

  • 原始 OthelloGPT:Li et al. (2022) → sources/arxiv_papers/2210.13382-emergent-world-representations-othello-gpt.md
  • MATS 机制分析:jylin04 (2024) → sources/othellogpt-bag-of-heuristics-jylin04-mats2024.md

关键概念链接

References