← Knowledge Atlas · 概念

启发式规则集合（Bag of Heuristics）

启发式规则集合：LLM 用局部位置特异规则聚合实现结构化任务，表征准确与算法统一的独立性，jylin04 MATS 2024 发现

念

概念 · BAG OF HEURISTICS · 机制可解释性

启发式规则集合

Bag of Heuristics — 无统一算法的分散实现

模型不是实现了一个统一可组合的算法，而是积累了大量局部的、位置特异的 if-then 规则，其聚合效果在宏观上近似”世界模型”——但没有任何中央协调机制。

MLP 神经元 L1N421 的具体规则（OthelloGPT）

IF 刚落子 A4AND B4 非空（L0N377 判断）AND C4 非空→ 将 B4+C4+D4 更新为”对方”

位置特异：不可平移局部性：仅 A-D 列独立性：不共享参数

算法统一Bag of Heuristics

表征准确理想世界模型← OthelloGPT 实际情况

表征不准执行错误两者皆无

泛化性担忧：局部规则集合在训练分布内工作良好，但在稀有/新颖配置下更可能失败——benchmark 优秀不意味着底层算法健全。

→ Othello 世界模型 · 机制可解释性 · 探针分类器jylin04 MATS 6.0 (2024)

启发式规则集合（Bag of Heuristics）

定义

“启发式规则集合”（Bag of Heuristics）是 jylin04 (2024) 在 MATS 6.0 的机制可解释性分析中提出的概念，描述的是一类神经网络解决结构化任务的方式：

模型不是实现了一个统一的、可组合的算法来解决任务，而是积累了大量局部的、位置特异性的、彼此独立的 if-then 规则，这些规则的聚合效果在宏观上近似于一个”世界模型”。

这一概念来源于对 OthelloGPT 的深度电路追踪分析，但其含义对更广泛的 LLM 能力理解有重要影响。

来源：OthelloGPT 的案例

jylin04 (2024) 对 Li et al. (2022) 的 OthelloGPT（8 层 GPT，Othello 着手序列训练）进行了深度机制可解释性分析。

已发现的局部规则案例（MLP 神经元 L1N421）：

IF 刚刚落子 A4
AND B4 非空（由 L0N377 判断）
AND C4 非空
→ 将 B4+C4+D4 更新为"对方"

关键特性：

位置特异：这条规则不能平移到棋盘其他位置
局部性：只涉及棋盘 A-D 列的一小段区域
独立性：与其他类似规则并列，彼此不共享参数

研究者发现了许多这样的神经元，而没有找到一个描述长度短的统一翻转算法。

核心区分：表征准确性 vs 算法统一性

Bag of Heuristics 概念揭示了一个重要的二维空间：

	算法统一	算法分散（Bag of Heuristics）
表征准确	理想世界模型	OthelloGPT 的实际情况
表征不准确	算法存在但执行错误	既没有表征也没有算法

探针类研究（Li et al., Nanda et al., Yuan & Søgaard）回答左侧问题（表征是否准确）。机制可解释性研究（MATS）回答上侧问题（算法是否统一）。两个维度可以独立变化。

对”世界模型”主张的影响

探针和表征对齐研究证明了”表征准确”；Bag of Heuristics 发现证明”算法分散”。这产生了一个哲学上有趣的情况：

一个模型可以同时：

以 99% 精度追踪棋盘状态
没有任何实现这种追踪的统一算法

这并不是矛盾——许多独立的局部规则可以密集到足以近似全局状态追踪，即使没有一个中央协调机制。

注意：nostalgebraist（LessWrong 评论者）指出，“启发式规则集合”本身可能就是世界模型的一种实现方式——世界模型不必是紧致的算法才能有效工作。

泛化性担忧

Bag of Heuristics 结构引出了一个重要的泛化性问题：

局部规则集合在训练分布内可能工作良好，但在稀有/新颖配置下更可能失败。

如果模型没有学到”A5 的规则”（因为 A5 场景稀少），那么 A5 相关的棋盘状态追踪就会错误
一个真正的统一算法可以泛化到所有位置；一袋位置特异规则只能覆盖已见过的模式

这对 LLM 推理能力的现实评估有直接影响：benchmark 表现良好不意味着底层算法健全，可能只是训练数据覆盖了所有 benchmark 需要的局部模式。

与其他 MI 发现的关系

Bag of Heuristics 并非 OthelloGPT 特有的怪象。相关发现包括：

算术中的 Bag of Heuristics（Abbe et al., 2024）：语言模型用一袋启发式方法解算术题，而非实现通用算法
电路间的多元性：Anthropic 的电路追踪研究也发现不同 prompt 激活不同的特征子图，暗示没有单一的”事实检索算法”
注意力头专化：Mine-Head/Yours-Head 分化本身是功能专化的证据，但多个专化头的组合仍可能是 bag 而非 unified circuit

对符号 vs 联结主义问题的贡献

Bag of Heuristics 为这一争论贡献了一个重要的中间立场：

强符号主义：模型学到了可组合的符号规则
强联结主义：模型是不透明的函数近似器
Bag of Heuristics：模型学到了许多局部、位置特异的规则，这些规则是”小符号”的集合，但不构成”大算法”

这不是符号主义的胜利，也不是联结主义的胜利——而是表明规则性和组合性可以在不同粒度上独立出现。

References

jylin04 (2024)：“OthelloGPT Learned a Bag of Heuristics”，AI Alignment Forum → sources/othellogpt-bag-of-heuristics-jylin04-mats2024.md，Wiki 摘要：sources/othellogpt-bag-of-heuristics-mats2024.md
Li et al. (2022)：sources/arxiv_papers/2210.13382-emergent-world-representations-othello-gpt.md
Yuan & Søgaard (2025)：sources/arxiv_papers/2503.04421-revisiting-othello-world-model-hypothesis.md

启发式规则集合

启发式规则集合（Bag of Heuristics）

定义

来源：OthelloGPT 的案例

核心区分：表征准确性 vs 算法统一性

对”世界模型”主张的影响

泛化性担忧

与其他 MI 发现的关系

对符号 vs 联结主义问题的贡献

相关概念

References