Emergent Introspective Awareness in Large Language Models

LLM 内省能力研究：概念注入、思维检测、自我觉察

源

源头 · INTROSPECTION · Anthropic Transformer Circuits · 2025

LLM 的涌现内省觉察

用「概念注入」探测模型对自身内部状态的有限但真实的觉察能力

核心方法——把已知概念的激活模式注入模型内部，观察它能否检测、识别并报告被注入的状态。Opus 4/4.1 在最佳层/强度下约 20% 成功率——失败仍是常态，但足以证明「内省能力随模型能力涌现」。

注入思维检测 ~20%

告知模型「可能有人工思维被注入」，观察能否识别——Opus 4.1 在最佳层最佳强度下达到约 20% 成功率

思维 vs 文本区分显著

能否同时转录输入文本并报告被注入的「思维」？所有模型均显著高于随机——说明对「这不是输入」有内部表征

非意图输出检测可控

预填充非自然回复后——模型能通过回看自身激活来判断「这不是我说的」；而注入相应概念向量后，它会接受预填充为自主产生

内部状态控制全面

指令模型「想着某词」写句子——所有模型在指令「想」时激活增强、「不想」时减弱。表明能主动调制内部状态

→ mechanistic-interpretability · agentic-systems · anthropictransformer-circuits.pub (2025)

研究 LLM 是否具有对自身内部状态的觉察能力。通过”概念注入”（concept injection）技术——将已知概念的激活模式注入模型内部——测试模型能否检测、识别和报告被注入的内部状态。发现当前模型（尤其 Claude Opus 4 和 4.1）具有有限但真实的内省能力。

四项实验，逐步深入：

虽然本文关注基础科学，但发现对 agent 系统有间接意义：