Wes Gurnee

Wes Gurnee：MIT 可解释性研究者，稀疏探针方法和 LLM 时空表征研究的核心贡献者

实

实体 · WES GURNEE · MIT · LLM 可解释性 · 时空世界模型 · 稀疏探针

MIT 可解释性研究员——大规模实证 + 线性探针 + 因果干预的系统验证方法

Gurnee 与 Max Tegmark 合作，以 6 个时空数据集（累计 >18 万样本）系统证明 Llama-2 内部存在真实世界地理坐标和历史时间坐标的线性表征，并定位了个体「空间神经元」和「时间神经元」——空间探针 R²=0.911，时间探针 R²=0.835。

时空表征关键结果（Llama-2 系列）

R² = 0.911空间表征地理坐标线性探针——6 个空间数据集验证

R² = 0.835时间表征历史时间坐标线性探针——年代序列验证

神经元消融验证因果性——干预「空间神经元」改变空间预测，证明非相关性而是因果作用

研究方法特征

大规模数据集

18 万+ 样本，6 个时空数据集——反对小样本个案分析

全层探针扫描

对所有 transformer 层做线性探针——识别表征的层次分布

稀疏探针（2023）

Finding Neurons in a Haystack——用极少数神经元定位编码特定信息的位置

→ Spatiotemporal World Model · Linear Representation · Max TegmarkICLR 2024 arXiv:2310.02207

机构： 麻省理工学院（MIT） 研究方向： LLM 可解释性、神经网络内部表征、稀疏探针

主要贡献

Wes Gurnee 是 LLM 可解释性领域的核心研究者之一。

与 Max Tegmark 合作，发表于 ICLR 2024。首次系统证明 Llama-2 在内部形成了真实世界地理坐标和历史时间坐标的线性表征，并定位了个体”空间神经元”和”时间神经元”。

提出稀疏探针方法，通过极少数神经元定位模型内部编码的特定信息（如性别、职业、年份）。

倾向于构建大规模实证数据集，结合线性探针与因果干预进行系统验证，而非理论先行。代表性方法：构建 6 个时空数据集（累计 >18 万样本）+ 全层探针扫描 + 神经元消融验证。