心 智 七 篇 · Seven Mental Models
← Knowledge Atlas · 实体

Wes Gurnee

Wes Gurnee:MIT 可解释性研究者,稀疏探针方法和 LLM 时空表征研究的核心贡献者
实体 · WES GURNEE · MIT · LLM 可解释性 · 时空世界模型 · 稀疏探针

Wes Gurnee

MIT 可解释性研究员——大规模实证 + 线性探针 + 因果干预的系统验证方法

Gurnee 与 Max Tegmark 合作,以 6 个时空数据集(累计 >18 万样本)系统证明 Llama-2 内部存在真实世界地理坐标和历史时间坐标的线性表征,并定位了个体「空间神经元」和「时间神经元」——空间探针 R²=0.911,时间探针 R²=0.835。

时空表征关键结果(Llama-2 系列)
R² = 0.911空间表征地理坐标线性探针——6 个空间数据集验证
R² = 0.835时间表征历史时间坐标线性探针——年代序列验证
神经元消融验证因果性——干预「空间神经元」改变空间预测,证明非相关性而是因果作用
研究方法特征
大规模数据集
18 万+ 样本,6 个时空数据集——反对小样本个案分析
全层探针扫描
对所有 transformer 层做线性探针——识别表征的层次分布
稀疏探针(2023)
Finding Neurons in a Haystack——用极少数神经元定位编码特定信息的位置
→ Spatiotemporal World Model · Linear Representation · Max TegmarkICLR 2024 arXiv:2310.02207

Wes Gurnee

机构: 麻省理工学院(MIT) 研究方向: LLM 可解释性、神经网络内部表征、稀疏探针

主要贡献

Wes Gurnee 是 LLM 可解释性领域的核心研究者之一。

Language Models Represent Space and Time(2023)

Max Tegmark 合作,发表于 ICLR 2024。首次系统证明 Llama-2 在内部形成了真实世界地理坐标和历史时间坐标的线性表征,并定位了个体”空间神经元”和”时间神经元”。

详见:时空世界模型线性表征假说

Finding Neurons in a Haystack(2023)

提出稀疏探针方法,通过极少数神经元定位模型内部编码的特定信息(如性别、职业、年份)。

研究风格

倾向于构建大规模实证数据集,结合线性探针与因果干预进行系统验证,而非理论先行。代表性方法:构建 6 个时空数据集(累计 >18 万样本)+ 全层探针扫描 + 神经元消融验证。

References

  • sources/arxiv_papers/2310.02207-language-models-represent-space-and-time.md