实
Wes Gurnee
MIT 可解释性研究员——大规模实证 + 线性探针 + 因果干预的系统验证方法
Gurnee 与 Max Tegmark 合作,以 6 个时空数据集(累计 >18 万样本)系统证明 Llama-2 内部存在真实世界地理坐标和历史时间坐标的线性表征,并定位了个体「空间神经元」和「时间神经元」——空间探针 R²=0.911,时间探针 R²=0.835。
时空表征关键结果(Llama-2 系列)
R² = 0.911空间表征地理坐标线性探针——6 个空间数据集验证
R² = 0.835时间表征历史时间坐标线性探针——年代序列验证
神经元消融验证因果性——干预「空间神经元」改变空间预测,证明非相关性而是因果作用
研究方法特征 大规模数据集 18 万+ 样本,6 个时空数据集——反对小样本个案分析 全层探针扫描 对所有 transformer 层做线性探针——识别表征的层次分布 稀疏探针(2023) Finding Neurons in a Haystack——用极少数神经元定位编码特定信息的位置
→ Spatiotemporal World Model · Linear Representation · Max TegmarkICLR 2024 arXiv:2310.02207
Wes Gurnee
机构: 麻省理工学院(MIT) 研究方向: LLM 可解释性、神经网络内部表征、稀疏探针
主要贡献
Wes Gurnee 是 LLM 可解释性领域的核心研究者之一。
Language Models Represent Space and Time(2023)
与 Max Tegmark 合作,发表于 ICLR 2024。首次系统证明 Llama-2 在内部形成了真实世界地理坐标和历史时间坐标的线性表征,并定位了个体”空间神经元”和”时间神经元”。
Finding Neurons in a Haystack(2023)
提出稀疏探针方法,通过极少数神经元定位模型内部编码的特定信息(如性别、职业、年份)。
研究风格
倾向于构建大规模实证数据集,结合线性探针与因果干预进行系统验证,而非理论先行。代表性方法:构建 6 个时空数据集(累计 >18 万样本)+ 全层探针扫描 + 神经元消融验证。
References
sources/arxiv_papers/2310.02207-language-models-represent-space-and-time.md