SWE-Bench

SWE-Bench：AI 编码 agent 的标准评测基准

实

实体 · SWE-BENCH · Princeton NLP · 编码 Agent 事实标准 · 单 Issue → 单 PR

SWE-Bench

Princeton NLP Group 发布的 AI 编码 agent 评估基准——从真实 GitHub issue 构造任务

SWE-Bench 以「单个 GitHub issue → 单个 PR → FAIL→PASS 测试验证」作为任务单元，已成为编码 agent 的事实标准。截至 2025–2026，前沿模型（GPT-5.2）在 Verified 子集上达到 ~72.8%，排行榜增长趋于平缓，推动了更长程基准的出现。

SWE-Bench vs SWE-EVO

维度

SWE-Bench

SWE-EVO

任务粒度

单个 issue / PR

版本间 release notes

文件范围

通常 1–2 个文件

平均 21 个文件

测试量

几个测试

平均 874 个测试

最好成绩

~72.8%（GPT-5.2）

~25%（饱和时对比）

基准设计

输入格式

GitHub issue 描述 + 对应仓库代码快照

评估标准

FAIL→PASS 测试全部通过 + PASS→PASS 测试无回归

饱和信号

72.8% 的饱和推动了 SWE-EVO 等长程基准的出现——单步能力无法外推到多步任务

→ Software Evolution Benchmark · Error Cascade · OpenHandsSWE-EVO arXiv:2512.18470

SWE-Bench

简介

SWE-Bench 是由 Princeton NLP Group 发布的 AI 编码 agent 评估基准，从真实 GitHub issue 和对应的 pull request 中构造任务。Agent 需要为给定的 issue 生成可通过测试验证的补丁。

SWE-Bench 已成为评估编码 agent 的事实标准，其 Verified 子集（SWE-Bench Verified）是最常用的排行榜。

核心设计

输入：一个 GitHub issue 描述 + 对应仓库的代码快照
输出：一个 patch 文件
评估：FAIL→PASS 测试全部通过 + PASS→PASS 测试无回归
范围：单个 issue → 单个 PR → 通常涉及 1-2 个文件

当前水平与饱和迹象

截至 2025-2026，前沿模型在 SWE-Bench Verified 上已达到 ~72.8%（GPT-5.2），排行榜增长趋于平缓。这种饱和推动了更具挑战性的评估基准的出现，如 SWE-EVO。

与 SWE-EVO 的对比

SWE-EVO 从 SWE-Bench 继承了仓库和执行环境（便于现有 agent 直接跑），但将任务从”单 issue 修复”升级为”版本间演进”：

维度	SWE-Bench	SWE-EVO
任务粒度	单个 issue/PR	版本间 release notes（多 PR）
文件范围	通常 1-2 个文件	平均 21 个文件
测试量	几个	平均 874 个
最好成绩	72.8%	25%

这个差距揭示了误差级联效应——单步能力无法线性外推到多步任务。

在 wiki 中的角色

SWE-Bench 是本 wiki 讨论 long-running agents 和 software evolution benchmark 时的主要对照基线。它代表了”单步 agent 能力”的量化标杆。

References

sources/arxiv_papers/2512.18470-swe-evo.md