Seven Mental · 心智七篇
← Knowledge Atlas · Entity

SWE-Bench

SWE-Bench:AI 编码 agent 的标准评测基准
ENTITY · SWE-BENCH · PRINCETON NLP · DE FACTO STANDARD FOR CODING AGENTS · SINGLE ISSUE → SINGLE PR

SWE-Bench

AI coding-agent benchmark from Princeton NLP Group — tasks constructed from real GitHub issues

SWE-Bench uses “one GitHub issue → one PR → FAIL→PASS test verification” as its task unit and has become the de facto standard for coding agents. By 2025–2026, frontier models (GPT-5.2) reach ~72.8% on the Verified subset; leaderboard growth has flattened, prompting the emergence of longer-horizon benchmarks.

SWE-Bench vs. SWE-EVO
Dimension
SWE-Bench
SWE-EVO
Task granularity
Single issue / PR
Inter-version release notes
File scope
Typically 1–2 files
Average 21 files
Test count
A few tests
Average 874 tests
Top score
~72.8% (GPT-5.2)
~25% (at saturation)
Benchmark Design
Input Format
GitHub issue description + snapshot of the corresponding repository
Evaluation Criterion
All FAIL→PASS tests pass + no regression on PASS→PASS tests
Saturation Signal
Saturation at 72.8% prompted longer-horizon benchmarks like SWE-EVO — single-step ability does not extrapolate to multi-step tasks
→ Software Evolution Benchmark · Error Cascade · OpenHandsSWE-EVO arXiv:2512.18470

SWE-Bench

简介

SWE-Bench 是由 Princeton NLP Group 发布的 AI 编码 agent 评估基准,从真实 GitHub issue 和对应的 pull request 中构造任务。Agent 需要为给定的 issue 生成可通过测试验证的补丁。

SWE-Bench 已成为评估编码 agent 的事实标准,其 Verified 子集(SWE-Bench Verified)是最常用的排行榜。

核心设计

  • 输入:一个 GitHub issue 描述 + 对应仓库的代码快照
  • 输出:一个 patch 文件
  • 评估:FAIL→PASS 测试全部通过 + PASS→PASS 测试无回归
  • 范围:单个 issue → 单个 PR → 通常涉及 1-2 个文件

当前水平与饱和迹象

截至 2025-2026,前沿模型在 SWE-Bench Verified 上已达到 ~72.8%(GPT-5.2),排行榜增长趋于平缓。这种饱和推动了更具挑战性的评估基准的出现,如 SWE-EVO

与 SWE-EVO 的对比

SWE-EVO 从 SWE-Bench 继承了仓库和执行环境(便于现有 agent 直接跑),但将任务从”单 issue 修复”升级为”版本间演进”:

维度SWE-BenchSWE-EVO
任务粒度单个 issue/PR版本间 release notes(多 PR)
文件范围通常 1-2 个文件平均 21 个文件
测试量几个平均 874 个
最好成绩72.8%25%

这个差距揭示了 误差级联 效应——单步能力无法线性外推到多步任务。

在 wiki 中的角色

SWE-Bench 是本 wiki 讨论 long-running agentssoftware evolution benchmark 时的主要对照基线。它代表了”单步 agent 能力”的量化标杆。

References

  • sources/arxiv_papers/2512.18470-swe-evo.md