SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

SWE-EVO：多步长 horizon 软件演进基准，48 任务平均 21 文件 874 测试，GPT-5.4 仅 25%，误差级联效应的核心证据

源

SOURCE · SWE-EVO · FPT Software AI · arXiv 2512.18470 · multi-step software evolution

SWE-EVO · Multi-Step Software Evolution Benchmark

From “single-point fix” to “version evolution” — 48 tasks · 21 files/task · 874 tests/task

From SWE-Bench (single issue) to SWE-EVO (cross-release-notes evolution) is a qualitative leap — strong models 72% → 25%. Direct evidence of error cascade: small errors in early steps are amplified downstream; multi-step success is far below the product of single-step rates.

Capability cliff

GPT-5.4

SWE-Bench · not tested

SWE-EVO · 25.00%

GPT-5.2

SWE-Bench · 72.80%

SWE-EVO · 18.75–22.92%

GPT-5

SWE-Bench · 65.00%

SWE-EVO · 18.75–20.83%

DeepSeek V3p2

SWE-Bench · 70.00%

SWE-EVO · 20.83–23.40%

Failure modes, tiered

Strong modelsfail mostly at instruction following (60%+) — misread release-note intent

Weak modelsbasic syntax errors, tool misuse, loops

SWE-EVO’s difficulty comes from semantic reasoning, not interface operation

Model × FrameworkGLM-5 hits 37.5% on SWE-agent (beats GPT-5.4), just 8.33% on OpenHands — agent capability is a function of model × framework

→ error-cascade · long-running-agents · harness-engineering · feature-trackingarXiv 2512.18470

SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

元信息

来源: sources/arxiv_papers/2512.18470-swe-evo.md
URL: https://arxiv.org/abs/2512.18470
作者: Minh Vu Thai Pham, Tue Le, Dung Nguyen Manh, Huy Nhat Phan, Nghi D. Q. Bui (FPT Software AI Center)
发表: arXiv 2025-12（v5 更新至 2026）
ljg-paper 分析: wikis/sources/20260407T174415--paper-swe-evo-long-horizon-benchmark__paper.org

摘要

现有 AI 编码 agent benchmark（如 SWE-Bench）聚焦于单 issue 修复——一个 bug、一个补丁、几个测试。SWE-EVO 将评估维度从”单点修复”升级为”软件演进”：给定 release notes 和当前代码库，agent 需要理解高层需求、跨多文件协调改动、将系统从一个版本推进到下一个版本。

核心数据

48 个任务，来自 7 个成熟 Python 开源项目（scikit-learn、pydantic 等）
每个任务平均跨 21 个文件，面对 874 个测试
输入为 release notes（非单个 GitHub issue），强制 agent 理解高层需求
评估指标：Resolved Rate（严格二值）+ Fix Rate（软评分，衡量部分进展）

关键发现

断崖式能力差距

模型	SWE-Bench Verified	SWE-EVO
GPT-5.4	—	25.00%
GPT-5.2	72.80%	18.75%–22.92%
GPT-5	65.00%	18.75%–20.83%
DeepSeek-V3p2	70.00%	20.83%–23.40%

从”大部分能做”到”大部分做不了”——不是微小下降，是量级跨越。

误差级联效应

单步能力无法线性外推到多步任务。这是误差级联（error cascade）的直接证据：前一步的小错在后续步骤中被放大，导致多步整体成功率远低于单步成功率的乘积。任务涉及的 PR 数量越多（即步骤越多），失败率越高——难度与 PR 数量强相关。

失败模式分层

强模型（GPT-5 系列）：主要失败在 指令遵循（60%+），即理解歪了 release notes 的意图
弱模型：失败在更基础的语法错误、工具使用、陷入循环
说明 SWE-EVO 的难度来自 语义推理，而非接口操作

模型-框架交互效应

GLM-5 在 SWE-agent 上 37.5%（超 GPT-5.4），在 OpenHands 上仅 8.33%。Agent 能力是模型 x 框架的函数，不能只看模型 benchmark 分数。

Fix Rate 的价值

软评分揭示了二值 Resolved Rate 隐藏的差异：GPT-4.1 和 GPT-oss-120b 都只解决 2.08%，但 Fix Rate 分别为 4.65% 和 2.08%——前者做了更多部分修复。

与 wiki 已有知识的关联

Long-running agents：SWE-EVO 为”增量推进而非一次性尝试”提供了量化证据。Anthropic 的 initializer-coder 架构正是为了对抗这种多步耦合失败
Harness engineering：误差级联发现强化了 harness 中 checkpoint、rollback、feature tracking 的必要性
Context management：论文 Section 2.3 专门讨论了 context engineering 对长 horizon 任务的关键性，引用了 Meta Context Engineering（89.1% on SWE-bench Verified vs 70.7% 手工基线）
Evaluator-optimizer：Fix Rate 的”部分通过率 + 回归惩罚”设计可迁移到 harness 内部评估机制

References

sources/arxiv_papers/2512.18470-swe-evo.md