Seven Mental · 心智七篇
← Knowledge Atlas · Source

SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

SWE-EVO:多步长 horizon 软件演进基准,48 任务平均 21 文件 874 测试,GPT-5.4 仅 25%,误差级联效应的核心证据
SOURCE · SWE-EVO · FPT Software AI · arXiv 2512.18470 · multi-step software evolution

SWE-EVO · Multi-Step Software Evolution Benchmark

From “single-point fix” to “version evolution” — 48 tasks · 21 files/task · 874 tests/task

From SWE-Bench (single issue) to SWE-EVO (cross-release-notes evolution) is a qualitative leap — strong models 72% → 25%. Direct evidence of error cascade: small errors in early steps are amplified downstream; multi-step success is far below the product of single-step rates.

Capability cliff
GPT-5.4
SWE-Bench · not tested
SWE-EVO · 25.00%
GPT-5.2
SWE-Bench · 72.80%
SWE-EVO · 18.75–22.92%
GPT-5
SWE-Bench · 65.00%
SWE-EVO · 18.75–20.83%
DeepSeek V3p2
SWE-Bench · 70.00%
SWE-EVO · 20.83–23.40%
Failure modes, tiered
Strong modelsfail mostly at instruction following (60%+) — misread release-note intent
Weak modelsbasic syntax errors, tool misuse, loops
SWE-EVO’s difficulty comes from semantic reasoning, not interface operation
Model × FrameworkGLM-5 hits 37.5% on SWE-agent (beats GPT-5.4), just 8.33% on OpenHands — agent capability is a function of model × framework
→ error-cascade · long-running-agents · harness-engineering · feature-trackingarXiv 2512.18470

SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

元信息

  • 来源: sources/arxiv_papers/2512.18470-swe-evo.md
  • URL: https://arxiv.org/abs/2512.18470
  • 作者: Minh Vu Thai Pham, Tue Le, Dung Nguyen Manh, Huy Nhat Phan, Nghi D. Q. Bui (FPT Software AI Center)
  • 发表: arXiv 2025-12(v5 更新至 2026)
  • ljg-paper 分析: wikis/sources/20260407T174415--paper-swe-evo-long-horizon-benchmark__paper.org

摘要

现有 AI 编码 agent benchmark(如 SWE-Bench)聚焦于单 issue 修复——一个 bug、一个补丁、几个测试。SWE-EVO 将评估维度从”单点修复”升级为”软件演进”:给定 release notes 和当前代码库,agent 需要理解高层需求、跨多文件协调改动、将系统从一个版本推进到下一个版本。

核心数据

  • 48 个任务,来自 7 个成熟 Python 开源项目(scikit-learn、pydantic 等)
  • 每个任务平均跨 21 个文件,面对 874 个测试
  • 输入为 release notes(非单个 GitHub issue),强制 agent 理解高层需求
  • 评估指标:Resolved Rate(严格二值)+ Fix Rate(软评分,衡量部分进展)

关键发现

断崖式能力差距

模型SWE-Bench VerifiedSWE-EVO
GPT-5.425.00%
GPT-5.272.80%18.75%–22.92%
GPT-565.00%18.75%–20.83%
DeepSeek-V3p270.00%20.83%–23.40%

从”大部分能做”到”大部分做不了”——不是微小下降,是量级跨越。

误差级联效应

单步能力无法线性外推到多步任务。这是误差级联(error cascade)的直接证据:前一步的小错在后续步骤中被放大,导致多步整体成功率远低于单步成功率的乘积。任务涉及的 PR 数量越多(即步骤越多),失败率越高——难度与 PR 数量强相关。

失败模式分层

  • 强模型(GPT-5 系列):主要失败在 指令遵循(60%+),即理解歪了 release notes 的意图
  • 弱模型:失败在更基础的语法错误、工具使用、陷入循环
  • 说明 SWE-EVO 的难度来自 语义推理,而非接口操作

模型-框架交互效应

GLM-5 在 SWE-agent 上 37.5%(超 GPT-5.4),在 OpenHands 上仅 8.33%。Agent 能力是模型 x 框架的函数,不能只看模型 benchmark 分数。

Fix Rate 的价值

软评分揭示了二值 Resolved Rate 隐藏的差异:GPT-4.1 和 GPT-oss-120b 都只解决 2.08%,但 Fix Rate 分别为 4.65% 和 2.08%——前者做了更多部分修复。

与 wiki 已有知识的关联

  • Long-running agents:SWE-EVO 为”增量推进而非一次性尝试”提供了量化证据。Anthropic 的 initializer-coder 架构正是为了对抗这种多步耦合失败
  • Harness engineering:误差级联发现强化了 harness 中 checkpoint、rollback、feature tracking 的必要性
  • Context management:论文 Section 2.3 专门讨论了 context engineering 对长 horizon 任务的关键性,引用了 Meta Context Engineering(89.1% on SWE-bench Verified vs 70.7% 手工基线)
  • Evaluator-optimizer:Fix Rate 的”部分通过率 + 回归惩罚”设计可迁移到 harness 内部评估机制

References

  • sources/arxiv_papers/2512.18470-swe-evo.md