跳转至

SWE-EVO: Benchmarking Coding Agents in Long-Horizon Software Evolution Scenarios

元信息

  • 来源: sources/arxiv_papers/2512.18470-swe-evo.md
  • URL: https://arxiv.org/abs/2512.18470
  • 作者: Minh Vu Thai Pham, Tue Le, Dung Nguyen Manh, Huy Nhat Phan, Nghi D. Q. Bui (FPT Software AI Center)
  • 发表: arXiv 2025-12(v5 更新至 2026)
  • ljg-paper 分析: wikis/sources/20260407T174415--paper-swe-evo-long-horizon-benchmark__paper.org

摘要

现有 AI 编码 agent benchmark(如 SWE-Bench)聚焦于单 issue 修复——一个 bug、一个补丁、几个测试。SWE-EVO 将评估维度从"单点修复"升级为"软件演进":给定 release notes 和当前代码库,agent 需要理解高层需求、跨多文件协调改动、将系统从一个版本推进到下一个版本。

核心数据

  • 48 个任务,来自 7 个成熟 Python 开源项目(scikit-learn、pydantic 等)
  • 每个任务平均跨 21 个文件,面对 874 个测试
  • 输入为 release notes(非单个 GitHub issue),强制 agent 理解高层需求
  • 评估指标:Resolved Rate(严格二值)+ Fix Rate(软评分,衡量部分进展)

关键发现

断崖式能力差距

模型 SWE-Bench Verified SWE-EVO
GPT-5.4 25.00%
GPT-5.2 72.80% 18.75%–22.92%
GPT-5 65.00% 18.75%–20.83%
DeepSeek-V3p2 70.00% 20.83%–23.40%

从"大部分能做"到"大部分做不了"——不是微小下降,是量级跨越。

误差级联效应

单步能力无法线性外推到多步任务。这是误差级联(error cascade)的直接证据:前一步的小错在后续步骤中被放大,导致多步整体成功率远低于单步成功率的乘积。任务涉及的 PR 数量越多(即步骤越多),失败率越高——难度与 PR 数量强相关。

失败模式分层

  • 强模型(GPT-5 系列):主要失败在 指令遵循(60%+),即理解歪了 release notes 的意图
  • 弱模型:失败在更基础的语法错误、工具使用、陷入循环
  • 说明 SWE-EVO 的难度来自 语义推理,而非接口操作

模型-框架交互效应

GLM-5 在 SWE-agent 上 37.5%(超 GPT-5.4),在 OpenHands 上仅 8.33%。Agent 能力是模型 x 框架的函数,不能只看模型 benchmark 分数。

Fix Rate 的价值

软评分揭示了二值 Resolved Rate 隐藏的差异:GPT-4.1 和 GPT-oss-120b 都只解决 2.08%,但 Fix Rate 分别为 4.65% 和 2.08%——前者做了更多部分修复。

与 wiki 已有知识的关联

  • Long-running agents:SWE-EVO 为"增量推进而非一次性尝试"提供了量化证据。Anthropic 的 initializer-coder 架构正是为了对抗这种多步耦合失败
  • Harness engineering:误差级联发现强化了 harness 中 checkpoint、rollback、feature tracking 的必要性
  • Context management:论文 Section 2.3 专门讨论了 context engineering 对长 horizon 任务的关键性,引用了 Meta Context Engineering(89.1% on SWE-bench Verified vs 70.7% 手工基线)
  • Evaluator-optimizer:Fix Rate 的"部分通过率 + 回归惩罚"设计可迁移到 harness 内部评估机制

References

  • sources/arxiv_papers/2512.18470-swe-evo.md