实
OpenHands
All Hands AI 开源多 agent 编码平台——SWE-EVO 基准评估框架之一
OpenHands 的 CodeActAgent 架构在 SWE-EVO 评估中揭示了关键现象:GLM-5 在 SWE-agent 上 37.5%,在 OpenHands 上仅 8.33%——即使同一个模型,框架差异导致极大性能分歧。这证明 agent 能力是「模型 × 框架」的函数,而非模型本身的固有属性。
框架对比
框架
架构
特点
OpenHands
CodeActAgent
多 agent 平台,统一行动空间
SWE-agent
单 agent
强调 agent-computer interface 设计
Codex
隐式循环
云端沙箱,双向 JSON-RPC
LangGraph
显式图编排
StateGraph 节点和边
关键洞见 GLM-5 37.5% vs 8.33% 同一模型在不同框架上相差 4.5 倍——框架 prompt 风格和交互模式决定性地影响表现 能力 = 模型 × 框架 不存在「模型固有 agent 能力」——评估结果总是特定框架下的结果 最多 100 次迭代 SWE-EVO 设置下的迭代上限——长时运行任务的资源边界
→ Implicit Loop Architecture · SWE-Bench · Codex · LangGraphSWE-EVO arXiv:2512.18470
OpenHands
简介
OpenHands 是一个开源多 agent 编码平台,使用 CodeActAgent 架构,支持在多个 benchmark 上评估 AI 编码 agent。由 All Hands AI 团队开发和维护。
在 SWE-EVO 中的角色
OpenHands 是 SWE-EVO 评估中使用的两个 agent 框架之一(另一个是 SWE-agent),配置为 CodeActAgent,最多 100 次迭代。
一个值得注意的发现:某些模型在不同框架上表现差异极大。GLM-5 在 SWE-agent 上 37.5%,在 OpenHands 上仅 8.33%。这说明 agent 能力是模型 x 框架的函数——框架的 prompt 风格和交互模式会显著影响模型表现。
与其他框架的对比
| 框架 | 架构 | 特点 |
|---|---|---|
| OpenHands | CodeActAgent | 多 agent 平台,统一行动空间 |
| SWE-agent | 单 agent | 强调 agent-computer interface 设计 |
| Codex | 隐式循环 | 云端沙箱,双向 JSON-RPC |
| LangGraph | 显式图编排 | StateGraph 定义节点和边 |
相关概念
- Agentic systems — OpenHands 所属的系统类型
- Implicit loop architecture — CodeActAgent 的架构范式
- Harness engineering — 框架即 harness
References
sources/arxiv_papers/2512.18470-swe-evo.md