ReliabilityBench: Evaluating LLM Agent Reliability Under Production-Like Stress Conditions¶
- 来源:
sources/arxiv_papers/2601.06112-reliabilitybench.md - URL: https://arxiv.org/abs/2601.06112
- 作者: Aayush Gupta
- 发表: arXiv, 2026-01-03
- 参考笔记: reliabilitybench.org
摘要¶
ReliabilityBench 是首个系统性评估 LLM agent 在生产级压力下可靠性的基准。核心创新是三维评估框架——可靠性曲面 R(k, ε, λ),同时捕获一致性(重复执行)、鲁棒性(任务扰动)和容错性(基础设施故障)三个维度的退化特征。
关键发现¶
- 扰动造成 8.8% 退化:baseline 96.88% pass@1 在 ε=0.2 扰动下降至 88.12%。这些扰动对人类几乎无感(同义词替换、语序调整、干扰信息注入)
- 简单架构更抗压:ReAct 的可靠性曲面体积(0.900)高于 Reflexion(0.875),差距在压力下扩大。Reflexion 的反思机制在故障场景下反而放大错误——恢复率 67.3% vs ReAct 80.9%
- 容错性退化比鲁棒性更陡:λ 维度的退化梯度高于 ε 维度。Rate limiting 是杀伤力最大的单一故障类型(比混合基线低 2.5%)
- 成本与可靠性脱钩:GPT-4o 成本是 Gemini 2.0 Flash 的 82 倍,可靠性仅差 0.6%
方法论创新¶
可靠性曲面 R(k, ε, λ)¶
将 agent 可靠性从单一数字拓展为三维评估曲面。详见 可靠性曲面。
Action Metamorphic Relations¶
借鉴蜕变测试,将判等锚点从输出文本下沉到系统终态(动作蜕变关系)。
Chaos Engineering for Agents¶
将混沌工程引入 agent 评估:超时、限流、部分响应、schema 漂移等故障注入(agent 混沌工程)。
实验规模¶
- 4 个领域(日程、旅行、客服、电商),25+ 工具
- 2 个模型(Gemini 2.0 Flash、GPT-4o),2 个架构(ReAct、Reflexion)
- 1,280 episodes 覆盖完整 3D 可靠性曲面
- 状态验证基于确定性断言,非 LLM 判分
与其他来源的联系¶
- 扩展了 τ-bench 的 pass^k 概念至多维度框架
- "复杂度在压力下是负债"的发现与 error cascade 中的耦合放大效应一致
- 容错逻辑应放在 harness 层而非 agent 推理链——与 harness engineering 的核心主张呼应
- fault injection 可视为 guardrails 的测试对偶:guardrails 防御故障,chaos engineering 主动制造故障以验证防御
References¶
- Gupta, A. (2026). ReliabilityBench: Evaluating LLM Agent Reliability Under Production-Like Stress Conditions. arXiv:2601.06112.