ReliabilityBench: Evaluating LLM Agent Reliability Under Production-Like Stress Conditions

ReliabilityBench：三维可靠性曲面 R(k,ε,λ)，生产级压力下的 agent 评估

源

源头 · RELIABILITYBENCH · arXiv 2601.06112 · 生产级压力评估

ReliabilityBench · 三维可靠性曲面

首个系统性评估 agent 在生产级压力下可靠性的基准

k · 一致性重复执行同一任务的成功稳定度（pass^k）

ε · 鲁棒性输入扰动（同义替换、干扰注入）· 8.8% 退化

λ · 容错性基础设施故障（超时、限流）· 比 ε 退化更陡

简单更抗压ReAct（0.900）> Reflexion（0.875）——反思机制在故障下反而放大错误 · 恢复 80.9% vs 67.3%

成本脱钩GPT-4o 成本是 Gemini Flash 的 82× · 可靠性仅差 0.6%

→ reliability-surface · chaos-engineering-for-agents · action-metamorphic-relations · error-cascadearXiv 2601.06112

ReliabilityBench 是首个系统性评估 LLM agent 在生产级压力下可靠性的基准。核心创新是三维评估框架——可靠性曲面 R(k, ε, λ)，同时捕获一致性（重复执行）、鲁棒性（任务扰动）和容错性（基础设施故障）三个维度的退化特征。

扰动造成 8.8% 退化：baseline 96.88% pass@1 在 ε=0.2 扰动下降至 88.12%。这些扰动对人类几乎无感（同义词替换、语序调整、干扰信息注入）
简单架构更抗压：ReAct 的可靠性曲面体积（0.900）高于 Reflexion（0.875），差距在压力下扩大。Reflexion 的反思机制在故障场景下反而放大错误——恢复率 67.3% vs ReAct 80.9%
容错性退化比鲁棒性更陡：λ 维度的退化梯度高于 ε 维度。Rate limiting 是杀伤力最大的单一故障类型（比混合基线低 2.5%）
成本与可靠性脱钩：GPT-4o 成本是 Gemini 2.0 Flash 的 82 倍，可靠性仅差 0.6%

将 agent 可靠性从单一数字拓展为三维评估曲面。详见可靠性曲面。

借鉴蜕变测试，将判等锚点从输出文本下沉到系统终态（动作蜕变关系）。

将混沌工程引入 agent 评估：超时、限流、部分响应、schema 漂移等故障注入（agent 混沌工程）。

扩展了 τ-bench 的 pass^k 概念至多维度框架
“复杂度在压力下是负债”的发现与 error cascade 中的耦合放大效应一致
容错逻辑应放在 harness 层而非 agent 推理链——与 harness engineering 的核心主张呼应
fault injection 可视为 guardrails 的测试对偶：guardrails 防御故障，chaos engineering 主动制造故障以验证防御

Gupta, A. (2026). ReliabilityBench: Evaluating LLM Agent Reliability Under Production-Like Stress Conditions. arXiv:2601.06112.