心 智 七 篇 · Seven Mental Models
← Knowledge Atlas · 源头

ReliabilityBench: Evaluating LLM Agent Reliability Under Production-Like Stress Conditions

ReliabilityBench:三维可靠性曲面 R(k,ε,λ),生产级压力下的 agent 评估
源头 · RELIABILITYBENCH · arXiv 2601.06112 · 生产级压力评估

ReliabilityBench · 三维可靠性曲面

首个系统性评估 agent 在生产级压力下可靠性的基准

k重复次数ε扰动λ故障率R(k, ε, λ) · 可靠性曲面
k · 一致性重复执行同一任务的成功稳定度(pass^k)
ε · 鲁棒性输入扰动(同义替换、干扰注入)· 8.8% 退化
λ · 容错性基础设施故障(超时、限流)· 比 ε 退化更陡
简单更抗压ReAct(0.900)> Reflexion(0.875)——反思机制在故障下反而放大错误 · 恢复 80.9% vs 67.3%
成本脱钩GPT-4o 成本是 Gemini Flash 的 82× · 可靠性仅差 0.6%
→ reliability-surface · chaos-engineering-for-agents · action-metamorphic-relations · error-cascadearXiv 2601.06112

ReliabilityBench: Evaluating LLM Agent Reliability Under Production-Like Stress Conditions

摘要

ReliabilityBench 是首个系统性评估 LLM agent 在生产级压力下可靠性的基准。核心创新是三维评估框架——可靠性曲面 R(k, ε, λ),同时捕获一致性(重复执行)、鲁棒性(任务扰动)和容错性(基础设施故障)三个维度的退化特征。

关键发现

  1. 扰动造成 8.8% 退化:baseline 96.88% pass@1 在 ε=0.2 扰动下降至 88.12%。这些扰动对人类几乎无感(同义词替换、语序调整、干扰信息注入)
  2. 简单架构更抗压:ReAct 的可靠性曲面体积(0.900)高于 Reflexion(0.875),差距在压力下扩大。Reflexion 的反思机制在故障场景下反而放大错误——恢复率 67.3% vs ReAct 80.9%
  3. 容错性退化比鲁棒性更陡:λ 维度的退化梯度高于 ε 维度。Rate limiting 是杀伤力最大的单一故障类型(比混合基线低 2.5%)
  4. 成本与可靠性脱钩:GPT-4o 成本是 Gemini 2.0 Flash 的 82 倍,可靠性仅差 0.6%

方法论创新

可靠性曲面 R(k, ε, λ)

将 agent 可靠性从单一数字拓展为三维评估曲面。详见 可靠性曲面

Action Metamorphic Relations

借鉴蜕变测试,将判等锚点从输出文本下沉到系统终态(动作蜕变关系)。

Chaos Engineering for Agents

将混沌工程引入 agent 评估:超时、限流、部分响应、schema 漂移等故障注入(agent 混沌工程)。

实验规模

  • 4 个领域(日程、旅行、客服、电商),25+ 工具
  • 2 个模型(Gemini 2.0 Flash、GPT-4o),2 个架构(ReAct、Reflexion)
  • 1,280 episodes 覆盖完整 3D 可靠性曲面
  • 状态验证基于确定性断言,非 LLM 判分

与其他来源的联系

  • 扩展了 τ-bench 的 pass^k 概念至多维度框架
  • “复杂度在压力下是负债”的发现与 error cascade 中的耦合放大效应一致
  • 容错逻辑应放在 harness 层而非 agent 推理链——与 harness engineering 的核心主张呼应
  • fault injection 可视为 guardrails 的测试对偶:guardrails 防御故障,chaos engineering 主动制造故障以验证防御

References

  • Gupta, A. (2026). ReliabilityBench: Evaluating LLM Agent Reliability Under Production-Like Stress Conditions. arXiv:2601.06112.