Chaos Engineering for Agents（Agent 混沌工程）

Agent 混沌工程：超时、限流、schema 漂移等故障注入评估

念

概念 · CHAOS ENGINEERING FOR AGENTS · 故障注入

Agent 混沌工程

Chaos Engineering — Netflix Chaos Monkey 方法论在 Agent 评估中的应用

在工具调用层系统性注入生产环境常见故障，测量 agent 在基础设施不稳定条件下的可靠性退化。故障注入是 guardrails 的测试对偶——制造故障来验证防御是否有效。

类别故障类型可恢复

网络TransientTimeout / ConnectionReset是

限流SoftRateLimit / HardRateLimit部分

数据PartialResponse / SchemaDrift / StaleData否

Rate Limiting 杀伤力最大

纯限流通过率 93.75% vs 基线 96.25%；agent 普遍缺乏退避重试逻辑

简单架构更容错

ReAct 恢复率 80.9% vs Reflexion 67.3%——反思在错误观察上建立的”教训”反而误导

容错退化更陡

∂R/∂λ 绝对值大于 ∂R/∂ε；容错比鲁棒性对 agent 更重要

→ Guardrails · 可靠性曲面 · Error Cascade · HarnessReliabilityBench (2026)

将混沌工程（Chaos Engineering）的故障注入方法论应用于 LLM agent 评估：在工具调用层系统性地注入生产环境常见故障（超时、限流、部分响应、schema 漂移），测量 agent 在基础设施不稳定条件下的可靠性退化。

灵感来自 Netflix 的 Chaos Monkey 和 Site Reliability Engineering 实践。ReliabilityBench 首次将这一方法论系统化应用于 agent 评估。

故障注入器包裹工具执行层。每次工具调用时，按故障概率 λ 决定是否注入故障：

强度分级：λ=0.1（5-10% 失败），λ=0.2（15-20%），λ=0.3（25-30%）。

Rate limiting 杀伤力最大：在消融实验中，纯限流故障的通过率（93.75%）比混合故障基线（96.25%）低 2.5%，说明 agent 普遍缺乏退避重试逻辑
瞬态超时处理良好：98.75% 通过率，说明基本的重试机制有效
容错退化比鲁棒性更陡：∂R/∂λ 的绝对值大于 ∂R/∂ε
简单架构容错更好：ReAct 故障恢复率 80.9%，Reflexion 仅 67.3%——反思机制在错误观察上建立的”教训”反而误导后续行为

Gupta, A. (2026). ReliabilityBench: Evaluating LLM Agent Reliability Under Production-Like Stress Conditions. arXiv:2601.06112.