Agent Reliability Evaluation（Agent 可靠性评估）

Agent 可靠性评估：RDC/VAF/GDS/MOP 四指标框架

念

概念 · AGENT RELIABILITY EVALUATION · 四指标框架

Agent 可靠性评估

Beyond pass@1 — 能力与可靠性是不同的问题

pass@1 衡量能力（一次最佳能否完成）；可靠性衡量一致性（反复调用、不同时长、不同域任务）。GPT-4o pass@1=61%，但 pass^8 只有 25%。

RDC可靠性衰减曲线

pass^k 随任务时长变化——刻画群体级可靠性轮廓

VAF方差放大因子

高 VAF ≥ 2.37 是能力标志（有时成功有时失败）；低 VAF 意味着稳定地失败

GDS优雅退化评分

失败时已完成多少——单次失败的质量指标

MOP熔断起始点

行为崩溃的轨迹动态；不是终止信号，而是 context reset 触发器

反直觉给 agent 加 episodic memory：10 个模型中 6 个变差、4 个中性、0 个改善。记忆 overhead 超过收益。

→ 可靠性衰减 · 长时运行 Agent · Evaluator-OptimizerBeyond pass@1 (2026)

Agent 可靠性评估是衡量 LLM agent 在重复运行、不同时长、不同领域任务上一致表现的方法论。与能力评估（pass@1）互补但独立——一个模型可以有很高的能力但很低的可靠性。

pass@1 衡量的是”在一次最佳尝试中能否完成”，这是能力问题。生产部署需要回答的是可靠性问题——agent 被反复调用、面对不同复杂度的任务时，能否一致地成功。

tau-bench 的经典数据：GPT-4o pass@1 = 61%，pass^8 = 25%。连跑 8 次全对的概率只有四分之一。

Beyond pass@1 进一步证明：pass@1 在所有 10 个测试模型上高估可靠性 20-40%，且差距随任务时长增大。

四个指标互补：RDC 和 VAF 刻画模型在任务群体上的可靠性轮廓，GDS 刻画单次失败的质量，MOP 刻画失败轨迹的动态特征。

高 VAF（>= 2.37）是能力标志：模型在长任务上有时成功有时失败，产生高方差。低 VAF（<= 1.26）意味着模型在长任务上稳定地失败——方差反而小。

实践意义：选择长时部署的模型时，应优先选择同时具备高 pass@1 和高 VAF 的模型。

前沿模型熔断率最高（DeepSeek V3 超长任务 19%，MiniMax M2.5 13%），因为它们尝试更激进的多步策略。弱模型走保守路线，不会熔断但也完不成任务。

MOP 的正确用法：不是终止信号，而是 context reset 触发器。检测到熔断时保存进度、重置 context、从检查点继续——这样既中断了失控的探索，又保留了已完成的部分。

Beyond pass@1 是首个同时覆盖多模型、多时长、方差感知、部分得分的可靠性评估框架。

论文的一个重要实践发现：给 agent 加 episodic memory（便签本）在长任务上全线失败——10 个模型中 6 个变差、4 个中性、0 个改善。便签占步数、占 context，代价超过收益。

这挑战了”长任务就该加记忆”的默认假设。记忆不应该作为默认配置，而应该在校准 overhead-vs-benefit 后按需启用。

sources/arxiv_papers/2603.29231-beyond-pass-at-1-reliability-science-framework.md