跳转至

Reliability Decay(可靠性衰减)

reliability-decay

定义

可靠性衰减是指 LLM agent 的成功率随任务时长/复杂度增加而下降的现象。关键特征:衰减是超线性的——比独立错误假设预测的更快、更剧烈。

这不是"任务越难越容易失败"的平凡观察。论文 Beyond pass@1 证明了衰减机制有其独特结构:错误正相关(一步错倾向于步步错),而非独立随机发生。

核心机制

超线性衰减

如果每步独立以概率 epsilon 失败,T 步任务的成功率是 (1-epsilon)^T——几何衰减。实际观测到的衰减更快。Qwen3 30B 的短任务 pass@1 为 75.8%,按几何衰减预测长任务应为 ~33%,实际只有 22.2%(1.5 倍差距)。Mistral Nemo 的差距更大:预测 28.6%,实际 12.1%(2.4 倍)。

正相关错误

根因是步间错误正相关(correlation rho > 0)。Agent 一旦形成错误假设或走上错误路径,倾向于在错误中持续——不会自发纠正。理论上,相关错误使任务失败概率从 exp(-epsilonT) 恶化为 exp(-epsilonT - rhoepsilon^2T^2/2),即 T 的超指数函数。

经验证据:GLM-4.5 Air 在短任务上只有 1% 的 episode 在第一个子任务前就终止,超长任务上这个比例升到 25%。早期失败率单调递增是正相关错误的直接指纹。

领域分层

衰减速度强烈依赖任务领域,领域是比模型大小更强的预测因子:

领域 短任务 GDS 超长任务 GDS 衰减幅度
SE(代码编辑) 0.90 0.44 -0.46
WR(网络调研) 0.80 0.63 -0.17
DP(文档处理) 0.74 0.71 -0.03

SE 的灾难性衰减源于其严格的多步依赖:代码修改的每一步都必须与前后步骤一致,错误会级联传播。DP 的稳健性源于任务的结构化特征:文档提取有明确的输入输出对应,中间步骤较少相互依赖。

关键洞见:人类估计的任务时长和 agent 实际复杂度正交。DP 长任务人类需要 45-60 分钟,但 agent 只需 4-8 个工具调用。用人类时间做 x 轴会误导对 agent 可靠性的判断。

实践意义

任务分解的量化决策

RDC 直接量化了任务分解的收益。对于短任务 pass@1 = p_S、超长任务 = p_VL 的模型,将超长任务拆为短任务的可靠性增益约为 p_S - p_VL。RDC 斜率越陡,分解回报越大:

  • DeepSeek V3: 92.9% - 79.8% = 13.1pp 增益(斜率平,分解收益小)
  • Qwen3 30B: 75.8% - 34.3% = 41.5pp 增益(斜率陡,分解收益大)

模型选择

短任务 pass@1 不能预测长任务可靠性。GLM-4.5 Air 短任务 94.9%(第一),超长任务 66.7%(第四)。Llama 3.3 70B 短任务 74.7%(第五六),超长任务 54.5%(第三四)。必须在目标时长档上直接测量。

与其他概念的关系

References

  • sources/arxiv_papers/2603.29231-beyond-pass-at-1-reliability-science-framework.md