← Knowledge Atlas · 概念

Reliability Decay（可靠性衰减）

可靠性衰减：pass^k 随任务时长的超线性衰减

念

概念 · RELIABILITY DECAY · 超线性衰减 · Agent 任务长度挑战

可靠性衰减

Reliability Decay — Agent 成功率随任务复杂度增加而超线性下降

不是”任务越难越容易失败”的平凡观察。衰减是超线性的——比独立错误假设预测的更快。根因：步间错误正相关（ρ > 0）——agent 一旦走上错误路径，倾向于在错误中持续，不会自发纠正。

领域分层衰减（Beyond Pass@1 数据）

领域短任务 GDS超长任务 GDS衰减幅度

SE 代码编辑0.900.44-0.46 ★

WR 网络调研0.800.63-0.17

DP 文档处理0.740.71-0.03

SE 灾难性衰减

多步依赖严格——代码每步必须与前后一致，错误级联传播

任务分解决策

RDC 斜率越陡，分解回报越大：Qwen3 30B 的分解增益高达 41.5pp

模型选择误区

短任务 pass@1 不能预测长任务可靠性——必须在目标时长档上直接测量

→ Long-Running Agents · Error Cascade · Harness EngineeringarXiv:2603.29231

Reliability Decay（可靠性衰减）

定义

可靠性衰减是指 LLM agent 的成功率随任务时长/复杂度增加而下降的现象。关键特征：衰减是超线性的——比独立错误假设预测的更快、更剧烈。

这不是”任务越难越容易失败”的平凡观察。论文 Beyond pass@1 证明了衰减机制有其独特结构：错误正相关（一步错倾向于步步错），而非独立随机发生。

核心机制

超线性衰减

如果每步独立以概率 epsilon 失败，T 步任务的成功率是 (1-epsilon)^T——几何衰减。实际观测到的衰减更快。Qwen3 30B 的短任务 pass@1 为 75.8%，按几何衰减预测长任务应为 ~33%，实际只有 22.2%（1.5 倍差距）。Mistral Nemo 的差距更大：预测 28.6%，实际 12.1%（2.4 倍）。

正相关错误

根因是步间错误正相关（correlation rho > 0）。Agent 一旦形成错误假设或走上错误路径，倾向于在错误中持续——不会自发纠正。理论上，相关错误使任务失败概率从 exp(-epsilonT) 恶化为 exp(-epsilonT - rhoepsilon^2T^2/2)，即 T 的超指数函数。

经验证据：GLM-4.5 Air 在短任务上只有 1% 的 episode 在第一个子任务前就终止，超长任务上这个比例升到 25%。早期失败率单调递增是正相关错误的直接指纹。

领域分层

衰减速度强烈依赖任务领域，领域是比模型大小更强的预测因子：

领域	短任务 GDS	超长任务 GDS	衰减幅度
SE（代码编辑）	0.90	0.44	-0.46
WR（网络调研）	0.80	0.63	-0.17
DP（文档处理）	0.74	0.71	-0.03

SE 的灾难性衰减源于其严格的多步依赖：代码修改的每一步都必须与前后步骤一致，错误会级联传播。DP 的稳健性源于任务的结构化特征：文档提取有明确的输入输出对应，中间步骤较少相互依赖。

关键洞见：人类估计的任务时长和 agent 实际复杂度正交。DP 长任务人类需要 45-60 分钟，但 agent 只需 4-8 个工具调用。用人类时间做 x 轴会误导对 agent 可靠性的判断。

实践意义

任务分解的量化决策

RDC 直接量化了任务分解的收益。对于短任务 pass@1 = p_S、超长任务 = p_VL 的模型，将超长任务拆为短任务的可靠性增益约为 p_S - p_VL。RDC 斜率越陡，分解回报越大：

DeepSeek V3: 92.9% - 79.8% = 13.1pp 增益（斜率平，分解收益小）
Qwen3 30B: 75.8% - 34.3% = 41.5pp 增益（斜率陡，分解收益大）

模型选择

短任务 pass@1 不能预测长任务可靠性。GLM-4.5 Air 短任务 94.9%（第一），超长任务 66.7%（第四）。Llama 3.3 70B 短任务 74.7%（第五六），超长任务 54.5%（第三四）。必须在目标时长档上直接测量。

与其他概念的关系

长时运行 agent — 可靠性衰减是长时运行的核心挑战之一
Context management — context 积累和 compaction 损失是衰减的机制之一
Harness engineering — harness 的任务分解和 context reset 是对抗衰减的主要工具
Agent 可靠性评估 — RDC 是衡量衰减的形式化工具

References

sources/arxiv_papers/2603.29231-beyond-pass-at-1-reliability-science-framework.md