Scaling Laws（缩放定律）

缩放定律：LLM 性能是参数量和数据量的可预测平滑函数，AI 军备竞赛的理论基础

念

概念 · SCALING LAWS · 参数×数据 = 可预测性能 · Karpathy 2023

缩放定律

Scaling Laws — LLM 性能是参数量和训练数据量的可预测、平滑函数

在对数尺度上，性能近似线性随 N（参数量）和 D（数据量）增长，且目前未见饱和。两个关键特性：可预测性（给定 N 和 D 可以极高置信度预测精度）+ 无饱和（截至 2023 更大 = 更好）。算法进步是锦上添花，不是必要条件。

Gold Rush 的理论基础

缩放定律 → 性能提升 = 工程投入（非研究突破）→ GPU 集群军备竞赛

现实推论不需要等待理论突破——买更大的集群，准备更多数据，性能自然增长

与相邻概念的关系

LLM-OS Analogy

缩放定律对应 LLM 生态中的”摩尔定律”——算力的可预测增长驱动整个生态演进

误差级联的对冲

单步性能随 scale 提升，但多步 agent 任务中的误差级联可能抵消收益

Bitter Lesson 同构

规模而非洞察——缩放定律是苦涩教训在训练阶段的精确量化

NFL 的提醒

缩放定律的预测力依赖特定分布假设——分布外任务可能不遵循同一规律

→ LLM Training Pipeline · Error Cascade · Bitter LessonKarpathy (2023)

LLM 的性能是参数量（N）和训练数据量（D）的可预测、平滑函数。这个关系在对数尺度上近似线性，且目前未见饱和迹象。Scaling laws 是当前 AI 基础设施”军备竞赛”的理论基础——它将模型能力提升从”研究突破”转变为”工程投入”。

Karpathy 在 2023 年演讲中指出两个关键性质：

这解释了为什么”Gold Rush”发生在计算层面——不需要研究突破，只需更大的 GPU 集群和更多数据。

Scaling laws 的形式定义基于下一词预测损失。但经验上，这一指标的改善与下游任务表现强相关——从 GPT-3.5 到 GPT-4 的升级中，几乎所有基准测试的表现同步提升。

这种关联不是理论保证，而是经验观察。它暗示下一词预测可能是一种”通用目标”——足够好的下一词预测器需要编码足够多的世界知识。