LLM Training Pipeline（LLM 训练流水线）

LLM 训练流水线：预训练→微调→RLHF 三阶段，从互联网压缩到对话助手

念

概念 · LLM TRAINING PIPELINE · 三阶段架构

LLM 训练流水线

原始互联网文本 → 可用对话助手的多阶段转化

预训练不是简单信息存储——通过预测任务被迫学习世界知识。微调改变格式而非知识。两者的核心区别：量（海量低质）vs 质（少量高质），训练量：预训练 10TB + 12天 vs 微调 100K 对话 + 1天。

预训练

输入：~10TB 互联网文本目标：下一词预测（NTP）计算：~6000 GPU × 12 天产出：Base model（100× 有损压缩）

微调（Fine-tuning）

输入：~100K 人工标注 Q&A目标：仍是下一词预测，但数据换为高质量对话产出：Assistant model（文档生成器 → 问答助手）

RLHF（可选）

输入：人工比较标签（A 好于 B）优势：判断哪个好比自己写一个好答案更容易

演进趋势

人工标注被人机协作替代：模型采样候选 → 人工挑选 → 训练数据。模型越强，人类角色从”创作者”→“审核者”

→ Scaling Laws · Augmented LLM · Bitter LessonKarpathy (2023)

将原始互联网文本转化为可用的对话助手的多阶段训练过程。Karpathy 在 2023 年演讲中将其归纳为三个阶段，构成了 LLM 训练的标准心智模型。

核心洞察：预训练不是简单的信息存储，而是通过预测任务被迫学习世界知识。模型”知道” Ruth Handler 的生卒年月，因为这是在 Wikipedia 文本中准确预测下一词所必需的。

关键区别：预训练追求量（海量低质数据），微调追求质（少量高质数据）。微调改变的是格式而非知识——预训练阶段获取的知识在微调后依然可用。

Karpathy 在 2023 年就指出了一个至今仍在加速的趋势：人工标注正被人机协作替代。模型采样候选答案 → 人工挑选/编辑 → 生成训练数据。随着模型能力提升，人类角色从”创作者”转向”审核者”。