心 智 七 篇 · Seven Mental Models
← Knowledge Atlas · 源头

Jamba: AI21's SSM-Transformer Hybrid Model

Jamba:首个生产级 SSM-Transformer 混合架构,256K context
来源 · AI21 JAMBA · SSM-Transformer 混合 · MoE · 256K Context · 2024

Jamba: AI21’s SSM-Transformer Hybrid

AI21(2024-03-28)——首个生产级 Mamba-Transformer 混合架构模型,Apache 2.0 开源

Jamba 通过将 SSM 层(Mamba)与 Transformer 注意力层和 MoE 层混合,在吞吐量、内存效率和质量三维同时优化。关键比例:每 8 层中 1 层为 Transformer attention,其余 7 层为 Mamba——与理论最优比例吻合,是 SSM 混合架构从研究走向生产的里程碑。

架构参数
注意力/Mamba 比例1/8 Transformer + 7/8 Mamba(每 8 层)
参数规模总参数 52B,推理时激活 12B(MoE 稀疏激活)
上下文长度256K context window,单 80GB GPU 可容纳 140K context
吞吐量长 context 场景下是 Mixtral 8x7B 的 3 倍
对 Agent 工程的意义
更长有效 context
256K window 减少 compaction 需求——长时运行 agent 的上下文压力显著降低
更高吞吐更低成本
Mamba 层无二次复杂度开销——agent loop 的经济性改善
Mamba-3 预测验证
Cartesia Mamba-3 论文的「混合架构将成主流」判断的早期生产验证
→ SSM Hybrid Architecture · Context Management · Long-Running AgentsAI21 Blog (2024-03-28)

Jamba: AI21’s SSM-Transformer Hybrid Model

摘要

AI21 发布 Jamba,首个生产级 Mamba-Transformer 混合架构模型。通过将 SSM 层(Mamba)与 Transformer 注意力层和 MoE(混合专家)层结合,在吞吐量、内存效率和质量之间同时优化。

架构创新

  • 块-层结构:每 8 层中 1 层为 Transformer attention,其余为 Mamba 层
  • MoE 集成:总参数 52B,推理时仅激活 12B,活跃参数效率高于同规模纯 Transformer
  • 长上下文:256K context window,单 80GB GPU 可容纳 140K context

性能亮点

  • 长 context 场景下吞吐量为 Mixtral 8x7B 的 3 倍
  • 在同规模模型的多个基准测试上达到或超越 SOTA
  • Apache 2.0 开源

与其他架构源的关联

Jamba 是 Mamba-3 论文中”混合架构优于纯模型”判断的早期验证。Mamba-3 进一步预测混合架构将成为主流。

对 Agent 工程的意义

混合 SSM-Transformer 架构的长 context + 高吞吐特性直接利好 long-running agentscontext management——更长的有效 context 意味着更少的 compaction 需求,更高的吞吐意味着更低的运行成本。

References

  • sources/ai21-jamba.md