SSM-Hybrid Architecture（SSM 混合架构）

SSM 混合架构：Mamba-3、Jamba、推理优先设计

念

概念 · SSM HYBRID ARCHITECTURE · Mamba-3 · Jamba · 推理优先设计

SSM 混合架构

SSM Hybrid Architecture — 状态空间模型与 Transformer 融合，解决长上下文线性复杂度问题

纯 Transformer 在长上下文下计算复杂度是 O(n²)，成为 agent 任务的硬瓶颈。SSM 混合架构用选择性状态空间模型（Mamba）替换大部分注意力层，保留少量注意力层维持全局推理能力。Jamba 架构：1/8 注意力层 + 7/8 Mamba 层 + MoE，实现 256K token 上下文、线性复杂度、更低推理延迟。

Jamba 架构解剖

组件比例作用

Mamba 层7/8线性复杂度序列建模，长程依赖压缩

Attention 层1/8全局推理，精确 token 定位

MoE 层稀疏激活52B 参数 / 12B 活跃，推理效率

上下文窗口256K tokens实用长文档/代码库 agent 任务

对 Agent 设计的含义

Mamba-3 推理优先

推理阶段比 Transformer 快 2-8× ——适合高频调用的 harness 场景

KV 缓存压缩

SSM 状态是固定大小的循环缓冲区，不随长度增长——降低显存压力

长上下文代理

256K 窗口使单次 pass 处理大型代码库成为可能，减少 chunking 复杂度

当前局限

训练效率仍低于纯 Transformer；精确检索任务中 attention 层仍然关键

→ Long-Running Agents · Harness Engineering · Prefix CachingMamba-3 (2025) · Jamba (2024)

SSM-Hybrid Architecture（SSM 混合架构）

定义

SSM-Hybrid Architecture 是将状态空间模型（SSM，如 Mamba）与 Transformer 注意力层结合的模型架构范式。利用 SSM 的线性时间复杂度处理长序列，同时保留注意力机制的精确检索能力。

核心权衡

	SSM（纯）	Transformer（纯）	混合架构
序列长度扩展	线性 O(n)	二次方 O(n^2)	接近线性
检索能力	弱（固定状态压缩）	强（KV cache 全量存储）	强
推理效率	高	随 context 增长而降低	高
内存占用	固定	随 context 线性增长	介于两者之间

关键洞察：SSM 的固定大小状态是一把双刃剑——推理高效，但迫使模型将所有历史压缩到一个表征中，与 Transformer 的 KV cache（全量存储）形成根本对立。

Mamba 系列演进

Mamba-2 (2024)

围绕训练效率设计，简化 SSM 机制实现 2-8 倍训练加速。代价：解码步骤”过于简单”，GPU 大部分时间在搬运内存。

Mamba-3 (2026)

推理优先的设计转向。三大改进：

指数梯形离散化 → 更丰富的递归表达力
复数值 SSM → 增强状态追踪
MIMO SSM → 不增加状态大小即提升性能

所有改进受启发于经典控制论和状态空间模型文献——逆当前线性注意力/测试时训练的潮流。

Mamba-3 的核心预测：线性层将主要与全局自注意力层结合使用，即混合架构将成为主流。

Jamba (2024)

AI21 的首个生产级混合模型。架构：每 8 层中 1 层 Transformer attention + 7 层 Mamba + MoE。52B 总参数 / 12B 活跃参数。256K context window，单 GPU 可容纳 140K context。

推理效率的 Agent 工程意义

Mamba-3 的动机直接源于 agentic 工作流的推理需求爆发（Codex、Claude Code、OpenClaw）。对 agent 系统而言：

成本：长时运行 agent 的推理成本直接影响可行性
延迟：实时交互场景对每步延迟敏感
上下文长度：更高效的长序列处理减少 context management 的压力

非自回归替代方案

除 SSM-Transformer 混合外，NVIDIA 的能量扩散语言模型（EDLM）探索了完全不同的方向——用能量模型 + 离散扩散实现非自回归文本生成，已接近自回归模型的困惑度。这代表了对”下一个 token 预测”范式的根本挑战。

References

sources/cartesia-mamba-3.md
sources/ai21-jamba.md

SSM 混合架构

SSM-Hybrid Architecture（SSM 混合架构）

定义

核心权衡

Mamba 系列演进

Mamba-2 (2024)

Mamba-3 (2026)

Jamba (2024)

推理效率的 Agent 工程意义

非自回归替代方案

相关概念

References