心 智 七 篇 · Seven Mental Models
← Knowledge Atlas · 源头

AIOS: LLM Agent Operating System

AIOS:Rutgers 团队的 LLM Agent OS,OS 六大模块映射到 agent 管理,context 快照恢复,2.1x 吞吐量提升
来源 · AIOS · Rutgers · OS 六大模块 LLM 映射 · 并发 Agent · COLM 2025

AIOS: LLM Agent Operating System

Mei 等(Rutgers,COLM 2025)——并发 LLM agent 的 OS 级资源管理,2.1x 吞吐提升

当多个 agent 共享同一 LLM 时,面临的问题——调度、隔离、中断恢复、内存管理——与 1960 年代 OS 面对 CPU 的问题同构。AIOS 将传统 OS 六大模块逐一映射到 LLM agent 管理,是 Karpathy「LLM = CPU」类比的最完整工程实现。

OS → AIOS 模块映射
传统 OS
AIOS 对应
CPU 核心
LLM Core(模型实例抽象)
进程调度
Agent Scheduler(FIFO/Round Robin)
虚拟内存/上下文切换
Context Manager(推理快照与恢复)
RAM 管理
Memory Manager(LRU-K 换页)
系统调用
AIOS Syscall(标准化接口)
权限控制
Access Manager(agent 间隔离)
实验结果(单 GPU,250 个 agent 并发)
2.1× 吞吐提升
Reflexion + Llama-3.1-8b——Round Robin 调度使 agent 并发执行
Logits 快照
保存搜索树状态(候选 token + 概率)——中断恢复的第三条路,比 compaction 无损
250→2000 agent 近似线性扩展
工具冲突通过 hashmap 排队解决
→ AIOS · Virtual Context Management · Harness Engineering · MemGPTCOLM 2025 arXiv:2403.16971

AIOS: LLM Agent Operating System

来源

摘要

AIOS 提出了一个 OS 级架构来管理并发的 LLM agent。核心洞察:当多个 agent 共享同一个 LLM 时,面临的问题(调度、隔离、中断恢复、内存管理)与 1960 年代操作系统面对 CPU 的问题同构。

论文将传统 OS 的六大模块直接映射到 agent 管理:

传统 OSAIOS
CPU 核心LLM Core(模型实例抽象)
进程调度Agent Scheduler(FIFO / Round Robin)
虚拟内存 / 上下文切换Context Manager(推理快照与恢复)
RAM 管理Memory Manager(对话历史,LRU-K 换页)
磁盘管理Storage Manager(持久知识库)
系统调用AIOS Syscall(标准化请求接口)
权限控制Access Manager(agent 间数据隔离)

架构

三层设计:

  1. 应用层:agent 通过 AIOS SDK 调用系统资源,支持 ReAct、Reflexion、AutoGen、Open-Interpreter、MetaGPT 等框架的适配器
  2. 内核层:AIOS kernel 封装所有资源管理。agent 请求被拆成 syscall,scheduler 分发到对应模块
  3. 硬件层:GPU/CPU/内存/磁盘,AIOS kernel 通过 OS syscall 间接访问

关键机制

Context Snapshot/Restore

LLM 推理中断时保存中间状态:

  • 文本快照:适用于闭源 API,保存已生成文本
  • Logits 快照:保存搜索树状态(候选 token + 概率),恢复更精确

这使 Round Robin 调度成为可能——不再是”一个 agent 占到完”。

内存换页

Memory Manager 用 LRU-K 策略:访问不足 K 次的对话历史从 RAM 换到磁盘,需要时再换回。

工具冲突解决

Tool Manager 用 hashmap 追踪工具实例数量,检测并行访问冲突,排队等待。

实验结果

单 GPU(RTX A5000),250 个 agent 并发:

  • 吞吐量最高提升 2.1x(Reflexion + Llama-3.1-8b)
  • Agent 性能不降反升:prompt 增强和工具参数校验带来轻微提升
  • 250→2000 agent 扩展近似线性

关键收获

  1. LLM-OS 类比 类比的工程化:不只是修辞,而是把 OS 六大模块逐一实现。这是 Karpathy “LLM = CPU” 类比的最完整系统实现
  2. Context 切换的第三条路:相比 compaction(有损)和 full reset(全丢),logits 快照提供精确的中间状态恢复
  3. Syscall 分解:agent 请求拆成原子操作后可独立调度和重试,与 harness engineering 的容错原则一致

局限

  • 实验仅单 GPU,回避了多 GPU/多节点的调度复杂度
  • 消融实验缺失,性能提升的归因不够干净
  • 扩展性测试用重复样本而非异构 agent 负载

与其他来源的关系

  • MemGPT 同样借鉴 OS 概念,但聚焦虚拟内存/上下文管理;AIOS 范围更广,覆盖完整的内核模块集
  • Karpathy 的 LLM OS 类比 提供了概念框架;AIOS 是最完整的工程实现
  • AgenticOS Workshop(ASPLOS 2026)代表了学术系统社区对同一方向的持续关注
  • Harness engineering 在应用层解决类似问题(调度、容错、隔离),AIOS 在系统层解决

References

  • sources/arxiv_papers/2403.16971-aios-llm-agent-operating-system.md