Seven Mental · 心智七篇
← Knowledge Atlas · Source

AIOS: LLM Agent Operating System

AIOS:Rutgers 团队的 LLM Agent OS,OS 六大模块映射到 agent 管理,context 快照恢复,2.1x 吞吐量提升
SOURCE · AIOS · Rutgers · six-module OS mapping for LLMs · concurrent agents · COLM 2025

AIOS: LLM Agent Operating System

Mei et al. (Rutgers, COLM 2025) — OS-level resource management for concurrent LLM agents, 2.1× throughput gain

When multiple agents share a single LLM, the problems — scheduling, isolation, preemption/resume, memory — are structurally the same ones 1960s OSes faced around the CPU. AIOS maps all six classical OS modules onto LLM agent management; it’s the most complete engineering instantiation of Karpathy’s “LLM = CPU” analogy.

OS → AIOS module mapping
Classical OS
AIOS counterpart
CPU core
LLM Core (model-instance abstraction)
Process scheduling
Agent Scheduler (FIFO / Round Robin)
Virtual memory / context switch
Context Manager (inference snapshot & resume)
RAM management
Memory Manager (LRU-K paging)
System calls
AIOS Syscall (standardized interface)
Access control
Access Manager (inter-agent isolation)
Results (single GPU, 250 concurrent agents)
2.1× throughput gain
Reflexion + Llama-3.1-8b — Round Robin lets agents execute concurrently
Logits snapshot
Save search-tree state (candidate tokens + probabilities) — a third path for resumption, lossless compared to compaction
250→2000 agents near-linear
Tool conflicts resolved with a hashmap queue
→ AIOS · Virtual Context Management · Harness Engineering · MemGPTCOLM 2025 arXiv:2403.16971

AIOS: LLM Agent Operating System

来源

摘要

AIOS 提出了一个 OS 级架构来管理并发的 LLM agent。核心洞察:当多个 agent 共享同一个 LLM 时,面临的问题(调度、隔离、中断恢复、内存管理)与 1960 年代操作系统面对 CPU 的问题同构。

论文将传统 OS 的六大模块直接映射到 agent 管理:

传统 OSAIOS
CPU 核心LLM Core(模型实例抽象)
进程调度Agent Scheduler(FIFO / Round Robin)
虚拟内存 / 上下文切换Context Manager(推理快照与恢复)
RAM 管理Memory Manager(对话历史,LRU-K 换页)
磁盘管理Storage Manager(持久知识库)
系统调用AIOS Syscall(标准化请求接口)
权限控制Access Manager(agent 间数据隔离)

架构

三层设计:

  1. 应用层:agent 通过 AIOS SDK 调用系统资源,支持 ReAct、Reflexion、AutoGen、Open-Interpreter、MetaGPT 等框架的适配器
  2. 内核层:AIOS kernel 封装所有资源管理。agent 请求被拆成 syscall,scheduler 分发到对应模块
  3. 硬件层:GPU/CPU/内存/磁盘,AIOS kernel 通过 OS syscall 间接访问

关键机制

Context Snapshot/Restore

LLM 推理中断时保存中间状态:

  • 文本快照:适用于闭源 API,保存已生成文本
  • Logits 快照:保存搜索树状态(候选 token + 概率),恢复更精确

这使 Round Robin 调度成为可能——不再是”一个 agent 占到完”。

内存换页

Memory Manager 用 LRU-K 策略:访问不足 K 次的对话历史从 RAM 换到磁盘,需要时再换回。

工具冲突解决

Tool Manager 用 hashmap 追踪工具实例数量,检测并行访问冲突,排队等待。

实验结果

单 GPU(RTX A5000),250 个 agent 并发:

  • 吞吐量最高提升 2.1x(Reflexion + Llama-3.1-8b)
  • Agent 性能不降反升:prompt 增强和工具参数校验带来轻微提升
  • 250→2000 agent 扩展近似线性

关键收获

  1. LLM-OS 类比 类比的工程化:不只是修辞,而是把 OS 六大模块逐一实现。这是 Karpathy “LLM = CPU” 类比的最完整系统实现
  2. Context 切换的第三条路:相比 compaction(有损)和 full reset(全丢),logits 快照提供精确的中间状态恢复
  3. Syscall 分解:agent 请求拆成原子操作后可独立调度和重试,与 harness engineering 的容错原则一致

局限

  • 实验仅单 GPU,回避了多 GPU/多节点的调度复杂度
  • 消融实验缺失,性能提升的归因不够干净
  • 扩展性测试用重复样本而非异构 agent 负载

与其他来源的关系

  • MemGPT 同样借鉴 OS 概念,但聚焦虚拟内存/上下文管理;AIOS 范围更广,覆盖完整的内核模块集
  • Karpathy 的 LLM OS 类比 提供了概念框架;AIOS 是最完整的工程实现
  • AgenticOS Workshop(ASPLOS 2026)代表了学术系统社区对同一方向的持续关注
  • Harness engineering 在应用层解决类似问题(调度、容错、隔离),AIOS 在系统层解决

References

  • sources/arxiv_papers/2403.16971-aios-llm-agent-operating-system.md