AIOS: LLM Agent Operating System

AIOS：Rutgers 团队的 LLM Agent OS，OS 六大模块映射到 agent 管理，context 快照恢复，2.1x 吞吐量提升

源

来源 · AIOS · Rutgers · OS 六大模块 LLM 映射 · 并发 Agent · COLM 2025

AIOS: LLM Agent Operating System

Mei 等（Rutgers，COLM 2025）——并发 LLM agent 的 OS 级资源管理，2.1x 吞吐提升

当多个 agent 共享同一 LLM 时，面临的问题——调度、隔离、中断恢复、内存管理——与 1960 年代 OS 面对 CPU 的问题同构。AIOS 将传统 OS 六大模块逐一映射到 LLM agent 管理，是 Karpathy「LLM = CPU」类比的最完整工程实现。

OS → AIOS 模块映射

传统 OS

AIOS 对应

CPU 核心

LLM Core（模型实例抽象）

进程调度

Agent Scheduler（FIFO/Round Robin）

虚拟内存/上下文切换

Context Manager（推理快照与恢复）

RAM 管理

Memory Manager（LRU-K 换页）

系统调用

AIOS Syscall（标准化接口）

权限控制

Access Manager（agent 间隔离）

实验结果（单 GPU，250 个 agent 并发）

2.1× 吞吐提升

Reflexion + Llama-3.1-8b——Round Robin 调度使 agent 并发执行

Logits 快照

保存搜索树状态（候选 token + 概率）——中断恢复的第三条路，比 compaction 无损

250→2000 agent 近似线性扩展

工具冲突通过 hashmap 排队解决

→ AIOS · Virtual Context Management · Harness Engineering · MemGPTCOLM 2025 arXiv:2403.16971

AIOS: LLM Agent Operating System

来源

论文: Kai Mei, Xi Zhu, Wujiang Xu 等（Rutgers University）
路径: sources/arxiv_papers/2403.16971-aios-llm-agent-operating-system.md
URL: https://arxiv.org/abs/2403.16971
发表: COLM 2025
ljg-paper 分析: aios-llm-agent-operating-system.org

摘要

AIOS 提出了一个 OS 级架构来管理并发的 LLM agent。核心洞察：当多个 agent 共享同一个 LLM 时，面临的问题（调度、隔离、中断恢复、内存管理）与 1960 年代操作系统面对 CPU 的问题同构。

论文将传统 OS 的六大模块直接映射到 agent 管理：

传统 OS	AIOS
CPU 核心	LLM Core（模型实例抽象）
进程调度	Agent Scheduler（FIFO / Round Robin）
虚拟内存 / 上下文切换	Context Manager（推理快照与恢复）
RAM 管理	Memory Manager（对话历史，LRU-K 换页）
磁盘管理	Storage Manager（持久知识库）
系统调用	AIOS Syscall（标准化请求接口）
权限控制	Access Manager（agent 间数据隔离）

架构

三层设计：

应用层：agent 通过 AIOS SDK 调用系统资源，支持 ReAct、Reflexion、AutoGen、Open-Interpreter、MetaGPT 等框架的适配器
内核层：AIOS kernel 封装所有资源管理。agent 请求被拆成 syscall，scheduler 分发到对应模块
硬件层：GPU/CPU/内存/磁盘，AIOS kernel 通过 OS syscall 间接访问

关键机制

Context Snapshot/Restore

LLM 推理中断时保存中间状态：

文本快照：适用于闭源 API，保存已生成文本
Logits 快照：保存搜索树状态（候选 token + 概率），恢复更精确

这使 Round Robin 调度成为可能——不再是”一个 agent 占到完”。

内存换页

Memory Manager 用 LRU-K 策略：访问不足 K 次的对话历史从 RAM 换到磁盘，需要时再换回。

工具冲突解决

Tool Manager 用 hashmap 追踪工具实例数量，检测并行访问冲突，排队等待。

实验结果

单 GPU（RTX A5000），250 个 agent 并发：

吞吐量最高提升 2.1x（Reflexion + Llama-3.1-8b）
Agent 性能不降反升：prompt 增强和工具参数校验带来轻微提升
250→2000 agent 扩展近似线性

关键收获

LLM-OS 类比类比的工程化：不只是修辞，而是把 OS 六大模块逐一实现。这是 Karpathy “LLM = CPU” 类比的最完整系统实现
Context 切换的第三条路：相比 compaction（有损）和 full reset（全丢），logits 快照提供精确的中间状态恢复
Syscall 分解：agent 请求拆成原子操作后可独立调度和重试，与 harness engineering 的容错原则一致

局限

实验仅单 GPU，回避了多 GPU/多节点的调度复杂度
消融实验缺失，性能提升的归因不够干净
扩展性测试用重复样本而非异构 agent 负载

与其他来源的关系

MemGPT 同样借鉴 OS 概念，但聚焦虚拟内存/上下文管理；AIOS 范围更广，覆盖完整的内核模块集
Karpathy 的 LLM OS 类比提供了概念框架；AIOS 是最完整的工程实现
AgenticOS Workshop（ASPLOS 2026）代表了学术系统社区对同一方向的持续关注
Harness engineering 在应用层解决类似问题（调度、容错、隔离），AIOS 在系统层解决

References

sources/arxiv_papers/2403.16971-aios-llm-agent-operating-system.md