跳转至

AIOS: LLM Agent Operating System

来源

  • 论文: Kai Mei, Xi Zhu, Wujiang Xu 等(Rutgers University)
  • 路径: sources/arxiv_papers/2403.16971-aios-llm-agent-operating-system.md
  • URL: https://arxiv.org/abs/2403.16971
  • 发表: COLM 2025
  • ljg-paper 分析: aios-llm-agent-operating-system.org

摘要

AIOS 提出了一个 OS 级架构来管理并发的 LLM agent。核心洞察:当多个 agent 共享同一个 LLM 时,面临的问题(调度、隔离、中断恢复、内存管理)与 1960 年代操作系统面对 CPU 的问题同构。

论文将传统 OS 的六大模块直接映射到 agent 管理:

传统 OS AIOS
CPU 核心 LLM Core(模型实例抽象)
进程调度 Agent Scheduler(FIFO / Round Robin)
虚拟内存 / 上下文切换 Context Manager(推理快照与恢复)
RAM 管理 Memory Manager(对话历史,LRU-K 换页)
磁盘管理 Storage Manager(持久知识库)
系统调用 AIOS Syscall(标准化请求接口)
权限控制 Access Manager(agent 间数据隔离)

架构

三层设计:

  1. 应用层:agent 通过 AIOS SDK 调用系统资源,支持 ReAct、Reflexion、AutoGen、Open-Interpreter、MetaGPT 等框架的适配器
  2. 内核层:AIOS kernel 封装所有资源管理。agent 请求被拆成 syscall,scheduler 分发到对应模块
  3. 硬件层:GPU/CPU/内存/磁盘,AIOS kernel 通过 OS syscall 间接访问

关键机制

Context Snapshot/Restore

LLM 推理中断时保存中间状态: - 文本快照:适用于闭源 API,保存已生成文本 - Logits 快照:保存搜索树状态(候选 token + 概率),恢复更精确

这使 Round Robin 调度成为可能——不再是"一个 agent 占到完"。

内存换页

Memory Manager 用 LRU-K 策略:访问不足 K 次的对话历史从 RAM 换到磁盘,需要时再换回。

工具冲突解决

Tool Manager 用 hashmap 追踪工具实例数量,检测并行访问冲突,排队等待。

实验结果

单 GPU(RTX A5000),250 个 agent 并发:

  • 吞吐量最高提升 2.1x(Reflexion + Llama-3.1-8b)
  • Agent 性能不降反升:prompt 增强和工具参数校验带来轻微提升
  • 250→2000 agent 扩展近似线性

关键收获

  1. LLM-OS 类比 类比的工程化:不只是修辞,而是把 OS 六大模块逐一实现。这是 Karpathy "LLM = CPU" 类比的最完整系统实现
  2. Context 切换的第三条路:相比 compaction(有损)和 full reset(全丢),logits 快照提供精确的中间状态恢复
  3. Syscall 分解:agent 请求拆成原子操作后可独立调度和重试,与 harness engineering 的容错原则一致

局限

  • 实验仅单 GPU,回避了多 GPU/多节点的调度复杂度
  • 消融实验缺失,性能提升的归因不够干净
  • 扩展性测试用重复样本而非异构 agent 负载

与其他来源的关系

  • MemGPT 同样借鉴 OS 概念,但聚焦虚拟内存/上下文管理;AIOS 范围更广,覆盖完整的内核模块集
  • Karpathy 的 LLM OS 类比 提供了概念框架;AIOS 是最完整的工程实现
  • AgenticOS Workshop(ASPLOS 2026)代表了学术系统社区对同一方向的持续关注
  • Harness engineering 在应用层解决类似问题(调度、容错、隔离),AIOS 在系统层解决

References

  • sources/arxiv_papers/2403.16971-aios-llm-agent-operating-system.md