跳转至

二阶控制论

你调 prompt 的时候在做什么?

观察模型的输出,判断离期望有多远,修改 system prompt,再观察新的输出。这个循环可能持续几个小时。你就是一个在 session 级运行的控制器。

但同时,你也是系统的一部分。你的设计决策影响系统行为,系统行为影响你的下一个设计决策。你不是站在系统外面调参数的旁观者——你在里面。

1974 年,Heinz von Foerster 给这个现象划了一条线。

一阶与二阶

被观察系统的控制论。你站在系统外面,研究它怎么运作。Plant 在那边,observer 在这边,泾渭分明。前五篇的讨论——从 OCP 结构到反馈层次——都是一阶视角。

观察系统的控制论。你意识到观察者本身就在系统里面,观察行为在改变被观察的系统。不是"我在看它怎么跑",而是"我在看它怎么跑,而我的看法会改变它下一步怎么跑"。

一阶视角足以解决大部分工程问题。但有些现象只有二阶视角才能看清。

你就是那个 adaptive controller

调 prompt 的迭代过程,控制论里有一个名字:adaptive control——控制器根据被控对象的行为实时调整自身策略。

经典 adaptive control 里,控制器是一段算法。在 agentic system 的开发过程中,控制器是你——一个人类工程师,在 session 级的时间尺度上观测行为、判断效果、调整策略。你设计 harness 的过程本身就是一个反馈回路,只是闭合速度比 turn 级慢得多。

二阶控制论描述的正是这个结构:观察者和被观察系统之间没有单向箭头,只有环路。

当系统观察自己

比你调 prompt 更有意思的是:模型自己也能做类似的事。

Agent 自己生成、自己检查、自己修正——generator 和 evaluator 是同一个模型。

Constitutional AI:自我观察的工程化

Constitutional AI 把这个逻辑推到了训练层面:模型用一组原则批评自己的输出,用自己的判断生成偏好数据,再用这些数据训练自己的奖励模型。观察者和被观察者合一了。

论文、代码、可量化的效果都有——但它依赖一个前提:系统的自我评估足够可靠。

工程边界

Self-correction 依赖一个前提:模型在目标领域的判断力足以评估自己的输出。如果判断力不够,self-correction 可能把对的改成错的——错误的自我评估比没有自我评估更危险。

Anthropic 的 circuit tracing 研究发现模型有时会表现出 introspective awareness——能报告自己在做什么,且报告有时与内部计算路径一致。这是否意味着某种"自我意识",是一个严肃研究者仍在争论的问题。对工程来说,重要的不是这个哲学判断,而是一个操作性问题:在你的具体任务上,模型的自我评估准不准?

分离原理与二阶视角的关系

02 说过,controller 和 observer 的职责应该分离。这里又说观察者和被观察者可以合一。并不矛盾——它们在不同层次上说话。

分离原理是 harness 内部的工程原则:同一个代码库里,控制组件和观测组件各司其职,独立优化。一阶视角。

二阶视角关注的是另一件事。无论你怎么设计 harness,你自己(作为设计者)和系统之间始终构成一个环路——你的设计影响行为,行为影响你的下一个设计。这个环路无法消除,只能意识到。而意识到它的存在,就是理解为什么"把 harness 设计好"不是一个有终点的任务,而是一个持续的迭代过程。

控制论能给 agentic system 工程的视角到这里基本展开了。还剩一个问题:这些视角加在一起,画出的那条线到底在哪?

延伸阅读

  • Bai, Y. et al. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073. — 当系统观察自己:模型用原则批评自己的输出并自我训练,是二阶控制论在 AI 安全领域最完整的工程化实践
  • Anthropic. (2025). Circuit Tracing: Revealing Computational Graphs in Language Models. transformer-circuits.pub. — 模型能否可靠地"看到"自己在做什么?这篇给出了目前最精细的实证数据

概念与实体

本文涉及的核心概念与实体,在项目知识库中有更详细的资料:

  • Mechanistic Interpretability — circuit tracing 所属的研究领域,追问模型内部计算的可观测性
  • Evaluator-Optimizer — 分离原理在二阶视角下的张力:generator 和 evaluator 何时该分、何时可合
  • Harness Engineering — 二阶视角揭示 harness 设计是一个没有终点的迭代过程
  • Anthropic — Constitutional AI 和 Circuit Tracing 的研究发布方