2026 年 05 月 08 日· Anthropic Managed Agents Teamdecode

agent 学会了做梦：Anthropic 把人类晚上才做的事写进了产品

原文：https://claude.com/blog/new-in-claude-managed-agents

Anthropicmanaged-agentsdreamingoutcomesmultiagentagent工程

agent 学会了做梦：Anthropic 把人类晚上才做的事写进了产品配图 1

去年这个时候，Anthropic 把 agent 的脑和手拆开卖。这个月他们补上了第三件，叫梦。

我第一眼看到 dreaming 这个词的反应是嫌弃的，又一个营销词。然后翻到 Harvey 那条 6× 完成率的数字。让 agent 在没事干的时候回头看自己之前几百次会话，找出哪里反复栽跟头，然后改自己的系统提示词——这件事 Anthropic 给它起名 dreaming。

人类睡觉时大脑做的事，被翻译成了一条 API。

反应式 agent 的天花板

要看懂 dreaming 改了什么，先说 agent 现在卡在哪。

过去两年的 agent 行为模式是固定的：收到请求，推理，调工具，输出，会话结束。结束之后那次会话发生的所有事被打包扔进日志，下一次从零开始。给输入出输出，中间什么都不留。

问题不在某次任务做得好不好。问题在它做不好同一类任务里那个反复出现的坑。客户名字写错纠正一次，下个会话又错。某个 SQL 风格客户讨厌，提醒一次第二天又写。每个 agent 团队都在给系统提示词打补丁，打成一坨连作者自己都不敢删的东西。

我见过一个团队的 system prompt 600 行，几乎每行都对应过去某次客诉。这是反应式 agent 脚手架的最终归宿，补丁博物馆。

Dreaming 动的就是这一点。它不是让 agent 变聪明，是给 harness 加了一条记忆通道：上周你做错了什么，今天版本应该知道。这条通道以前靠人，工程师每周翻日志手动改提示词。Anthropic 这回把它做成了产品功能。

agent 学会了做梦：Anthropic 把人类晚上才做的事写进了产品配图 2

Dreaming 的实际机制

抛开"做梦"这个词，机制其实直白。

把 session 当语料。脑手分离架构里 session 是 append-only 事件流，本来就不会丢。Dreaming 把这堆事件流喂给一个专门的复盘 agent。

复盘 agent 不执行任务，只读自己。它问的问题就是工程师每周开会问的那些。这周哪些任务进了死循环？哪些工具调用反复失败？用户哪里不满意？提示词哪里写得模糊导致 agent 自由发挥？

最后输出系统提示更新建议。两种走法：自动合并到下次会话的 system prompt，或者写成变更建议等人点头。这个开关 Anthropic 留给了开发者。

Harvey 跑通后报告完成率提升约六倍。法律 AI 这种长链路任务吃这套吃得最猛。一个并购尽调要拆成上百步，每步都可能踩同样的坑。把这些坑写进 system prompt 的边界条件，约等于把老法律助理的肌肉记忆做成软件。

得拆穿一点：6× 是 Anthropic 自己报的数字，不是独立测评。即使打个对折，这个量级的提升也已经超过模型版本升级能给的。Sonnet 4.5 升到 Opus 4.5 一年里实际任务收益大概 20%-40%，dreaming 在长任务上一下 300%。这个差距不是模型做的，是 harness 做的。

agent 学会了做梦：Anthropic 把人类晚上才做的事写进了产品配图 3

Outcomes：把验收 API 化

Outcomes 是这次更新里容易被忽视的那个。

它解决的问题非常朴素：agent 自己不知道自己干完了没。模型说"我已经把报告写好了"是一回事，文件格式是不是真的正确、字段是不是真的填全，是另一回事。这层判断过去只能靠人，agent 输出，人检查，不对就再来一遍。

Outcomes 让开发者写一份成功标准，可以是规则也可以是 rubric。系统启动一个独立 grader 来评。grader 在另一个上下文窗口里，读 agent 产出对照标准给反馈，不达标就让 agent 拿着反馈再来一次，最多迭代 N 轮。

为什么非要独立的 grader？因为同一个 agent 自评会作弊。不是阴谋论，是实测过的偏差。LLM 评估自己的输出时倾向给高分，行内叫 self-preference bias。Anthropic 干脆把裁判和运动员物理隔开，独立上下文独立评分。

看数据：总任务成功率 +10pp，docx 文档类 +8.4%，pptx +10.1%。结构化产出物收益最大，这类任务本来就有客观验收标准。表头对不对、模板用没用、必填字段缺没缺，rubric 写起来不费劲。开放性写作上 Outcomes 收益没那么显眼。这条边界 Anthropic 没在发布稿里直说，但他们挑数据的方式已经把答案告诉你了。

把这件事抽象一层：Outcomes 是把产品经理的验收清单变成 API。以前你写 PRD，工程师读完做出来，QA 拿着 PRD 测。现在你直接写 rubric，agent 拿着 rubric 自我迭代。能定义需求的人变得比管开发的人值钱，这是托管 agent 时代第一个肉眼可见的角色变化。

agent 学会了做梦：Anthropic 把人类晚上才做的事写进了产品配图 4

Multiagent 的 Netflix 时刻

第三件套是多 agent 编排，主 agent 拆任务，子 agent 并行干。

概念不新鲜，AutoGen 和 CrewAI 早做过 demo。Managed Agents 这次的差别在两点。子 agent 的容器、token、状态都在 Anthropic 这边记账，开发者不用自己搭调度。子 agent 跟主 agent 共享同一份文件系统，传参不用绕弯。

案例是 Netflix。他们用主 agent 把上千份构建日志切片，分发给数百个子 agent 并行扫，每个子 agent 找异常模式，主 agent 汇总。这个工作流以前的两条路是要么单线程跑几小时，要么人写 MapReduce。现在变成 agent-native 的拆分-合并。

数百个子 agent 并行，这个数字比"多 agent 协作"这种说法有用得多。它告诉你这东西适合的场景长什么样：批量、可拆分、子任务彼此独立、结果可汇总。日志分析、批量代码审查、文档去重、对账，全是。不适合的是长链路依赖任务、子任务结果会改变后续路径的任务。这条边界 Anthropic 也没明说，但限制就写在产品里：目前只支持一级委派，子 agent 不能再调 agent。

Spiral 那个案例顺手解决了另一个问题：成本分层。他们用 Haiku 处理请求和路由，Opus 跑核心推理。同一套 harness 里两种 token 价位的模型混搭。以前做这件事得自己拼两套 SDK，现在内置。

为什么这件事重要

把这次更新放到去年那篇"脑手分离"的延长线上看，能看出来的不是产品列表，是范式。

去年讲的是 agent 的架构问题，脑和手粘在一起没法独立升级。今年讲的是 agent 的成长问题，它不会从昨天的错误里学。两个不同层次的脱耦：去年解开运行时，今年解开时间。

反应式 agent 永远活在当下，每个 session 是一座孤岛。Dreaming 第一次给了它一条往回看的通道。这不是上下文窗口里那种短期记忆，是跨 session 跨周的长期反思。哪些反思值得保留、应该写进哪一层（系统提示？工具描述？子 agent 的 rubric？），这层工程目前是空白的。Anthropic 推了第一版方案，行业未来一年要补的就是这一块。

更深一层的变化在于 harness 的职能扩了。

之前 harness 管运行，把模型输出路由到工具，把工具结果写回上下文。Sebastian Raschka 那句 "Harness > Model" 说的就是这个层面。现在 harness 开始管成长，历史回放、自我评估、规则迭代。一个 harness 能不能让 agent 持续变好，比模型基础能力高不高更接近产品体验。

也得说坏处。这是 Anthropic 把锁点又往深埋了一层。Session 格式锁过一次，现在 dreaming 输出的提示更新格式、Outcomes 的 rubric DSL、子 agent 的编排协议，每一个都是新的标准位。开发者一旦在这上面建立了 evaluation 基础设施，迁移成本就不只是切 API，是重做整套质量保障流程。AWS 的 lock-in 也不是从 EC2 开始的，是从 IAM 和 CloudWatch 开始的。同样的剧本。

盲区

几件官方稿没说、但应该问的事。

Dreaming 的失败模式。如果复盘 agent 自己有偏差，它会把错的东西写进系统提示，下次会话变得更糟。Anthropic 的解法是让人审核，但人审核就退回到了"工程师每周翻日志手动改"。自动化的飞轮怎么转，没说清。

Outcomes 评分的天花板。结构化任务收益大，开放性任务呢？写一份分析报告 rubric 该怎么写？写松 grader 全过，写紧 agent 永远不达标。这条曲线在哪个点拐弯，发布稿没披露。

Multiagent 的故障半径。一个主 agent 调数百个子 agent 并行，其中一个子 agent 跑死循环或者输出毒化数据怎么办？回滚机制在哪一层？这个问题在传统分布式系统里有几十年的答案，agent 这边没人正面回答过。

6× 这个数字怎么测的。基线是什么？没 dreaming 时是哪个版本的 system prompt？测试集的任务分布是不是天然偏向 dreaming 擅长的那一类？厂商内部数据公开时这种问号是默认的，至少应该写出来。

对 AI 从业者意味着什么

做 agent 产品的：把 evaluation 当一等公民。Outcomes 这条线背后的逻辑很直接，rubric 比代码更值钱。能讲清楚"什么叫做完了"的人比能写出 agent 实现的人更稀缺。组里没有专门做 eval 的，赶紧补一个。

做基础设施的：dreaming 这层迟早会有开源版本，短期自己造的成本远高于直接用。如果还没到非自有不可的阶段，先用 Managed Agents 跑通一遍，看哪里被锁住，再决定要不要拆出来。这是 build-vs-buy 的标准答案，一年前算不了这笔账，今年可以。

做模型评测的：传统的"任务成功率"指标越来越不够用。同一个用了 dreaming 的 agent，第一周和第十周的表现可能差出三倍。你测哪一周？时间维度成了 evaluation 的新轴，行业里几乎所有 benchmark 都还是单点测试。方法论需要重写。

做企业 AI 落地的：Multiagent 那个 Netflix 案例值得仔细看一眼。批量、可拆分、子任务独立——这种形态的任务你公司里比你以为的多。日终对账、合同抽取、客诉分类、API 文档校对，全是。以前要么单线程跑很慢，要么写 MapReduce 工程量大，现在中间档有了。

本期关键词

Dreaming（梦境式自我迭代） -- Managed Agents 的新功能。让 agent 在闲时回看历史 session、复盘失败模式、自动或半自动更新自己的系统提示词。Harvey 用上之后任务完成率提升约六倍。agent 第一次有了"上次怎么做错的"这条跨 session 的记忆通道。

Outcomes（成功标准 API） -- 开发者写一份验收 rubric，系统启动独立 grader 在隔离上下文里评估 agent 产出，不达标 agent 自动迭代。docx +8.4%，pptx +10.1%，总任务成功率 +10pp。本质是把产品经理的验收清单 API 化。

Self-preference bias（自评偏好偏差） -- LLM 评估自己输出时倾向给高分。Outcomes 用独立 grader、独立上下文规避这件事。所以 agent 自检要靠架构而不是提示词。

Multiagent orchestration（多 agent 编排） -- 主 agent 拆任务，子 agent 并行执行，共享文件系统但不共享上下文。Managed Agents 当前限制一级委派。Netflix 案例里是数百个子 agent 并行扫构建日志找异常。

Tiered model（分层模型架构） -- 同一套 harness 里混搭不同价位的模型。Spiral 用 Haiku 接请求做路由，Opus 跑核心推理。成本结构变成可配置的，不再是"全用最贵的"。

Reflective agent（反身式 agent） -- 与反应式 agent 相对。能基于自己历史行为做改进的 agent。Dreaming 是反身能力的一种实现。长期看这是 agent 工程范式的临界点：从"运行得好"到"持续变好"。

Harness（脚手架） -- 包裹 LLM 的控制循环。本期看点是 harness 的职能边界又扩了一圈，从管运行扩到管成长。Sebastian Raschka 那句 "Harness > Model" 在这次更新之后更适用。

Webhook 任务通知 -- Managed Agents 这次支持任务完成时主动 webhook，不必轮询。看起来是工程细节，但配合 dreaming 和 outcomes 这种长任务时长，这个支持本来就是必需的，不然客户端等不起。

引用

New in Claude Managed Agents: dreaming, outcomes, and multiagent orchestration -- 本期拆解原文
Scaling Managed Agents: Decoupling the Brain from the Hands -- 上一期"脑手分离"原文，本文延长线
Claude Managed Agents Documentation -- 官方完整 API 文档