2026 年 06 月 16 日published

循环工程：当 Claude Code 的作者说"我不再给 AI 提问"

loop-engineering循环工程AI-agent智能体context-engineeringClaude-CodeCodexBoris-ChernyAddy-Osmaniagentic-loop验证token经济学

循环工程：当 Claude Code 的作者说"我不再给 AI 提问"

本期关键词：循环工程（你不再亲自给 AI 下指令，而是写一个程序去替你反复下指令）/ 验证（一个机器能自动判断"做完了没有"的检查，是循环敢不敢无人值守跑下去的命门）

2026 年 6 月第一周，三句话在 AI 圈撞到了一起。一句来自 Boris Cherny——Claude Code 这个工具的创建者、Anthropic 的 Claude Code 负责人。他在一次访谈里说："我不再给 Claude 提问了。我有一堆循环在跑，是它们在给 Claude 提问、决定该做什么。我的工作就是写循环。"（原文："I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write loops."）

把这句话读第二遍。造出这个时代最成功的 AI 编程工具的人，公开宣布他自己已经不再直接用这个工具的核心交互方式了。 同一周，前 PSPDFKit 创始人、开源助手 OpenClaw 的作者 Peter Steinberger 发了一条推：你不该再亲手给编程智能体提问了，你该去设计那些替你提问的循环。这条推冲到了几百万次阅读，评论区一片"那到底怎么做"。然后，Google Chrome 团队的工程负责人 Addy Osmani 写了一篇长文，给这套做法起了个名字——loop engineering，循环工程。

一个词就这样诞生了。但比起追这个词能火多久，更值得拆的是它背后那个真实的位移：人对 AI 的介入点，正在往上挪一层。

一、这个词到底在说什么

Addy Osmani 给的定义干净利落："循环工程是把你自己——那个给智能体提问的人——替换掉。你转而去设计那个替你提问的系统。"（原文："Loop engineering is replacing yourself as the person who prompts the agent. You design the system that does it instead."）他把循环描述成一个"递归目标"：你定义一次目的，AI 就一直迭代到真正做完为止。

事实层面，他说了什么。 过去差不多两年，从编程智能体里榨出东西的办法是：你写一个好提示词、塞够上下文，打一行字，读回来的内容，再打下一行。智能体是个工具，你全程握着它，一回合接一回合。Osmani 说，这部分"差不多结束了，至少有些人认为快结束了"。取而代之的是：你搭一个小系统，它自己找活、派活、检查、记下做完了什么、再决定下一件事——然后你让这个系统去戳智能体，而不是你。

这意味着什么。 关键不在"AI 更强了所以你用得更多"，而在工作描述被重写了。Osmani 自己也写："循环工程比提示词工程更难，不是更容易。"难在哪？难在杠杆点移动了——你要设计的不再是一句话，而是一个会自己运转、还可能自己出错的控制系统。

外部佐证。 这个定义并非孤证。Simon Willison 早在 2025 年 9 月就写过一篇《Designing agentic loops》（设计智能体循环），他对 LLM 智能体的定义是"在循环里运行工具来达成一个目标的东西"，并直说"设计智能体循环是一项非常新的技能——Claude Code 才在 2025 年 2 月首次发布"。更硬的佐证来自 Anthropic 官方：在 2025 年 9 月那篇《Effective context engineering for AI agents》里，Anthropic 把智能体的定义收敛成一句"LLMs autonomously using tools in a loop"（LLM 自主地在循环里使用工具），并明确引用了 Willison 的同一定义[1][2][4]。换句话说，"循环"是行业已经达成共识的智能体内核，"循环工程"只是给"人如何介入这个内核"补了一个名字。

循环工程：当 Claude Code 的作者说"我不再给 AI 提问" 配图 2

二、第三次杠杆迁移

要理解这个词为什么现在火，最好的框架是把过去三年的三个"X 工程"摆在一起看。它们其实在回答同一个问题：人的判断，买在哪一层回报最大？

2023 年，提示词工程——杠杆在"措辞"层。 ChatGPT 之后的第一年，全行业相信跟模型说话是门手艺：角色扮演、思维链咒语、给小费式的哄骗。一度有公司开出年薪约 30 万美元招"提示词工程师"（Anthropic 2023 年那条招聘广告被广泛报道）。这门手艺贬值得飞快，原因有二：模型变强后大部分措辞技巧成了默认行为；而真正留下来的那部分——把任务说清楚——本来就不算工程，那叫"表达清楚"。

2025 年中，上下文工程——杠杆在"信息架构"层。 Shopify 的 CEO Tobi Lütke 造了这个词，Karpathy 点了赞，优化对象从一句话扩大到整个上下文窗口：放哪些文档、暴露哪些工具、保留多少历史——把窗口当成一份有限的"注意力预算"来管。Anthropic 那篇官方文章把它说透了：上下文是"有限资源，边际收益递减"，因为存在"context rot（上下文腐烂）"——token 越多，模型从中准确召回信息的能力反而下降[1]。

2026 年中，循环工程——杠杆在"控制"层。 优化对象再往上挪一级：不再是"这一次调用里装什么"，而是"谁发起调用、调几次、什么时候停"。人从循环内部，挪到了循环外部。

这里有两个被传播稀释掉的关键点，必须讲清楚。

第一，这是叠加，不是替代。 循环的每一轮，仍然是一次带着上下文的模型调用——提示词和上下文那些活一点没省，只是从"每次手动做"变成"写进系统里自动做"。Osmani 说得直接："循环是用提示词搭起来的。"那些宣布"提示词工程已死"的文章，作者往往就是当年宣布它是"未来十年最重要技能"的同一批人。

第二，这些名词的寿命在缩短。 提示词到上下文用了两年半，上下文到循环只用了一年。两种解读都成立：领域确实在加速，内容营销消费新名词的速度也在加速。所以这篇文章不赌这个词能活多久，而是赌它指向的那个杠杆位移是真的——证据在下一节：零件已经发货了。

循环工程：当 Claude Code 的作者说"我不再给 AI 提问" 配图 3

三、一个循环的解剖：五个零件加一块记忆

Osmani 把一个能跑起来的循环拆成五个零件加一块地基。逐个看，没一个是玄学。

① 自动化触发。 循环的起搏器：工作日早上 9 点自动扫一遍昨夜的 CI 失败、新开的 issue、积压的评审。它解决"谁来按第一次回车"。在 Claude Code 里这对应 /loop、定时任务、hooks；在 Codex 里对应云端 Automations 面板。

② 隔离工作区。 git worktree 给每个并行的智能体一个独立目录，互不踩脚。它解决并行——没有隔离，两个智能体改同一个文件就是灾难，跟两个工程师不打招呼往同一行提交一模一样。

③ 技能文档。 可复用的项目知识，代表形态是 SKILL.md：测试怎么跑、发布流程是什么、这个仓库有哪些禁忌。它把"每次都要重讲的东西"变成代码库的一部分。Osmani 有个相关说法叫"intent debt（意图债）"——智能体每次开局都是冷启动，你不写下来的意图，它就用一个自信的猜测填上。

④ 外部连接器。 标准化接口，代表是 MCP，接进 issue 跟踪、Slack、部署系统。一个只能看见文件系统的循环是个小循环；连接器是让循环能在你真实环境里动手、而不只是嘴上说"我会怎么做"的原因。

⑤ 子智能体。 重点是分工：起草的智能体和评审的智能体，分开——也就是"maker-checker（造的人/验的人）"。让犯错的那个给自己作业打分，正是 2023 年那轮失败的核心教训。

⑥ 记忆。 跨轮次的状态：做了什么、定了什么、踩过哪些坑。一个 markdown 文件、一块 Linear 看板，任何活在单次对话之外的东西。没有它，循环每天早上都是条金鱼。

这意味着什么。 把六个零件串起来，一个早晨是这样的：自动化触发 → 一个 triage（分诊）技能读 CI 失败和新 issue、把发现写进记忆文件 → 每个标记为"快速可做"的条目开一个隔离工作区，子智能体起草修复 → 另一个验证者子智能体对照项目约定来审 → 连接器开 PR、更新工单 → 它处理不了的，落进一个收件箱等你人工裁决。你醒来面对的不是空编辑器，而是一排等你判断的 PR。

外部佐证：这不是愿景 PPT。 最硬的证据是，Claude Code 和 Codex 这两个激烈竞争的产品，在同一个季度发货了几乎一一对应的同一套原语[3][7]。Osmani 在原文里逐项对照了两者的功能表，从 Automations 到 worktree 到 Skills 到 MCP 到 subagents 全都有。Codex 的 /goal 命令随 CLI 0.128.0 于 2026 年 4 月 30 日上线，Claude Code 也有同名的 /goal——给个可验证条件就跑到达标为止[8]。Osmani 的判断一针见血："当两个激烈竞争的厂商在同一季度发货同一套原语，这说明需求是真的，比任何博客都说得清楚。"

循环工程：当 Claude Code 的作者说"我不再给 AI 提问" 配图 4

四、为什么 AutoGPT 死了，循环活了：分水岭是验证

不过在拆"为什么活下来"之前，得先看清"循环"这个词其实藏了至少五种不同的东西——从老到新排成一道阶梯，能让你不再跟人鸡同鸭讲。

2022 年的 ReAct 论文把模式形式化：模型推理→调工具→读结果→重复，一个模型、一个人盯着。2023 年的 AutoGPT 让智能体自己给自己提问。2025 年中 Geoffrey Huntley 公布的 ralph 循环（一行 bash：while :; do cat PROMPT.md | claude ; done）把它压缩成土法[10]。2026 年春 /goal 命令把它产品化。而 Boris 和 Steinberger 在 2026 年 6 月真正指的，是阶梯最新一级——一个循环监管一群智能体的"编排循环"，不是改名的 Ralph。

"给 AI 一个目标，让它循环到做完为止"——这个点子不是 2026 年的。2023 年 3 月底，AutoGPT 上线，承诺的几乎就是这句话：给 GPT-4 一个目标，它自己规划、执行、反思、继续。它大约六周破了 10 万 GitHub 星，是当时增星最快的仓库之一。然后，几个月内，所有认真用过的人得出同一个结论：它空转、偏题、烧钱，留下一地 demo。

同样的点子，为什么 2023 年是笑话，2026 年是头部工具负责人的日常工作流？momoview 那篇深度梳理给了三个变量，按重要性递增排列[7]：

第一，模型现在能扛住长任务了。 METR（一家 AI 评估机构）2025 年 3 月发布过一项被广泛引用的测量：前沿模型能以 50% 成功率完成的任务时长，大约每 7 个月翻一倍，这个趋势已经持续了 6 年[9][10]。2023 年的模型撑得住几分钟，2026 年的撑得住几小时。循环每转一轮就复合一次误差——单轮质量决定了一个循环在散架前能转多少轮。Osmani 的同行有句话很准：AutoGPT 不是想法错了，它是在 2023 年的引擎上跑了 2026 年的架构。

第二，配套零件到齐了。 隔离（worktree）、持久记忆、权限边界、标准化外部接口（MCP）——2023 年这些全靠裸金属手搓，一个跑飞的智能体直接糟蹋你的工作目录。

第三，也是分水岭：验证拿到了"真值"。 AutoGPT 判断"我做完了吗"靠的是模型自我反思——犯错的那个给自己打分。今天的编程循环终止于"测试全绿、lint 干净、CI 通过"——编译器和测试套件不在乎模型自我感觉多良好。 这正是编程成为循环工程第一个落地区的根本原因：不是程序员爱玩新玩具，而是这个行业恰好提前三十年，把"什么算做完了"写成了机器可检查的条件。

这意味着什么——一把比这个词更耐用的尺子。 这个洞察能直接推广成一个比名词本身更耐用的判断框架：循环工程渗透进一个领域的速度，取决于这个领域里"验证"有多便宜。

验证有机器真值的领域先被吃：代码、数据管道、有对账基线的财务流程。靠人的品味裁决的领域要么慢、要么永远停在半自动：设计、文案、战略。想判断一份工作会不会被智能体循环吃掉，先看它的"验证函数"长什么样。

反过来，这也指出了真正的工程量在哪。写一个 while 循环要五分钟；把"什么算做完了"写成机器可检查的条件，才是真正的活。终止条件写太松，循环提前宣布胜利、交半成品；写太紧，循环永不收敛、烧光预算。Steinberger 在推文评论区认同的一句话点破了这层（来自用户 @mosyaseen）："设计循环只是一半，另一半是往循环里放一个能说'不'的东西：一个测试、一个类型检查、一个真实的报错。一个没有任何东西能顶回去的循环，就是智能体在原地反复同意自己。"[3]

循环工程：当 Claude Code 的作者说"我不再给 AI 提问" 配图 5

五、盲区：没说的、说得太乐观的

把这个词的热度按下去，几件事必须摆上桌。

"它其实就是个戴了帽子的 cron job。" 这是怀疑者最锋利的一句。半对。是的，调度层确实就是 cron——Boris 自己就在 cron 上跑循环，Claude Code 的 /loop 底层也用调度。如果你对循环的全部定义就是"一个定时跑的东西"，那这玩意儿 1975 年就发明了，你可以回家了。但 cron 从来没有的，是中间那一段：cron 每次跑固定脚本、走相同分支、不会自我纠错、是单个进程；而智能体循环每一轮读当前状态、自己决定下一步、能验证—失败—重试、还能派发并监管其他智能体。诚实的说法是：循环 = cron 加上一个会做决定的循环体。 真正的工程，是你围着那个"决定"包的所有东西，好让它别冲下悬崖。这一点在多个独立批评里被反复确认[5][6]。

这个词的"上下"位置自己都没理清。 有一个被独立观察到的尴尬：在某些人的梗图里，loop engineering 是接在 harness engineering（环境工程）之后的更高一级；但按 Boris 这个造出全球最常用编程智能体的人的说法，循环是 harness 之下的一层（Osmani 自己也把循环放在 harness "上面一层"）。两种说法不可能都是前沿。一个词内部对自己处在阶梯哪一格都没共识，恰恰说明它还在被营销话术拉扯[5]。

厂商自报的数字要打折看。 流传最广的几个数字都来自当事人或厂商口径，独立核实有限：Boris 称在 2025 年 12 月 27 日前的 30 天里，他对 Claude Code 的贡献"100% 由 Claude Code 写成"、落地 259 个 PR，并称自己 2025 年 11 月删掉 IDE 后再没打开过[8]；他还在播客里给过一个"Anthropic 内部 70–90% 的代码现在由 AI 生成"的数字——这是厂商自报、未经独立验证。把这些当"指向性信号"看可以，当"已证事实"引用则危险。

最舒服的姿势，是最危险的失败。 Osmani 自己列了三条不会随热度消失的代价。一是"comprehension debt（理解债）"——代码进仓库的速度，快过理解进你脑子的速度，循环越顺，你对自己署名的代码库就越快变成陌生人。二是验证天花板仍然是人——worktree 解决了并行的机械冲突，没解决评审带宽，你一天能认真读多少 PR，才是循环有效产出的真实上限。三是"cognitive surrender（认知投降）"——同一个循环，一个工程师用它加深理解、另一个用它逃避思考，短期产出长得一模一样，"循环不知道区别，你知道"。

还有一笔账：循环是 token 消耗的乘数。 手动提问时代，token 消耗有天然上限——锁在人的阅读速度和工作时长上。循环把这个锁拆了三次：时间维度（凌晨 2 点的 CI 失败也会被捡起来修）、并行维度（一人名下 N 个并行智能体成了默认配置）、验证维度（maker-checker 意味着每行被接受的输出背后至少两份 token 开销）。烧钱的循环不会报警，它看起来很忙、产出很多、画出漂亮的曲线。一句话值得刻下来："Slop token（垃圾 token）是负价值资产：你付一次钱生成垃圾，再付一次钱去识别和删掉它。"[7]

循环工程：当 Claude Code 的作者说"我不再给 AI 提问" 配图 6

六、对从业者意味着什么（具体可执行）

把判断落到能做的动作上。

如果你写代码：从 /loop 起步，但先把"完成"写成机器能查的条件。 不要一上来就搭编排大循环。先拿一个有现成测试的小任务——比如"test/auth 目录下所有测试通过且 lint 干净"——交给 Claude Code 的 /goal 或 Codex 的 /goal 跑跑看。真正要练的不是写循环（五分钟的事），是写终止条件。Simon Willison 给的判断标准最实用：当你发现自己在想"唉，这里我得试一大堆变体"时，就是值得上循环的强信号——调试、性能调优、依赖升级、压缩容器体积，这类"目标清晰 + 需要乏味试错"的活最适合[2]。

先低频、紧终止、手动抽查——这不是最佳实践，是生存条件。 在你把 /loop 当 cron 用之前，先算清楚它一夜最多能烧多少钱。一条写松的终止条件，能一晚上烧光一个月预算，而且如果产出是垃圾，你还要再付人工时间去清理。

把验证者和起草者分成两个智能体、甚至两个模型。 这是循环里结构上最有用的一件事。让你的安全评审子智能体用强模型、高推理力度，让探索者用快的只读模型。循环是在你不看着的时候跑的，一个你真正信得过的验证者，是你敢走开的唯一理由。

把项目知识写进 SKILL.md，把"做什么"和"何时算停"分别写进 spec 和 goal。 spec 定义"做什么"，让单次交付不跑偏；goal 条件定义"什么时候你被允许停下"。两者是同一枚硬币的两面。没有这些，循环每个周期都从零重新推导你的整个项目；有了，它才会复利。

最后，留住你的判断。 Osmani 那篇文章的收尾，恰好是整件事的题眼："去搭你的循环吧，但要像一个打算继续当工程师的人那样去搭，而不只是按下'开始'的那个人。"（原文："Build the loop. But build it like someone who intends to stay the engineer, not just the person who presses go."）他还补了一句更冷的："如果我不亲自审代码，或者完全依赖自动循环去修，我产品的质量会下滑，我大概率会陷进一个越挖越深的下行螺旋。"——造工具的人自己都在踩刹车，你也该踩。

这个名词也许活不过今年，它跟 harness engineering、agent engineering 的边界已经模糊。但有一个结构性区别值得记下来：2023 年那轮是"先有名、能力缺席"（AutoGPT 10 万星时没人拿它干真活）；这一轮是"先有能力、后有名"（土法跑了一年、产品化了半年，才有人给它起名字）。词死不死不重要——自动化触发、隔离工作区、机器可检查的终止条件、maker-checker，这几个零件已经躺在两个头部产品的功能表上，不会随词一起退场。

你的杠杆，正在从"自己动手"，挪向"定义什么叫做得好"。

引用

Anthropic, Effective context engineering for AI agents, 2025-09-29. https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents （《为 AI 智能体做有效的上下文工程》——官方将智能体定义为"在循环里自主使用工具的 LLM"，并提出"上下文腐烂/注意力预算"概念）
Simon Willison, Designing agentic loops, 2025-09-30. https://simonwillison.net/2025/Sep/30/designing-agentic-loops/ （《设计智能体循环》——"我对 LLM 智能体的定义是在循环里运行工具来达成目标的东西"；给出何时该上循环的判断标准）
Addy Osmani, Loop Engineering, 2026-06（原始信源）. https://addyosmani.com/blog/loop-engineering/ （《循环工程》——"循环工程是把你自己这个提问的人替换掉，你转而设计那个替你提问的系统"；五件套加记忆的解剖；三条风险）
Andrej Karpathy / Anthropic 引用的智能体简单定义溯源. https://simonwillison.net/2025/Sep/18/agents/ （"LLMs autonomously using tools in a loop" 的定义出处）
Hamza Boulahia, Is Loop Engineering Really What We Need?, Towards AI, 2026-06. https://pub.towardsai.net/is-loop-engineering-really-what-we-need-77506986bf2a （怀疑视角："cron job 戴帽子"那句话漏掉了什么；循环上下位置之争）
Loop engineering, tested: 47 Claude Code runs vs the hype, The Deep Feed, 2026-06-08. https://www.thedeepfeed.ai/posts/2026-06-08-loop-engineering-terminology-treadmill （47 次实测对照炒作；指出该词在阶梯中位置自相矛盾）
Momoview, Loop Engineering: After Prompt and Context, AI Engineering's Third Leverage Shift, 2026-06. https://momoview.com/blog/en/posts/loop-engineering-third-leverage-shift-from-prompt-context-to-designing-loops-verification-token-economics/ （《循环工程：继提示词与上下文之后,AI 工程的第三次杠杆迁移》——三杠杆框架、AutoGPT 对比、token 经济学、六条冷静提醒）
explainX, Loop Engineering: How to Design Coding Agent Loops That Run While You Sleep (2026 Guide), 2026-06. https://explainx.ai/blog/loop-engineering-coding-agents-claude-code-guide-2026 （时间线梳理：Steinberger 6 月 8 日推文 650 万阅读、Boris 的三级阶梯、259 PR 与删 IDE 等数字、ralph 到编排循环五级演进）
METR, Measuring AI Ability to Complete Long Tasks, 2025-03-19. https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/ （《测量 AI 完成长任务的能力》——50% 成功率任务时长每约 7 个月翻一倍，持续 6 年）
Geoffrey Huntley, Ralph Wiggum as a "software engineer", 2025. https://ghuntley.com/ralph/ （ralph 循环原文："Ralph 是一个 bash 循环"：while :; do cat PROMPT.md | claude-code ; done）
WorkOS, Key takeaways from Boris Cherny on building Claude Code (Acquired Unplugged), 2026-06. https://workos.com/blog/boris-cherny-claude-code-acquired-interview-takeaways （Boris Cherny 现场发言"我不再给 Claude 提问，我有循环在跑"的官方记录与上下文）