AIDEEPAI 深度拆解
← 全部拆解
published

循环工程:当 Claude Code 的作者说"我不再给 AI 提问"

loop-engineering循环工程AI-agent智能体context-engineeringClaude-CodeCodexBoris-ChernyAddy-Osmaniagentic-loop验证token经济学
循环工程:当 Claude Code 的作者说"我不再给 AI 提问" 配图 1

循环工程:当 Claude Code 的作者说"我不再给 AI 提问"

本期关键词:循环工程(你不再亲自给 AI 下指令,而是写一个程序去替你反复下指令)/ 验证(一个机器能自动判断"做完了没有"的检查,是循环敢不敢无人值守跑下去的命门)

2026 年 6 月第一周,三句话在 AI 圈撞到了一起。一句来自 Boris Cherny——Claude Code 这个工具的创建者、Anthropic 的 Claude Code 负责人。他在一次访谈里说:"我不再给 Claude 提问了。我有一堆循环在跑,是它们在给 Claude 提问、决定该做什么。我的工作就是写循环。"(原文:"I don't prompt Claude anymore. I have loops running that prompt Claude and figuring out what to do. My job is to write loops.")

把这句话读第二遍。造出这个时代最成功的 AI 编程工具的人,公开宣布他自己已经不再直接用这个工具的核心交互方式了。 同一周,前 PSPDFKit 创始人、开源助手 OpenClaw 的作者 Peter Steinberger 发了一条推:你不该再亲手给编程智能体提问了,你该去设计那些替你提问的循环。这条推冲到了几百万次阅读,评论区一片"那到底怎么做"。然后,Google Chrome 团队的工程负责人 Addy Osmani 写了一篇长文,给这套做法起了个名字——loop engineering,循环工程

一个词就这样诞生了。但比起追这个词能火多久,更值得拆的是它背后那个真实的位移:人对 AI 的介入点,正在往上挪一层。

一、这个词到底在说什么

Addy Osmani 给的定义干净利落:"循环工程是把你自己——那个给智能体提问的人——替换掉。你转而去设计那个替你提问的系统。"(原文:"Loop engineering is replacing yourself as the person who prompts the agent. You design the system that does it instead.")他把循环描述成一个"递归目标":你定义一次目的,AI 就一直迭代到真正做完为止。

事实层面,他说了什么。 过去差不多两年,从编程智能体里榨出东西的办法是:你写一个好提示词、塞够上下文,打一行字,读回来的内容,再打下一行。智能体是个工具,你全程握着它,一回合接一回合。Osmani 说,这部分"差不多结束了,至少有些人认为快结束了"。取而代之的是:你搭一个小系统,它自己找活、派活、检查、记下做完了什么、再决定下一件事——然后你让这个系统去戳智能体,而不是你。

这意味着什么。 关键不在"AI 更强了所以你用得更多",而在工作描述被重写了。Osmani 自己也写:"循环工程比提示词工程更难,不是更容易。"难在哪?难在杠杆点移动了——你要设计的不再是一句话,而是一个会自己运转、还可能自己出错的控制系统。

外部佐证。 这个定义并非孤证。Simon Willison 早在 2025 年 9 月就写过一篇《Designing agentic loops》(设计智能体循环),他对 LLM 智能体的定义是"在循环里运行工具来达成一个目标的东西",并直说"设计智能体循环是一项非常新的技能——Claude Code 才在 2025 年 2 月首次发布"。更硬的佐证来自 Anthropic 官方:在 2025 年 9 月那篇《Effective context engineering for AI agents》里,Anthropic 把智能体的定义收敛成一句"LLMs autonomously using tools in a loop"(LLM 自主地在循环里使用工具),并明确引用了 Willison 的同一定义[1][2][4]。换句话说,"循环"是行业已经达成共识的智能体内核,"循环工程"只是给"人如何介入这个内核"补了一个名字。

循环工程:当 Claude Code 的作者说"我不再给 AI 提问" 配图 2

二、第三次杠杆迁移

要理解这个词为什么现在火,最好的框架是把过去三年的三个"X 工程"摆在一起看。它们其实在回答同一个问题:人的判断,买在哪一层回报最大?

2023 年,提示词工程——杠杆在"措辞"层。 ChatGPT 之后的第一年,全行业相信跟模型说话是门手艺:角色扮演、思维链咒语、给小费式的哄骗。一度有公司开出年薪约 30 万美元招"提示词工程师"(Anthropic 2023 年那条招聘广告被广泛报道)。这门手艺贬值得飞快,原因有二:模型变强后大部分措辞技巧成了默认行为;而真正留下来的那部分——把任务说清楚——本来就不算工程,那叫"表达清楚"。

2025 年中,上下文工程——杠杆在"信息架构"层。 Shopify 的 CEO Tobi Lütke 造了这个词,Karpathy 点了赞,优化对象从一句话扩大到整个上下文窗口:放哪些文档、暴露哪些工具、保留多少历史——把窗口当成一份有限的"注意力预算"来管。Anthropic 那篇官方文章把它说透了:上下文是"有限资源,边际收益递减",因为存在"context rot(上下文腐烂)"——token 越多,模型从中准确召回信息的能力反而下降[1]。

2026 年中,循环工程——杠杆在"控制"层。 优化对象再往上挪一级:不再是"这一次调用里装什么",而是"谁发起调用、调几次、什么时候停"。人从循环内部,挪到了循环外部。

这里有两个被传播稀释掉的关键点,必须讲清楚。

第一,这是叠加,不是替代。 循环的每一轮,仍然是一次带着上下文的模型调用——提示词和上下文那些活一点没省,只是从"每次手动做"变成"写进系统里自动做"。Osmani 说得直接:"循环是用提示词搭起来的。"那些宣布"提示词工程已死"的文章,作者往往就是当年宣布它是"未来十年最重要技能"的同一批人。

第二,这些名词的寿命在缩短。 提示词到上下文用了两年半,上下文到循环只用了一年。两种解读都成立:领域确实在加速,内容营销消费新名词的速度也在加速。所以这篇文章不赌这个词能活多久,而是赌它指向的那个杠杆位移是真的——证据在下一节:零件已经发货了。

循环工程:当 Claude Code 的作者说"我不再给 AI 提问" 配图 3

三、一个循环的解剖:五个零件加一块记忆

Osmani 把一个能跑起来的循环拆成五个零件加一块地基。逐个看,没一个是玄学。

① 自动化触发。 循环的起搏器:工作日早上 9 点自动扫一遍昨夜的 CI 失败、新开的 issue、积压的评审。它解决"谁来按第一次回车"。在 Claude Code 里这对应 /loop、定时任务、hooks;在 Codex 里对应云端 Automations 面板。

② 隔离工作区。 git worktree 给每个并行的智能体一个独立目录,互不踩脚。它解决并行——没有隔离,两个智能体改同一个文件就是灾难,跟两个工程师不打招呼往同一行提交一模一样。

③ 技能文档。 可复用的项目知识,代表形态是 SKILL.md:测试怎么跑、发布流程是什么、这个仓库有哪些禁忌。它把"每次都要重讲的东西"变成代码库的一部分。Osmani 有个相关说法叫"intent debt(意图债)"——智能体每次开局都是冷启动,你不写下来的意图,它就用一个自信的猜测填上。

④ 外部连接器。 标准化接口,代表是 MCP,接进 issue 跟踪、Slack、部署系统。一个只能看见文件系统的循环是个小循环;连接器是让循环能在你真实环境里动手、而不只是嘴上说"我会怎么做"的原因。

⑤ 子智能体。 重点是分工:起草的智能体和评审的智能体,分开——也就是"maker-checker(造的人/验的人)"。让犯错的那个给自己作业打分,正是 2023 年那轮失败的核心教训。

⑥ 记忆。 跨轮次的状态:做了什么、定了什么、踩过哪些坑。一个 markdown 文件、一块 Linear 看板,任何活在单次对话之外的东西。没有它,循环每天早上都是条金鱼。

这意味着什么。 把六个零件串起来,一个早晨是这样的:自动化触发 → 一个 triage(分诊)技能读 CI 失败和新 issue、把发现写进记忆文件 → 每个标记为"快速可做"的条目开一个隔离工作区,子智能体起草修复 → 另一个验证者子智能体对照项目约定来审 → 连接器开 PR、更新工单 → 它处理不了的,落进一个收件箱等你人工裁决。你醒来面对的不是空编辑器,而是一排等你判断的 PR。

外部佐证:这不是愿景 PPT。 最硬的证据是,Claude Code 和 Codex 这两个激烈竞争的产品,在同一个季度发货了几乎一一对应的同一套原语[3][7]。Osmani 在原文里逐项对照了两者的功能表,从 Automations 到 worktree 到 Skills 到 MCP 到 subagents 全都有。Codex 的 /goal 命令随 CLI 0.128.0 于 2026 年 4 月 30 日上线,Claude Code 也有同名的 /goal——给个可验证条件就跑到达标为止[8]。Osmani 的判断一针见血:"当两个激烈竞争的厂商在同一季度发货同一套原语,这说明需求是真的,比任何博客都说得清楚。"

循环工程:当 Claude Code 的作者说"我不再给 AI 提问" 配图 4

四、为什么 AutoGPT 死了,循环活了:分水岭是验证

不过在拆"为什么活下来"之前,得先看清"循环"这个词其实藏了至少五种不同的东西——从老到新排成一道阶梯,能让你不再跟人鸡同鸭讲。

2022 年的 ReAct 论文把模式形式化:模型推理→调工具→读结果→重复,一个模型、一个人盯着。2023 年的 AutoGPT 让智能体自己给自己提问。2025 年中 Geoffrey Huntley 公布的 ralph 循环(一行 bash:while :; do cat PROMPT.md | claude ; done)把它压缩成土法[10]。2026 年春 /goal 命令把它产品化。而 Boris 和 Steinberger 在 2026 年 6 月真正指的,是阶梯最新一级——一个循环监管一群智能体的"编排循环",不是改名的 Ralph。

"给 AI 一个目标,让它循环到做完为止"——这个点子不是 2026 年的。2023 年 3 月底,AutoGPT 上线,承诺的几乎就是这句话:给 GPT-4 一个目标,它自己规划、执行、反思、继续。它大约六周破了 10 万 GitHub 星,是当时增星最快的仓库之一。然后,几个月内,所有认真用过的人得出同一个结论:它空转、偏题、烧钱,留下一地 demo。

同样的点子,为什么 2023 年是笑话,2026 年是头部工具负责人的日常工作流?momoview 那篇深度梳理给了三个变量,按重要性递增排列[7]:

第一,模型现在能扛住长任务了。 METR(一家 AI 评估机构)2025 年 3 月发布过一项被广泛引用的测量:前沿模型能以 50% 成功率完成的任务时长,大约每 7 个月翻一倍,这个趋势已经持续了 6 年[9][10]。2023 年的模型撑得住几分钟,2026 年的撑得住几小时。循环每转一轮就复合一次误差——单轮质量决定了一个循环在散架前能转多少轮。Osmani 的同行有句话很准:AutoGPT 不是想法错了,它是在 2023 年的引擎上跑了 2026 年的架构。

第二,配套零件到齐了。 隔离(worktree)、持久记忆、权限边界、标准化外部接口(MCP)——2023 年这些全靠裸金属手搓,一个跑飞的智能体直接糟蹋你的工作目录。

第三,也是分水岭:验证拿到了"真值"。 AutoGPT 判断"我做完了吗"靠的是模型自我反思——犯错的那个给自己打分。今天的编程循环终止于"测试全绿、lint 干净、CI 通过"——编译器和测试套件不在乎模型自我感觉多良好。 这正是编程成为循环工程第一个落地区的根本原因:不是程序员爱玩新玩具,而是这个行业恰好提前三十年,把"什么算做完了"写成了机器可检查的条件。

这意味着什么——一把比这个词更耐用的尺子。 这个洞察能直接推广成一个比名词本身更耐用的判断框架:循环工程渗透进一个领域的速度,取决于这个领域里"验证"有多便宜。

验证有机器真值的领域先被吃:代码、数据管道、有对账基线的财务流程。靠人的品味裁决的领域要么慢、要么永远停在半自动:设计、文案、战略。想判断一份工作会不会被智能体循环吃掉,先看它的"验证函数"长什么样。

反过来,这也指出了真正的工程量在哪。写一个 while 循环要五分钟;把"什么算做完了"写成机器可检查的条件,才是真正的活。终止条件写太松,循环提前宣布胜利、交半成品;写太紧,循环永不收敛、烧光预算。Steinberger 在推文评论区认同的一句话点破了这层(来自用户 @mosyaseen):"设计循环只是一半,另一半是往循环里放一个能说'不'的东西:一个测试、一个类型检查、一个真实的报错。一个没有任何东西能顶回去的循环,就是智能体在原地反复同意自己。"[3]

循环工程:当 Claude Code 的作者说"我不再给 AI 提问" 配图 5

五、盲区:没说的、说得太乐观的

把这个词的热度按下去,几件事必须摆上桌。

"它其实就是个戴了帽子的 cron job。" 这是怀疑者最锋利的一句。半对。是的,调度层确实就是 cron——Boris 自己就在 cron 上跑循环,Claude Code 的 /loop 底层也用调度。如果你对循环的全部定义就是"一个定时跑的东西",那这玩意儿 1975 年就发明了,你可以回家了。但 cron 从来没有的,是中间那一段:cron 每次跑固定脚本、走相同分支、不会自我纠错、是单个进程;而智能体循环每一轮读当前状态、自己决定下一步、能验证—失败—重试、还能派发并监管其他智能体。诚实的说法是:循环 = cron 加上一个会做决定的循环体。 真正的工程,是你围着那个"决定"包的所有东西,好让它别冲下悬崖。这一点在多个独立批评里被反复确认[5][6]。

这个词的"上下"位置自己都没理清。 有一个被独立观察到的尴尬:在某些人的梗图里,loop engineering 是接在 harness engineering(环境工程)之后的更高一级;但按 Boris 这个造出全球最常用编程智能体的人的说法,循环是 harness 之下的一层(Osmani 自己也把循环放在 harness "上面一层")。两种说法不可能都是前沿。一个词内部对自己处在阶梯哪一格都没共识,恰恰说明它还在被营销话术拉扯[5]。

厂商自报的数字要打折看。 流传最广的几个数字都来自当事人或厂商口径,独立核实有限:Boris 称在 2025 年 12 月 27 日前的 30 天里,他对 Claude Code 的贡献"100% 由 Claude Code 写成"、落地 259 个 PR,并称自己 2025 年 11 月删掉 IDE 后再没打开过[8];他还在播客里给过一个"Anthropic 内部 70–90% 的代码现在由 AI 生成"的数字——这是厂商自报、未经独立验证。把这些当"指向性信号"看可以,当"已证事实"引用则危险。

最舒服的姿势,是最危险的失败。 Osmani 自己列了三条不会随热度消失的代价。一是"comprehension debt(理解债)"——代码进仓库的速度,快过理解进你脑子的速度,循环越顺,你对自己署名的代码库就越快变成陌生人。二是验证天花板仍然是人——worktree 解决了并行的机械冲突,没解决评审带宽,你一天能认真读多少 PR,才是循环有效产出的真实上限。三是"cognitive surrender(认知投降)"——同一个循环,一个工程师用它加深理解、另一个用它逃避思考,短期产出长得一模一样,"循环不知道区别,你知道"。

还有一笔账:循环是 token 消耗的乘数。 手动提问时代,token 消耗有天然上限——锁在人的阅读速度和工作时长上。循环把这个锁拆了三次:时间维度(凌晨 2 点的 CI 失败也会被捡起来修)、并行维度(一人名下 N 个并行智能体成了默认配置)、验证维度(maker-checker 意味着每行被接受的输出背后至少两份 token 开销)。烧钱的循环不会报警,它看起来很忙、产出很多、画出漂亮的曲线。一句话值得刻下来:"Slop token(垃圾 token)是负价值资产:你付一次钱生成垃圾,再付一次钱去识别和删掉它。"[7]

循环工程:当 Claude Code 的作者说"我不再给 AI 提问" 配图 6

六、对从业者意味着什么(具体可执行)

把判断落到能做的动作上。

如果你写代码:从 /loop 起步,但先把"完成"写成机器能查的条件。 不要一上来就搭编排大循环。先拿一个有现成测试的小任务——比如"test/auth 目录下所有测试通过且 lint 干净"——交给 Claude Code 的 /goal 或 Codex 的 /goal 跑跑看。真正要练的不是写循环(五分钟的事),是写终止条件。Simon Willison 给的判断标准最实用:当你发现自己在想"唉,这里我得试一大堆变体"时,就是值得上循环的强信号——调试、性能调优、依赖升级、压缩容器体积,这类"目标清晰 + 需要乏味试错"的活最适合[2]。

先低频、紧终止、手动抽查——这不是最佳实践,是生存条件。 在你把 /loop 当 cron 用之前,先算清楚它一夜最多能烧多少钱。一条写松的终止条件,能一晚上烧光一个月预算,而且如果产出是垃圾,你还要再付人工时间去清理。

把验证者和起草者分成两个智能体、甚至两个模型。 这是循环里结构上最有用的一件事。让你的安全评审子智能体用强模型、高推理力度,让探索者用快的只读模型。循环是在你不看着的时候跑的,一个你真正信得过的验证者,是你敢走开的唯一理由。

把项目知识写进 SKILL.md,把"做什么"和"何时算停"分别写进 spec 和 goal。 spec 定义"做什么",让单次交付不跑偏;goal 条件定义"什么时候你被允许停下"。两者是同一枚硬币的两面。没有这些,循环每个周期都从零重新推导你的整个项目;有了,它才会复利。

最后,留住你的判断。 Osmani 那篇文章的收尾,恰好是整件事的题眼:"去搭你的循环吧,但要像一个打算继续当工程师的人那样去搭,而不只是按下'开始'的那个人。"(原文:"Build the loop. But build it like someone who intends to stay the engineer, not just the person who presses go.")他还补了一句更冷的:"如果我不亲自审代码,或者完全依赖自动循环去修,我产品的质量会下滑,我大概率会陷进一个越挖越深的下行螺旋。"——造工具的人自己都在踩刹车,你也该踩。

这个名词也许活不过今年,它跟 harness engineering、agent engineering 的边界已经模糊。但有一个结构性区别值得记下来:2023 年那轮是"先有名、能力缺席"(AutoGPT 10 万星时没人拿它干真活);这一轮是"先有能力、后有名"(土法跑了一年、产品化了半年,才有人给它起名字)。词死不死不重要——自动化触发、隔离工作区、机器可检查的终止条件、maker-checker,这几个零件已经躺在两个头部产品的功能表上,不会随词一起退场。

你的杠杆,正在从"自己动手",挪向"定义什么叫做得好"。

引用

  1. Anthropic, Effective context engineering for AI agents, 2025-09-29. https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents (《为 AI 智能体做有效的上下文工程》——官方将智能体定义为"在循环里自主使用工具的 LLM",并提出"上下文腐烂/注意力预算"概念)
  2. Simon Willison, Designing agentic loops, 2025-09-30. https://simonwillison.net/2025/Sep/30/designing-agentic-loops/ (《设计智能体循环》——"我对 LLM 智能体的定义是在循环里运行工具来达成目标的东西";给出何时该上循环的判断标准)
  3. Addy Osmani, Loop Engineering, 2026-06(原始信源). https://addyosmani.com/blog/loop-engineering/ (《循环工程》——"循环工程是把你自己这个提问的人替换掉,你转而设计那个替你提问的系统";五件套加记忆的解剖;三条风险)
  4. Andrej Karpathy / Anthropic 引用的智能体简单定义溯源. https://simonwillison.net/2025/Sep/18/agents/ ("LLMs autonomously using tools in a loop" 的定义出处)
  5. Hamza Boulahia, Is Loop Engineering Really What We Need?, Towards AI, 2026-06. https://pub.towardsai.net/is-loop-engineering-really-what-we-need-77506986bf2a (怀疑视角:"cron job 戴帽子"那句话漏掉了什么;循环上下位置之争)
  6. Loop engineering, tested: 47 Claude Code runs vs the hype, The Deep Feed, 2026-06-08. https://www.thedeepfeed.ai/posts/2026-06-08-loop-engineering-terminology-treadmill (47 次实测对照炒作;指出该词在阶梯中位置自相矛盾)
  7. Momoview, Loop Engineering: After Prompt and Context, AI Engineering's Third Leverage Shift, 2026-06. https://momoview.com/blog/en/posts/loop-engineering-third-leverage-shift-from-prompt-context-to-designing-loops-verification-token-economics/ (《循环工程:继提示词与上下文之后,AI 工程的第三次杠杆迁移》——三杠杆框架、AutoGPT 对比、token 经济学、六条冷静提醒)
  8. explainX, Loop Engineering: How to Design Coding Agent Loops That Run While You Sleep (2026 Guide), 2026-06. https://explainx.ai/blog/loop-engineering-coding-agents-claude-code-guide-2026 (时间线梳理:Steinberger 6 月 8 日推文 650 万阅读、Boris 的三级阶梯、259 PR 与删 IDE 等数字、ralph 到编排循环五级演进)
  9. METR, Measuring AI Ability to Complete Long Tasks, 2025-03-19. https://metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/ (《测量 AI 完成长任务的能力》——50% 成功率任务时长每约 7 个月翻一倍,持续 6 年)
  10. Geoffrey Huntley, Ralph Wiggum as a "software engineer", 2025. https://ghuntley.com/ralph/ (ralph 循环原文:"Ralph 是一个 bash 循环":while :; do cat PROMPT.md | claude-code ; done
  11. WorkOS, Key takeaways from Boris Cherny on building Claude Code (Acquired Unplugged), 2026-06. https://workos.com/blog/boris-cherny-claude-code-acquired-interview-takeaways (Boris Cherny 现场发言"我不再给 Claude 提问,我有循环在跑"的官方记录与上下文)