2026 年 04 月 23 日· Lenny Rachitsky 访谈 Cat Wudecode

发射台产品学：Anthropic 的 PM 为什么不再守路线图

原文：https://www.lennysnewsletter.com/p/how-anthropics-product-team-moves?showTranscript=true

播客版

播客版：本篇已生成 podcast.mp3，邮件中作为附件发送，时长约 10 分钟。建议先听播客建立主线，再读正文细节。

Cat Wu 在 Lenny 的访谈里反复讲同一件事：AI 产品团队的时间单位变了。过去，一个功能从想法到上线可以按季度算；现在，Anthropic 内部很多功能从六个月压到一个月，有时是一周，甚至一天。

这不是单纯的工程效率故事。工程变快之后，产品管理没有消失，反而被迫换了职责。PM 不再主要维护一张跨季度路线图，而是在给团队搭一个能快速发射、快速回收、快速修正的产品系统。

一、从路线图到发射台

传统 PM 的核心工作，是把昂贵的代码生产组织起来。需求评审、跨团队依赖、季度 roadmap、PRD、发布节奏，背后都默认一个前提：代码很贵，错一次代价高，所以要提前协调。

Cat Wu 给出的新前提相反：AI 正在让工程实现变便宜，模型能力又每隔几个月跳一次。于是问题不再是“怎么把半年计划排稳”，而是“怎么让一个真实想法在一周内碰到用户”。

Anthropic 的做法不是取消管理，而是把管理压缩成三个杠杆。第一，目标必须足够清楚，比如用户是谁、问题是什么、哪些场景必须开箱即用。第二，功能大多以 Research Preview 发出，降低“上线等于长期承诺”的心理成本。第三，工程、文档、PMM、DevRel 有一个常驻 launch room，工程师认为功能可用后，相关角色可以隔天把说明、公告和反馈通道补上。

这里的关键不是“少流程”，而是“流程短到足够贴近发射”。如果一个团队口头上追求敏捷，但每次发布仍然要重新找人、重新对齐、重新解释上下文，那只是把瀑布拆成了更小的瀑布。Anthropic 的发射台逻辑，是把反复发生的协作动作固定下来，让任何人都能把一个试验推到用户面前。

这解释了为什么 PRD 没有消失。Cat 说，模糊度高、基础设施重、周期仍然较长的项目，仍然会写一页 PRD。变化在于 PRD 不再是默认动作。默认动作变成：先把目标讲清楚，先把东西送出去，先拿到真实反馈。

二、AGI-pilled 的正确剂量

访谈里最值得拆的一句话，是 Cat 对 AI 产品判断的描述：为超级 AGI 模型设计产品很容易，难的是为当前模型榨出最大能力。

这句话很锋利。因为很多 AI 产品会犯两种相反的错误。一种是低估模型，继续把 AI 当自动补全文本的工具；另一种是高估模型，直接为“未来全能模型”设计一个文本框，然后期待模型自己理解一切、补齐一切、验证一切。

Anthropic 的产品策略夹在中间。当前模型已经强到可以做复杂任务，但仍然会漏测 UI、误解约束、在长任务里忘记边界、在某些场景下需要外部脚手架。所以产品的工作，是把用户引到模型最擅长的路径上，同时替模型补上它现在还不稳定的部分。

Claude Code 的 todo list 是一个典型例子。早期模型做大规模重构时，会说自己要改 20 个调用点，实际改 5 个就停。团队给它加了待办列表，相当于给模型一只外部手指，让它逐项勾住任务。后来模型变强，已经能自然使用待办列表，这个功能就从“强制补丁”变成“用户可见的进度提示”。

这背后有一个产品原则：AI 产品里的很多功能都有保质期。今天的按钮、提示、工作流，可能只是为了弥补今天模型的缺口。模型一升级，原来的补丁就可能变成负担。真正难的不是写更多功能，而是判断哪些功能是在帮助当前模型，哪些功能已经开始阻碍新模型。

这也是 PM 仍然重要的地方。代码便宜以后，最贵的是“决定写什么”。产品品味不再只是界面审美，而是对模型边界的判断：它现在会什么、不会什么、用户怎么误用它、哪一步需要脚手架、哪一步应该放手让模型自己做。

三、评估不是 QA，是产品定义

Cat 提到一个被低估的技能：构造 evals。她说，不必一次写几百个评测，10 个高质量 eval 就能帮团队量化目标、看清进度、暴露缺口。

这句话应该放进所有 AI 产品团队的工作台。传统产品里，PM 写需求，工程实现，QA 验收。AI 产品里，这三件事开始挤在一起。因为模型行为不是确定性的，需求如果不能转成可重复检查的任务，就很难判断一次模型升级到底让产品变好了还是变坏了。

Eval 的价值不是“测试模型分数”，而是把模糊品味落到可执行样本上。比如“更懂前端验证”太抽象；一个好 eval 会给出具体仓库、具体修改目标、具体成功标准：改完后必须打开 UI，验证页面真实可用，不能只跑单元测试。这样团队才知道失败发生在哪里，是系统提示误导了模型，还是子代理漏做了验证，还是主代理没有检查子代理的工作。

Cat 还提到一个很实用的方法：问模型为什么做错。模型出乎意料地跳过 UI 验证时，不只是记录“失败”，而是让模型反思它为什么这样决策。这个动作不像传统用户访谈，更像产品经理在调试一个半透明的工作流。你不是只看结果，而是在找“哪里误导了它”。

这也是 Anthropic 产品组织的一个变化：PM、工程、研究之间的边界变薄了。PM 不只是写用户故事，也要能构造小型评测、读模型失败样本、理解 harness 对行为的影响。工程不只是接需求，也在从 Twitter、GitHub issue、内部 dogfood 里判断该做什么。

“评估”因此变成产品定义的一部分。谁能定义好完成标准，谁就在定义产品本身。

四、角色融合，但不是人人都做 PM

访谈里另一个容易被误读的点，是“角色都在融合”。Cat 说，PM 会做一些工程，工程师会做 PM，设计师也在 PM 化和落代码。Anthropic 的 Claude Code 团队更偏向招聘有产品品味的工程师，很多 PM 也有工程背景。

这不等于 PM 这个职业没了。更准确地说，职位边界在变软，稀缺能力在变硬。

以前，一个 PM 可以靠协调复杂组织、管理 roadmap、写清楚需求获得价值。现在，如果工程师一周能做出多个版本，PM 还停在“等大家对齐后再开工”，就会变成节奏瓶颈。相反，一个能看懂模型能力、能判断用户任务优先级、能给出好 eval、能推动发布闭环的人，不管头衔叫 PM、工程师还是设计师，都会变得更值钱。

Cat 对“产品品味”的解释很具体。Anthropic 会收到大量 GitHub issue，用户想要所有东西。问题不是“有没有需求”，而是哪些值得做、应该用什么形态做、做出来后是否让用户更接近核心任务。代码越便宜，选择越贵。

这里有一个反直觉结论：AI 并没有让“会写代码”永久压倒一切。Cat 也很谨慎地说，工程背景在接下来几个月特别有用，因为它帮助你估算实现成本；但技能价值变化太快，没人能稳定预测几年后的角色组合。真正稳定的能力，是一阶思考：看见技术变化，判断团队缺口，然后不端着地补上那个缺口。

不端着不是低能力，而是不执着于“这是不是我的职责”。Cat 的口头禅是 “Just do things”。在 AI 原生团队里，这不是鸡血口号，而是组织协议：只要你理解约束，能解释判断，就先把该做的事做掉。

五、速度有代价，代价是产品一致性

Cat 没有把快速发布包装成无成本神话。她明确说，Anthropic 牺牲了一部分产品一致性。

当一个团队每天都有新功能、每周都在试形态，产品套件里就会出现重叠路径。对老用户来说，这是探索空间；对新用户来说，这可能是迷宫。用户不知道完成某个任务到底该走 Claude Code CLI、Desktop、Web、Mobile，还是 Cowork。功能多到一定程度，教程和 onboarding 反而重新变得必要。

这解释了 /powerup 这类 onboarding 功能的出现。早期团队希望产品足够直觉，不需要教程。但当功能和最佳实践增长太快，“不做 onboarding”本身会伤害用户。产品复杂度不会因为理念消失，它只会转移到用户身上。

速度的另一个代价，是用户也被迫追版本。传统 SaaS 用户可以一个月看一次更新，半年不看也能回来。AI agent 工具体系的用户却会感觉，如果几天不看 Twitter，就错过了一种新工作流。Cat 希望工具能主动教育用户，把他们带着走，而不是让用户每天追消息流。

这点对所有 AI 产品公司都重要。快速发布不是终点。真正的竞争力，是让用户在快速变化里仍然有稳定感。Anthropic 的答案是：核心任务要稳定，外围功能可以试验；任务成功率要稳定，交互形态可以重写；使命和团队原则要稳定，产品表面可以迭代。

盲区：访谈没有完全回答的问题

第一，Research Preview 是速度工具，也可能成为质量债入口。用户知道这是早期功能，不代表用户愿意长期忍受不一致。AI 工具的用户很宽容，但宽容来自“它真的帮我做成事”。一旦试验太多、核心路径不清楚，宽容会变成疲劳。

第二，产品品味很重要，但很难规模化。Anthropic 能靠少数高品味工程师和 PM 快速判断，是因为团队密度很高、用户反馈极近、内部 dogfood 强。普通企业照搬“少流程、快发布”，如果没有同等的人才密度和反馈系统，容易变成混乱。

第三，evals 仍然会受任务选择偏差影响。10 个好 eval 比 100 个烂 eval 更有价值，但谁来定义“好”？如果评测只覆盖团队熟悉的任务，产品会在熟悉场景里进步，在边缘场景里失明。

第四，使命对齐能降低组织摩擦，但也可能遮蔽局部用户损失。第三方 Claude 客户端访问受限的争议就说明，优先 first-party 产品和 API 在商业上合理，但社区会感受到被切断。使命能帮助内部决策，不自动消除外部摩擦。

对 AI 从业者意味着什么

如果你是 PM，不要只练“提示词技巧”。更值得练的是三件事：把模糊目标写成可执行成功标准；把失败样本转成 eval；把一个想法压缩到一周内能给真实用户试的形态。

如果你是工程师，不要只把 AI 当代码加速器。工程师正在获得更多产品权力，因为你离实现成本、模型能力和真实反馈更近。问题是，权力会暴露品味。能从用户反馈里判断该做什么，比能让模型多写几千行代码更稀缺。

如果你在管理 AI 产品团队，别照搬 Anthropic 的表层动作。少流程不是没有流程，Research Preview 不是随便发，launch room 不是拉个群。真正要复制的是底层机制：目标清楚、发射摩擦低、反馈回路短、评估可重复、失败能回收。

如果你在企业里推广 AI，Cat 对自动化的提醒很值得记住：95% 自动化不算自动化。因为最后 5% 会让人不敢信任系统。真正有价值的内部工具，不是一次性 demo，而是每天都用、能稳定完成重复任务、越用越贴近偏好的工作流。

本期关键词

发射台产品学（Launchroom Product） -- 指 AI 原生团队把产品管理从“长期路线图协调”改造成“短周期发射系统”的做法。它不是取消流程，而是把文档、公告、DevRel、用户反馈这些发布动作提前模块化，让工程师或 PM 的想法能在一周内进入用户手里。
AGI 剂量（Right Amount of AGI-pilled） -- Cat Wu 用来描述 AI 产品判断的核心难题。太少会把 AI 当传统功能增强，太多会为还不存在的全能模型设计产品。正确剂量是承认未来模型会很强，同时为当前模型设计脚手架，让它在今天就能稳定完成任务。
产品脚手架（Product Harness） -- 包在模型外面的产品机制，包括权限、todo、上下文、工具、提示、验证、onboarding 和用户反馈闭环。模型变强后，脚手架要不断被删减或重写。它不是一次性架构，而是随模型能力变化的动态产品层。
研究预览（Research Preview） -- Anthropic 用来降低发布承诺的产品形态。它清楚告诉用户：这是早期试验，可能变化，也可能不长期支持。它的价值在于把“必须完美才能发”的门槛降下来，但前提是核心任务不能被不稳定功能破坏。
产品品味（Product Taste） -- 在代码变便宜之后，决定什么值得写、怎么写、什么时候该删的能力。它不是审美词，而是资源配置能力：从大量 issue、用户反馈和模型失败样本中判断哪些是真问题，哪些只是局部噪音。
评估样本（Evals） -- 把 AI 产品的成功标准落到可重复任务上的方法。好的 eval 不只是测模型分数，而是定义产品应该怎样完成任务、怎样验证结果、怎样避免常见失败。对 AI PM 来说，写 eval 正在变成写需求的一部分。
95% 自动化陷阱（95% Automation Trap） -- 自动化如果只做到 95%，用户仍然需要时刻检查剩下 5%，信任成本不会真正下降。Cat 的建议是把少数高频工作流打磨到接近 100%，而不是堆一批半可靠 demo。

引用

How Anthropic’s product team moves faster than anyone else | Cat Wu -- 本期原始访谈与转写
Castbox episode page: How Anthropic’s product team moves faster than anyone else -- 发布日期与章节索引交叉验证
Claude Code product page -- Claude Code 产品背景
Anthropic -- 公司与产品背景