Anthropic 的 CFO 不是预算看门人——他在管 1000 亿美元算力的双向死亡

硅谷历史上的 CFO 是预算的看门人。控制费用、做财务模型、对接资本市场、在董事会会议上把"现金流"和"烧钱速度"两条线讲清楚。这是一份被定义了五十年的工种。
Krishna Rao 不是这种 CFO。他在 Patrick O'Shaughnessy 的 Invest Like the Best 第 471 期里讲了一件足够颠覆这份岗位说明书的事:在 Anthropic 这家公司,CFO 30 到 40% 的时间花在算力决策上——决定向 Google 买 TPU、向 Amazon 买 Trainium、向 NVIDIA 买 GPU;决定每天把多少算力分给前沿模型训练、多少分给内部产品研发、多少分给商业客户的推理需求。这件事在传统公司里从来不属于财务的事权。
一、三个数字必须一起出现,量级才显形
把 Anthropic 当前的财务画像摆出来,需要三个数字。
第一个是算力承诺:1000 亿美元以上。包括与 Google 联合 Broadcom 的 TPU 部署(2027 年起)、与 Amazon 的 Trainium 链、与 NVIDIA 的 GPU 长约。第二个是 ARR:公司正在向 300 亿美元扩张。第三个是估值:约 900 亿美元,已经站在 IPO 的门槛上。
任何一个数字单独看都不震撼。900 亿美元估值在生成式 AI 头部公司里不算异常;300 亿美元 ARR 比 OpenAI 还慢一拍;1000 亿美元算力承诺看上去像一个公关数字。但三个数字必须一起出现,才能看清量级——这家公司的算力承诺是当年收入的 3 倍多,是公司估值的 1 倍多。也就是说,Anthropic 已经把自己未来三到五年的现金流,绝大部分预先押给了 Google 和 Amazon 的数据中心。
这个押注的后果是双向的。买多了,现金流断裂,公司破产。买少了,前沿模型落后,市场份额拱手让给 OpenAI 和 Google。Rao 在播客里反复回到这条主线:算力错配的两个方向都是致命的。这就是为什么"算力是 lifeblood"不是文学修辞,是财务表述。

二、算力是底层资产,不是成本项
Rao 把算力从财务报表的"成本"项移走,挪到"赖以生存的底层资产"位置。这个调整是结构性的,不是说辞。
每天,Anthropic 内部都要把算力在三件事之间分配:
- 前沿模型开发——下一代 Claude 的训练。这条有一个"不可让渡的最低基线",意思是即使短期商业机会再诱人,也不能动这条线。
- 内部使用——产品迭代、研发工具、各部门 dogfooding。Anthropic 财务团队自己就建了 70 多个 Claude skills 跑财务自动化。
- 客户服务——给企业客户、API 用户、Claude.ai 用户提供推理算力。这是当期收入的来源。
这三件事每天在竞争同一池算力。当客户需求暴涨,理论上应该把更多算力扔给第三件事换收入;但 Rao 强调的"不可让渡基线"意思是:第一件事的优先级凌驾于短期商业机会。这是一条 CFO 在执行的技术决策,不是 CTO 单方面拍板的事。
这种决策为什么落到 CFO 手里?因为它的内核是资源稀缺下的取舍——而稀缺资源的配置权,在任何治理结构里,最终都要落到掌握资本配置权的人手上。Anthropic 把这个角色交给了 CFO,不是 CTO。这本身是公司治理上的一个判断:算力既是工程问题也是财务问题,但当两个属性冲突时,财务事权赢。

三、可替换层:CFO 主导的供应链工程
Rao 强调 Anthropic 投了大力气,让 NVIDIA GPU、Google TPU、Amazon Trainium 三套硬件"可替换"(fungible)。这件事的工程量极大——三套硬件的指令集、内存层次、互联拓扑、低精度数值格式都不一样。把训练栈和推理栈做到三套硬件可互替,需要从 CUDA / XLA / Neuron 三个编译路径一直到模型权重的格式标准化都重做一遍。
为什么 CFO 在管这件事?因为这是供应链风险的对冲。如果只在一套硬件上跑,意味着把整个公司命运拴在单一供应商身上。这种集中度在任何一个传统行业里都会被董事会和审计师叫停。Anthropic 用工程投入把这个集中度风险拆掉,换来的是日常运营里可以在三套硬件之间灵活调度——哪家的供给紧、哪家的价格陡,就把训练负载转过去。
这件事在国内对照不存在。国内 AI 公司的硬件选择目前是另一种问题(NVIDIA 卡能不能买得到 / 国产昇腾性能成熟度),主要在管这件事的是 CTO 和采购,财务在这条链上的位置是审批 PO。把多芯片可替换性当作 CFO 的战略命题——目前在国内大模型公司还看不到对位的角色。

四、Cone of uncertainty:放弃单点预测
传统 CFO 的财务模型是确定性的:给你一条收入曲线、一条成本曲线、一条现金流曲线。Rao 在播客里讲,对指数级增长的业务,这种模型会失灵——单点预测要么大幅低估上行,要么在下行情景里没有保护。
Anthropic 的做法是放弃单点曲线,做"cone of uncertainty"(不确定性锥)规划。意思是同时维护多条情景:最乐观情景(前沿模型保持领先、客户需求翻倍)、中性情景、最悲观情景(OpenAI 的下一代模型显著反超、公司必须降价保份额)。决策瞄准 top-end growth,但用算力买入的纪律来卡住长期下行风险——具体的体现就是上面的三件事配比里那条"不可让渡基线"。
这种规划法在 AI 行业不是 Rao 一个人提出的,但他把它制度化进了一家上市路径上的公司的财务流程。这意味着 Anthropic 的董事会、审计师、未来的二级市场分析师,都得学会用这种"区间"而不是"曲线"的方式看公司基本面。这是另一条 CFO 在重塑岗位定义的痕迹。

五、90% 代码由 Claude 写,公司还在大举招人
播客里被各家二手媒体最反复引用的一句话是:"90 plus percent of our code is actually written by Claude Code." 这条引语包括 Claude Code 自家的源码——递归自我改进。财务团队的 70 多个 Claude skills 把月度财报流程的"准备工作"做到了 90 到 95% ready;按 Rao 的说法,原本要花几小时的内部 office work,现在只要 30 分钟。
这个画面单独看,符合所有"AI 替代财务人员"的叙事。但下一句话才是要害——"We've hired a lot more people because of that"——AI 写得多,反而让 Anthropic 招更多人。Rao 给的解释是角色重塑:员工不再做执行,做的是 oversight、judgment、strategic decision-making。他用了一个金句概括:"Everyone kind of becomes a manager."
这套逻辑在 Anthropic 的"talent density"模型里能讲通。少数顶级 AI 研究员叠加前沿模型的杠杆,能比堆 100 个普通工程师产出更多。但要让这种杠杆生效,每个"管理者"都得有审 AI 输出的判断力——这种判断力本身是稀缺的,所以反而要招更多有这种判断力的人。
这是一个非常反 AI 替代论的画面。它不是说"AI 不会替代人",而是说"AI 会替代某一类工作流,但替代后的新工作流需要更多的人去做监督和决策"。这个判断对 AI 创业公司很重要——它意味着用 AI 把成本压到极致的策略,可能在生产力曲线上撞到天花板:你需要的不是更少的人,是更多有判断力的人。
六、安全、可解释性、对齐——从使命转成销售护城河
Anthropic 长期以来强调安全和对齐研究。这件事在公司创立初期是使命驱动的论述,外部看大多当作"公关人设"。Rao 在播客里换了一个口径:这些投入正在变成商业资产。
具体路径是:金融、医疗、政府这些敏感行业的采购方,把"做了多少 safety 工作"当作硬性采购标准。可解释性研究产出的工具,比如 mechanistic interpretability 的内部仪表盘,可以直接给企业客户看,证明模型不会在敏感场景下做出不可解释的决策。alignment 投入变成了销售合同里的差异化条款。
这条转化在国内对应不大成立。国内 AI 公司的"安全"对话主要在合规层——内容审核、备案、合规备忘录——而不是在产品差异化层。Anthropic 把安全做成销售护城河,需要的是一类愿意为"模型可解释"额外付费的企业客户。这种客户存在于美国市场,在中国市场目前看不到清晰的需求曲线。
盲区 / 我们不知道的
这期播客的 X 主推文是付费墙后的内容,绝大部分二手报道围绕几句金句反复转引。有几件事在公开信息里看不清:
第一,算力承诺的现金流分布。1000 亿美元是合同总额,但具体的付款节奏(前几年付多少、后几年付多少)没有公开。如果前期负担很重,对一家 ARR 300 亿美元的公司是巨大的现金流压力;如果后置,就把这个风险推给了上市后的二级市场。
第二,三芯片可替换层的工程成熟度。Rao 强调这是 daily ops 的支撑,但他没有公开训练负载在三套硬件上的实际占比。如果实际上 90% 还在 NVIDIA 跑,那"可替换"主要是叙事,对冲价值有限。
第三,Anthropic 的招聘节奏。"hired a lot more people"是一个相对量级。Anthropic 不公开员工数。从领英爬虫的二手估算来看,从 2024 年到 2026 年中规模翻倍是有的,但具体里程碑没有官方披露。
对从业者意味着什么
对中国大模型公司的董事会:是时候认真考虑 CFO 的画像了。如果你们公司一年算力支出超过 5 亿人民币,"算力分配"已经是 CFO 级别的战略决策,不能继续推给 CTO 单方面拍板。这件事的核心不是技术能力,是资源稀缺下的取舍权落在谁手上。在中国当下,能把这个角色做出来的人凤毛麟角,但需求是清楚的。
对中国 AI 应用层公司:Anthropic 的"90% 代码 + 大举招人"是一个生产力悖论。它意味着用 AI 提效后省下来的预算,应该投在"会用 AI、能审 AI 的人"身上,不是省人。如果你的团队压缩了人头,意味着每个剩下的人要承担更多 oversight 责任,他们的判断力是公司的新瓶颈。
对二级市场观察者:Anthropic 的 IPO 会迫使港股和美股的分析师都学会读"cone of uncertainty"型的财务披露——指数级业务的估值锚不在单点预测,在区间和压力测试。这种披露格式还没成型,但 Anthropic 的 S-1 一旦出现,会改变整个行业讲未来收入的方式。
本期关键词
Cone of uncertainty(不确定性锥) —— 这个词原本来自飓风预测的可视化,指的是飓风未来路径的可能范围会随时间向外扩张,像一个倒置的圆锥。Rao 把它移植到指数级业务的财务规划里:不画一条单一曲线,而是同时维护一组场景(top-end / 中性 / 下行),用最乐观情景做决策瞄准、用最悲观情景做底线保护。这种规划法对应的是放弃"精准预测"的承诺,换来的是"在多种未来里都能存活"的纪律性。对正在准备上市的 Anthropic 来说,这意味着 S-1 里的财务预测会以区间披露的方式出现,而不是传统的单点数字——这会是美国 SEC 历史上少见的披露格式。
Talent density(人才密度) —— 这个概念来自 Netflix 的 Reed Hastings,意思是用少数高水平员工换掉大量普通员工,整体产出反而更高。Rao 在 AI 时代给它加了一层杠杆:顶级 AI 研究员叠加前沿 Claude 模型,等于一个十几人的小组能完成传统公司一个部门的工作量。但这个模型成立的前提是每个员工都有"审 AI 输出"的判断力。这反过来推高了招聘标准——Anthropic 不是在招更多的代码员工,是在招更多能判断 AI 是否在胡说的资深员工。这种员工在劳动力市场上是稀缺品,价格也比传统工程师高。
Jevons paradox(杰文斯悖论) —— 这个词来自 19 世纪经济学家 William Stanley Jevons 对蒸汽机效率的观察:煤炭使用效率提升后,煤的总消耗量反而上升,因为价格下降释放了更多需求。Anthropic 把 premium 模型的定价压下来后,遇到了同样的现象——需求暴涨的幅度远超价格下降的幅度,企业 API 调用量因此解锁了一大批之前因为太贵不敢用的场景。这个现象对算力规划是一个长期挑战:每次模型变便宜,客户需求就更猛地涌进来,于是算力承诺必须再往前走一步。这就是为什么 Anthropic 的算力承诺会冲到 1000 亿美元,而不是 100 亿美元——价格下降换来的需求弹性,比传统行业里见过的任何东西都大。
Fungible compute(可替换算力层) —— Fungible 这个词在金融术语里指"可互换、可替代"。一美元等价于另一美元,黄金按重量等价。Anthropic 把它用在算力上:让训练和推理负载可以在 NVIDIA GPU、Google TPU、Amazon Trainium 之间互替。技术上这非常难,意味着要把模型代码、训练栈、推理栈都做成硬件无关的抽象层;但战略上这是把"对单一供应商的依赖"这种集中度风险拆掉。对一家算力承诺 1000 亿美元的公司,多供应商可互替不仅是工程问题,是公司治理问题——避免被任何一家芯片厂商在续约谈判中卡脖子。这条策略目前在国内 AI 公司里没有对位的案例。
引用
- Patrick O'Shaughnessy on X — EP.471 推介 —— 原文出处
- Krishna Rao, Anthropic's CFO — Invest Like the Best EP.471(Apple Podcasts) —— 完整音频
- Invest Like the Best — Krishna Rao 全片(YouTube) —— 视频版与时间戳交叉
- Anthropic CFO reports AI writing most company code(Let's Data Science) —— "90+%" 引语二手交叉验证
- Who is Krishna Rao — Anthropic CFO 履历(Storyboard18) —— 履历与算力 deal 背景