2026 年 06 月 04 日decode

Tomer Tunguz：别再只看智力分，要看"一个结果烧掉多少 token"

风投人 Tomasz Tunguz（业内常称 Tomer Tunguz，Theory Ventures 合伙人）6 月 3 日发了一篇短文，标题叫《Intelligence Per Dollar》（每一美元买到多少智能）。他的核心判断只有一句：评价一个模型，单看它在榜单上的智力分已经不够了，要看它"达成一个结果烧掉多少 token"。这把模型选型从"比谁聪明"换成了"比谁单位成本低"——AI 行业第一次有人把成本提到和能力同等的位置，写进了评价标准。

作为给企业算采购账的 VC，Tunguz 的视角天然带着会计的冷静。下面把这篇短文拆给关心 AI 成本的人。

本期看点

token —— 大模型处理文字的最小计费单位，约等于 0.75 个英文单词或半个汉字。模型每"想"一步、每吐一个字都在烧 token，烧多少直接换算成钱。
token-per-result（每结果 token 数） —— Tunguz 提的新指标：不看模型答得对不对这一个维度，而看它"答对一道题平均花多少 token"。同样答对，花得少的赢。
intelligence per dollar（每美元智能） —— 把模型能力分除以运行成本，得到"性价比分"。两个模型智力分一样，成本低的那个性价比更高。
SWE-Bench Verified —— 一套用真实 GitHub 工单考模型写代码能力的基准，分数越高说明它能独立修复的真实 bug 越多。

Tomer Tunguz：别再只看智力分，要看"一个结果烧掉多少 token" 配图 2

一、微软在发布卡上加了一栏，把成本摆上了台面

变化的信号藏在一个不起眼的动作里：微软在自家新模型的发布卡（model card，厂商公布模型能力的标准说明书）上，第一次把"平均 token 使用量"列成了一项标准指标。

过去发布卡只比一件事——分数。SWE-Bench 多少分、数学多少分、推理多少分，分越高越能上头条。微软这一栏等于公开承认：光有分数不够，还得告诉你这个分是花多少 token 换来的。

它给的数字很有攻击性。微软的新模型在 SWE-Bench Verified 上拿到 71.6 分，而达成这个分数，按 Tunguz 引用的说法只烧了"Claude Haiku 4.5 大约三分之一的 token"。Haiku 是 Anthropic 主打便宜快的那一档模型，微软挑它当对手，意思很明白——我不光分数能打，连最省的对手我都比它省三分之二。

这一栏一旦成了行业标配，模型公司之间的竞争就多了一条战线。以前发布会上只敢秀分数，现在不敢只秀分数了，因为对手会反问一句：你这分烧了多少 token。

Tomer Tunguz：别再只看智力分，要看"一个结果烧掉多少 token" 配图 3

二、同样 60 分，一个 3357 美元，一个 4685 美元

Tunguz 真正的证据是一组并排的账。他引用第三方测评机构 Artificial Analysis（专做模型成本与能力独立测算）的数据，把当下两个顶级模型摆在一起：

GPT-5.5 和 Claude Opus 4.8，在 Artificial Analysis 的智能指数（Intelligence Index，把多个基准汇总成一个综合分）上得分相近，都在 60 分上下。但跑完同一套测评，GPT-5.5 花了 3357 美元，Opus 4.8 花了 4685 美元。

同样的智力分，Opus 4.8 贵了将近 40%。

这就是 token-per-result 的全部威力：当两个模型聪明程度肉眼看不出差别时，决定选谁的不再是那 0.1 分的高低，而是这 40% 的差价。对一家每天要跑几百万次推理的公司，40% 不是小数点后的零头，是一整个团队一年的预算。

Tunguz 的潜台词是给采购方的：你在 leaderboard 上看到的排名第一，可能在你的账单上是排名最后。榜单只回答"谁更聪明"，回答不了"在我的用量下谁更便宜"。这两个问题的答案，越来越经常地不是同一个模型。

Tomer Tunguz：别再只看智力分，要看"一个结果烧掉多少 token" 配图 4

三、补贴和"堆 token"的时代结束了

Tunguz 把这事放进了一个更大的判断里，原话是"补贴、堆 token、为少数场景不计成本拼性能的时代，结束了"（the era of subsidies, tokenmaxxing, & all-out performance for many use cases is over）。

"堆 token"（tokenmaxxing）指的是过去两年的一种打法：模型为了把分数刷高，舍得让自己多想几步、多生成几轮、把上下文塞满，反正算力有融资补贴、token 有厂商让利，烧得起。分数好看，账先不算。

支撑"账先不算"的前提正在崩。Tunguz 列了三个现实里的预算崩盘：

Uber 把员工的 AI 编程预算砍了——它原本鼓励全员用 AI，内部还搞排行榜比谁用得多，结果一年的预算四个月就烧光。据 TechCrunch 报道，封顶前单个工程师每月的 token 账单能到 500 到 2000 美元，现在每个 AI 编程工具每人每月封顶 1500 美元，受影响的正是 Claude Code 和 Cursor 这类按 token 计费的工具。

Salesforce 一年要在 Anthropic 的 token 上花 3 亿美元，同时冻结了工程师招聘。CEO Benioff 的算盘是把钱从"招人"挪到"买 token"，让一支约 1.5 万人的工程团队配上 AI 接着干。

微软则在内部多个部门砍掉了 Claude Code 的授权，因为工程师的用量超了预算。

三家公司体量都不小，连它们都开始为 token 账单做减法。Tunguz 用这三个例子证明的不是"AI 没用"，恰恰相反——是 AI 太有用、用得太凶，凶到再不算账就要把预算吃穿。当连大厂都不能给每个场景配最贵的模型时，"哪个场景配哪档模型"就成了必须算的题。

Tomer Tunguz：别再只看智力分，要看"一个结果烧掉多少 token" 配图 5

四、定价逻辑会顺着技术栈往上传

Tunguz 收尾的判断最值得抄：成本压力不会停在模型层，它会顺着整个技术栈一层层往上传。

模型公司之间，比的是 intelligence per dollar——每一美元买到多少智能。这一层微软已经开打。

往上一层是做应用的开发者，他们面对的客户不按 token 付费，客户只关心结果：工单关了几个、代码上线了没、客服 case 解决了几条。所以应用层比的会是 dollars-per-outcome（每个结果花多少钱）——一个 AI 客服解决一张工单成本几毛钱，比另一家便宜，就赢了订单。

Tunguz 把这条逻辑链收成一句话："技术栈里的每一层，现在都得按客户思考的方式来定价——按结果，不是按 token。"（Every layer in the stack now has to price the same way the customer thinks: per result, not per token.）

客户从来不想知道一次对话烧了多少 token，就像你打车不想知道发动机烧了多少油。中间所有按 token 计价的环节，都是把自己的成本结构甩给客户。谁先把定价从 token 翻译成结果，谁就先一步站到客户那一边。

对从业者意味着什么

最该做的一件事：给自己建一套 token-per-task 基准，别只盯 leaderboard。

对工程团队和技术负责人：拿你最高频的几个真实任务——修一个典型 bug、写一段标准 CRUD、答一类客服问题——分别用几个候选模型各跑 50 次，记下每次的 token 消耗和成功率，算出"每成功一次平均多少钱"。这张表比任何公开榜单都准，因为它跑的是你的活、你的提示词、你的用量。很可能你会发现，某个榜单上排第三的模型，在你的任务上每结果成本只有第一名的一半——那它就是你该选的第一名。

对企业采购和财务：把 AI 支出当成会随用量指数膨胀的可变成本来管，不是一次性软件采购。Uber 四个月烧穿全年预算不是个例，是"按 token 计费 + 鼓励多用"这个组合的必然结果。提前设人均/团队封顶、上用量看板、按场景分配模型档位（贵的留给真正难的活，便宜的扛日常），是现在就该搭的财务基建。

对创业者：如果你做的是应用层，定价别跟着上游按 token 转嫁，直接给客户报"每个结果多少钱"。把 token 成本的波动自己消化掉、对客户报一个干净的结果价，这本身就是护城河——你帮客户把那道算不清的账算清了。

引用

Tomasz Tunguz，《Intelligence Per Dollar》（每一美元买到多少智能），2026-06-03：https://www.tomtunguz.com/tokens-per-result
TechCrunch：《Uber 烧穿 AI 预算四个月后，给员工 AI 支出封顶》，2026-06-02：https://techcrunch.com/2026/06/02/uber-caps-employee-ai-spending-after-blowing-through-budget-in-four-months/
Techloy：《Benioff 称 Salesforce 今年将在 Anthropic token 上花 3 亿美元》，2026：https://www.techloy.com/marc-benioff-says-salesforce-will-spend-300-million-on-anthropic-tokens-this-year/
Artificial Analysis 智能指数（模型能力与成本独立测算），数据经 Tunguz 原文引用