2026 年 06 月 04 日decode

英伟达 Nemotron 3 Ultra：当 agent 跑得越久越烧钱，它把单位成本砍了三成

这一周 AI 圈的主线是 token 经济学——投资人 Tomasz Tunguz 在算每千 token 的边际成本，微软在抱怨 agent 调用太贵。这些声音都站在买方一侧喊"太贵了"。英伟达这篇博客站到了卖方一侧，给出的不是抱怨而是一个解法：发布 Nemotron 3 Ultra，一个 5500 亿参数的开放权重模型，专门为"长时间运行的智能体"（long-running agents）优化推理效率。它的核心卖点只有一句话——同样跑完一套 agent 任务，它用更少的 token、更快的吞吐、更低的总成本。

判断先放这里：agent 时代真正的瓶颈，不是模型聪不聪明，而是一个任务跑得越久、调用越多，token 就累积得越快、成本就涨得越凶。谁能把"长任务的单位成本"压下来，谁就能让一批今天因为太贵而做不起的 agent 产品变得可行。Nemotron 3 Ultra 是从模型与硬件这一侧给出的答案，下面把英伟达的具体取证拆给做 agent 产品和平台的人。

本期看点

长时运行智能体（long-running agent） —— 不是问一句答一句的聊天机器人，而是能跨几十轮持续规划、调工具、派子智能体、读取结果再接着干的 AI，一个任务可能跑几分钟到几小时。
混合 Mamba-Transformer 架构 —— 一种把"状态空间层"和传统注意力层混搭的设计，目的是让模型在处理超长上下文时不至于算力爆炸。
MoE（混合专家） —— 模型总参数很大，但每个 token 只激活其中一小部分"专家"参与计算，用大模型的脑容量换小模型的运行成本。
NVFP4 —— 英伟达的一种 4 比特浮点量化格式，把模型权重压到极小，在同一张卡上换来更高吞吐。

英伟达 Nemotron 3 Ultra：当 agent 跑得越久越烧钱，它把单位成本砍了三成配图 2

一、为什么"长任务"对推理效率格外敏感

要看懂这个发布，先得看懂它针对的是什么问题。英伟达在博客里把 agent 的工作方式描述得很直白：

"Agents plan, call tools, invoke sub-agents, receive information, and then pass history, outputs, and reasoning steps back into the model continuously. As tasks run longer, this constant communication increases costs and the risk of goal drift."（智能体会规划、调用工具、唤起子智能体、接收信息，然后把历史、输出和推理步骤不断地传回模型。任务跑得越久，这种持续的来回通信就越推高成本，也越容易跑偏目标。）

这段话点破了长任务推理为什么是个独立难题。一次普通对话，输入几百 token、输出几百 token 就结束了。一个 agent 任务不是这样：它每走一步都要把"到目前为止发生的一切"重新塞回模型——之前的规划、调用工具拿到的返回、每一轮的推理草稿。这些东西像滚雪球一样累积，到第二十轮时，单次调用要处理的上下文可能已经是第一轮的几十倍。

成本就是这么涨上来的。token 计费是线性的，但 agent 任务里 token 的累积接近平方级——轮数越多，每一轮要重读的历史越长。这就是为什么微软那边会嫌 agent 贵：不是单价高，是多 agent 协作把调用次数和上下文长度同时拉爆了。Nemotron 3 Ultra 瞄准的正是这个累积曲线，而不是单次对话的基准分。

英伟达 Nemotron 3 Ultra：当 agent 跑得越久越烧钱，它把单位成本砍了三成配图 3

二、架构：用 Mamba 和 MoE 同时压住两个成本来源

长任务的成本压力来自两处：上下文太长（每轮重读历史），调用太多（轮数堆叠）。Nemotron 3 Ultra 的架构设计就是分别对付这两处。

总参数 5500 亿，但每个 token 只激活 550 亿——这是 MoE 的标准打法，用十分之一的激活量跑出大模型的能力。激活越少，每个 token 的计算越便宜，这直接压低了"调用多"那一侧的成本。

对付"上下文长"那一侧，靠的是混合 Mamba-Transformer 架构。传统 Transformer 的注意力机制成本随上下文长度呈平方增长，上下文翻倍、算力涨四倍，长任务里这是致命的。Mamba 这类状态空间层的成本接近线性，代价是记忆精度不如全注意力。把两者混搭，意思是用 Mamba 层扛住长度、用少量注意力层保住精度。结果是 100 万 token 的上下文窗口，且在 Ruler @1M 这个长上下文基准上拿到 95%——英伟达说这是唯一在 100 万 token 长度上接受测试的模型。一个 agent 跑几十轮也填不满这个窗口，意味着它不必中途丢弃历史、不必因为"忘了前面"而跑偏。

还有两个细节服务于 agent 场景：LatentMoE 负责专家路由的效率，多 token 预测（multi-token prediction）让模型一次生成多个 token 而非逐字蹦，多轮任务里这直接转化为吞吐提速。

英伟达 Nemotron 3 Ultra：当 agent 跑得越久越烧钱，它把单位成本砍了三成配图 4

三、硬数字：5 倍吞吐与 30% 成本下降

架构讲完，看英伟达摆出的效率数字，这才是给采购方看的。

吞吐方面，博客原话是"5x higher throughput compared to other open models in its class"（相比同级别的其他开放模型，吞吐高出 5 倍）。这个 5 倍来自 NVFP4 量化——博客进一步说明，在 Blackwell 架构上，NVFP4 相比 BF16 精度"在同等交互速度下，每张 GPU 的吞吐最高提升 5 倍"。把模型权重从 16 比特压到 4 比特，同一张卡能塞下更多、算得更快，这是吞吐倍数的来源。

成本方面，最硬的一个数字落在 SWE-bench Verified 这个软件工程基准上：跑完同一套题，Nemotron 3 Ultra 比同类模型"节省 30% 的成本"，且用"更少的总 token、每轮更少的 token"完成。这句话把前两节连了起来——架构上省下来的 token，最终兑现成账单上少掉的三成。对一个每天跑成千上万次 agent 任务的平台，30% 不是优化，是生死线。

性能没有为省钱而牺牲：SWE-bench Verified 在五个不同框架下稳定拿到 65% 到 70.4%；衡量 agent 完成生产力任务的 PinchBench 拿到 91%，是参与对比的模型里最高；指令遵循基准 IFBench 是 82%。对 agent 而言，跨不同框架的稳定性比单点高分更要紧——agent 产品往往架在五花八门的 harness 上，模型在哪个框架里都掉不了链子，才敢拿去跑长任务。

四、一份权重跑三代卡，与一种新训练法

两个容易被吞吐数字盖过、但对落地很关键的点。

其一是部署的灵活性。NVFP4 量化让同一个 checkpoint 能在 Hopper、Blackwell、Ampere 三代 GPU 上跑，不必为每种架构单独出权重。对自建推理的团队，这意味着手里的旧卡（Ampere）和新卡（Blackwell）能共用一份模型，不被锁死在最新硬件上。

其二是训练方法，英伟达叫多教师在线蒸馏（Multi-Teacher On-Policy Distillation, MOPD）：Ultra 在训练中一边生成自己的尝试，一边向十多个各有专长的"教师模型"学习，每个教师配一条领域专属的训练管线。配套的数据也很具体——2120 亿新 token 用于领域预训练，其中 40 亿法律 token 把 LegalBench 从 64.6% 拉到 74.7%，350 亿维基 token 把 SimpleQA 从 40.2% 拉到 50.2%，1730 亿刷新到 2025 年 9 月 30 日的 GitHub token。这套打法的指向很清楚：让一个通用大模型在多个专业领域同时变强，正好对应 agent 任务横跨写代码、查事实、读法条的现实。

许可证转向 OpenMDW-1.1——Linux 基金会为开放 AI 模型分发专门做的宽松许可。模型可经 Perplexity、OpenRouter、build.nvidia.com、Hugging Face 取用，外加 AWS、Google Cloud、Microsoft Foundry、DeepInfra、Together AI 等 30 多个部署伙伴。开放权重加上跨平台可取用，是英伟达在跟那些只能调 API 的闭源模型抢 agent 这块地。

对从业者意味着什么

这个发布把一句话钉死了：在 agent 时代，模型选型的基准从"短对话跑分"换成了"长任务单位成本"。

对做 agent 产品和平台的人：别再拿一句话问答的 benchmark 去选模型。你真正要算的是一个完整任务从头跑到尾——几十轮规划、调工具、派子智能体——总共烧多少 token、花多少钱、跑多久。Nemotron 3 Ultra 把这三个数都标出来了（少 30% 成本、更少 token、5 倍吞吐），下一个你评估的模型如果只给你 MMLU 分数而不给长任务的端到端成本，就是没回答真正的问题。把"完成一个标准任务的单位成本"做成你自己的选型指标。

对自建推理的团队：NVFP4 让一份权重跑 Hopper、Blackwell、Ampere 三代卡，这在硬件采购上给了你回旋空间——手里的旧卡不必立刻淘汰，新任务也不必为换模型重买卡。这是省下来的真金白银。

对所有人：本周买方喊贵、卖方给解法，这是同一枚硬币的两面。token 经济学的压力是真实的，但它正在把整条供应链——模型架构、量化格式、硬件设计——往"长任务更便宜"的方向逼。今天因为太贵而做不起的长链路 agent，过几个版本可能就划算了。把那些"算下来不划算"的产品想法先记下来，成本曲线在往你这边走。

引用

英伟达技术博客《NVIDIA Nemotron 3 Ultra Powers Faster, More Efficient Reasoning for Long-Running Agents》（英伟达 Nemotron 3 Ultra 为长时运行智能体带来更快、更高效的推理）：https://developer.nvidia.com/blog/nvidia-nemotron-3-ultra-powers-faster-more-efficient-reasoning-for-long-running-agents
NVIDIA Nemotron 3 模型家族页（架构与基准佐证）：https://research.nvidia.com/labs/nemotron/Nemotron-3/