2026 年 06 月 05 日decode

一个开源模型在 Terminal Bench 上追到 Opus 前面，它没自己训底座

原文：https://x.com/SiliconFlowAI/status/2062549952266723493

开源模型Qwen3.5MoE推理模型token经济国产模型

播客版

一个开源模型在 Terminal Bench 上追到 Opus 前面，它没自己训底座

neolab（Nex AGI）这周放出 Nex-N2-Pro。一句话说清它干了什么：拿阿里今年 2 月开源的 Qwen3.5-397B-A17B 当底座，只做后训练（post-training），就把一个开源权重模型推到了"GPT-5.5 和 Claude Opus 4.7 级"的位置。SiliconFlow 当天 T+0 上线，头两周免费。

值得盯住的不是"又一个号称对标 Opus 的模型"。是它在 Terminal-Bench 2.1 上拿到 75.3，把 Claude Opus 4.7 的 69.7 甩在了后面——而 Terminal-Bench 测的恰恰是这一年最烧钱、闭源厂商最想守住的那块地：让模型在真实终端里自己跑命令、修代码、把一个多步骤任务办完。一个谁都能下载、Apache 2.0 授权、还不用自己训底座的模型，在这块地上反超了前沿闭源模型之一。

本期看点

neolab 没训底座。Qwen3.5 这个 397B 的 MoE 大模型是阿里 2 月开源的，neolab 只在上面做后训练，就把它调到了前沿水平——这是"后训练当道"最直接的证据。
它在 Terminal-Bench 2.1（75.3）上超过 Opus 4.7（69.7），SWE-Bench Pro（58.8）压过 GPT-5.5（58.6）。这些是 agent 干活的实测场，不是刷榜题。
MoE 的账：397B 总参数，每次只激活 17B。你拿到的是大模型的知识量，付的是小模型的推理成本。
"Adaptive Thinking"——模型自己决定要不要想、想多深。简单动作直接做，关键决策才深推。这条直接砍的是推理 token，也就是你的账单。

一个开源模型在 Terminal Bench 上追到 Opus 前面，它没自己训底座配图 2

neolab 这次没造车，只调了引擎

先把"谁做了什么"分清楚，这是整件事的关键。

底座是 Qwen3.5-397B-A17B，阿里 2026 年 2 月开源的旗舰多模态模型。架构是混合专家（Mixture-of-Experts，MoE）：总共 397B 参数，但每处理一个 token 只激活其中约 17B，靠 512 个"专家"子网络里的路由机制挑出一小撮干活。这是 Qwen3.5 自己的工程，跟 neolab 无关。

neolab（Nex AGI）做的是后训练（post-training）——在已经预训练好的底座上，用偏好对齐、agent 任务数据、工具调用轨迹这些手段去"调教"模型的行为，不重新预训练。打个不那么严谨但好懂的比方：阿里造好了一台 397B 排量的引擎，neolab 没碰引擎本身，只重调了点火、变速和油门响应，让它在"自己跑终端、自己调工具"这类活上表现得像台赛车。

为什么这件事值得单独拎出来讲。"Post-training is having a moment"——SiliconFlow 那条推文的原话，翻成中文是"后训练正当道"。它的潜台词是：预训练这条最烧钱、最需要万卡集群的路，已经被几家开源底座（Qwen、DeepSeek、GLM 这些）趟出来并公开了；后来者不必再砸几亿美金从零训一个 400B 模型，只要拿开源底座做后训练，就能摸到前沿。前沿模型的"护城河"从"谁有最大的预训练"，正在往"谁的后训练数据和方法更好"挪。而后者的门槛，比前者低一个数量级。

一个开源模型在 Terminal Bench 上追到 Opus 前面，它没自己训底座配图 3

Terminal-Bench 上反超 Opus，意味着什么

光说"对标 Opus"是营销话术，得看它在哪块地上对标。

neolab 公布的对比里，最硬的一组是 Terminal-Bench 2.1：Nex-N2-Pro 拿 75.3，GPT-5.5 是 83.4，Claude Opus 4.7 是 69.7。它没追上 GPT-5.5，但确实越过了 Opus 4.7。

Terminal-Bench 测什么，得讲清楚，否则这个数字没有重量。它把模型扔进一个真实的命令行环境，给一个多步骤任务——比如"在这个仓库里把这个失败的测试修好""配好这套环境并跑通"——然后看模型能不能自己敲命令、读报错、改文件、再跑、直到任务真的完成。它不是选择题，不是补全代码片段，是端到端把活干完。这正是过去一年 Claude Code、Codex 这类终端 agent 产品的核心战场，也是闭源厂商最舍不得开放的能力。

再看两条 SWE-Bench（在真实 GitHub issue 上修 bug 的测试）：SWE-Bench Verified，Nex-N2-Pro 80.8；SWE-Bench Pro（更难的一档），它 58.8，GPT-5.5 是 58.6——这一项它略微压过了 GPT-5.5。通用推理上，GPQA Diamond（博士级科学难题）它 90.7，离 GPT-5.5 的 93.6、Opus 的 94.2 还差一截，但已经在第一梯队的下沿。

把这些数字摆一起看到的不是"开源全面碾压闭源"。是"在 agent 干活这块具体的地上，开源已经追到能跟最强闭源同台报价的程度"。差距还在，但已经不是代差，是分差。对一个不用自己训底座的开源模型，这个分差小得让人意外。

一个开源模型在 Terminal Bench 上追到 Opus 前面，它没自己训底座配图 4

MoE 的账，和省 token 的账

把成本这条线讲透，因为这才是开源模型真正的杀招。

第一笔账是 MoE 本身。稠密（dense）模型每处理一个 token，整个网络都要参与计算——一个 400B 的稠密模型，每个 token 都在烧 400B 参数的算力。MoE 不一样：397B 是它"知道"的总量，但每个 token 只点亮其中约 17B 个参数干活。你拿到的是一个 397B 模型的知识广度，付的却是接近 17B 模型的推理算力。这就是为什么 Qwen3.5 这类"大总参、小激活"的模型能在保持能力的同时，把每 token 的服务成本压到远低于同等能力的稠密模型。

第二笔账是 neolab 后训练加进去的"Adaptive Thinking"（自适应思考）。模型卡的原话：让模型自己决定何时思考、思考多深——简单动作快速执行，关键决策才彻底推理。

要理解这条为什么重要，得先知道推理模型的成本结构。推理模型（reasoning model）在给出答案前会先生成一长串"思考"内容（reasoning tokens），这些 token 你看不到最终结果里，但每一个都按 token 计费、都占推理时间。问题是绝大多数推理模型一视同仁：问它"1+1 等于几"，它也可能先想三百个 token。Adaptive Thinking 要做的就是让模型学会"看人下菜"——琐碎的事直接做，难的事才动用深推理。这条直接砍的是那串看不见的思考 token，也就是你为"模型在想"这件事付的钱。

两笔账叠起来，开源模型在"够用且便宜"这个坐标上的位置就清楚了。它不一定在每个榜单的最高分上压过闭源前沿，但它把"达到前沿八九成能力"的单位成本，压到了闭源厂商很难跟的地步——你能自己部署、能按 token 谈价、底座还是 Apache 2.0。本周我们一直在讲的 token 经济，到这里收口：当能力追平到"分差"级别，比的就不再是谁更强，是谁每办成一件事更便宜。

一个开源模型在 Terminal Bench 上追到 Opus 前面，它没自己训底座配图 5

还有几件事没追平

不把短板说清，前面的判断就站不住。

GPDval（一个衡量经济价值产出的综合指标）上，Nex-N2-Pro 是 1585，GPT-5.5 是 1769，Opus 4.7 是 1753——这一项差得不小，说明在"端到端完成有经济价值的复杂工作"这种最综合的考法上，它还落在闭源前沿后面一档。GPQA、Terminal-Bench 的总分也都还没追上 GPT-5.5。

部署门槛也是真实的。397B 的模型要跑起来，通常得多张 H100、多机部署；neolab 还建议用它定制的 sglang 分支来服务，才能拿到最佳性能。"开源免费"不等于"零成本运行"——你省的是 API 调用费和厂商锁定，付的是自己那套推理基础设施的钱和工程量。对没有 GPU 集群的团队，更现实的路是走 SiliconFlow 这类托管服务，那又回到了按 token 付费的逻辑，只是单价更低、可迁移性更强。

所以准确的说法是：开源国产模型在"够用且便宜"这条线上追平了闭源前沿，不是在"最强"这条线上。但对绝大多数实际场景，"够用且便宜"恰恰是更重要的那条线。

对从业者意味着什么

选型时，开源国产模型已经不是"预算不够时的备胎"，是一个需要认真评估的正选。下次做模型选型，别默认"要 agent 能力就只能上 GPT-5.5 / Opus"——把 Nex-N2-Pro 这类基于 Qwen3.5 后训练的模型放进对比清单，在你自己的真实任务上跑一遍 Terminal-Bench 式的端到端评测，再算单位成本。很可能发现，那点分差换来的成本下降，对你的业务是划算的。

如果你在做 agent 产品，盯住"后训练正当道"这个信号。它意味着你不必等闭源厂商开放能力，也不必自己训底座——拿一个强开源底座，在你的垂直场景数据上做后训练，就有机会做出在该场景里不输前沿的模型。护城河正在从"谁的预训练大"挪到"谁的后训练数据和方法好"，而后者是你能下场竞争的。

如果你在算 AI 账单，把"推理 token 成本"单列出来盯。MoE 的小激活 + Adaptive Thinking 这类自适应推理深度，正在把推理模型那串看不见的思考 token 变成一个可优化项。模型选型不该只比能力分，得比"每办成一件事花多少钱"——而省 token 这件事，开源这边正在卷得很凶。

关键词

后训练（Post-training）：在已经预训练好的底座模型上，用对齐、agent 任务数据、工具调用轨迹等手段调教模型行为，不重新从零预训练。门槛远低于预训练。
MoE（混合专家）：模型由很多"专家"子网络组成，每个 token 只激活其中一小部分。Qwen3.5-397B-A17B 即 397B 总参数、每 token 激活约 17B，512 个专家。好处是知识量按总参数算、算力成本按激活参数算。
推理 token（Reasoning tokens）：推理模型在给最终答案前生成的一长串"思考"内容。它不出现在结果里，但按 token 计费、占用推理时间。是推理模型成本的主要来源之一。
Adaptive Thinking（自适应思考）：neolab 后训练加入的能力，让模型自己判断该不该深想、想多深——简单任务快速执行，关键决策才彻底推理，从而压低推理 token 消耗。
Terminal-Bench：把模型扔进真实命令行环境、给多步骤任务、看它能否自己敲命令把活端到端干完的基准。测的是终端 agent 的真实干活能力，不是选择题。

引用

SiliconFlow 官方推文（主信源）："Post-training is having a moment — Nex-N2-Pro from neolab @NexEcosystem proves it. Built on Qwen3.5-397B-A17B, delivers GPT-5.5 and Claude Opus 4.7–level performance."（后训练正当道——neolab 的 Nex-N2-Pro 证明了这点。基于 Qwen3.5-397B-A17B，达到 GPT-5.5 和 Claude Opus 4.7 级性能。）https://x.com/SiliconFlowAI/status/2062549952266723493
Nex-N2-Pro 模型卡（Hugging Face，nex-agi）：Apache 2.0 授权；基准成绩 Terminal-Bench 2.1 = 75.3、SWE-Bench Verified = 80.8、SWE-Bench Pro = 58.8、GPQA Diamond = 90.7、GDPval = 1585；"Adaptive Thinking lets the model decide on its own when to think and how deeply."（自适应思考让模型自己决定何时思考、思考多深。）https://huggingface.co/nex-agi/Nex-N2-Pro
Qwen3.5-397B-A17B 模型卡与技术资料：397B 总参数 / 17B 激活、512 专家、262K 上下文、原生多模态（VLM），2026 年 2 月开源。https://huggingface.co/Qwen/Qwen3.5-397B-A17B