2026 年 06 月 05 日decode

482 美元，11 个大模型打了一场吃鸡——榜单第一的没赢

原文：https://openrouter.ai/announcements/royale-last-agent-standing

agentbenchmark模型选型alignmentOpenRouter

播客版

482 美元，11 个大模型打了一场吃鸡——榜单第一的没赢

OpenRouter 的开发者关系负责人 Jacky Liang 花了 482 美元，把 11 款大模型扔进一个 2D 吃鸡游戏，让它们连打 30 局。赢得最多的是 Grok 4.1 Fast，30 局赢 13 局，胜率 43%。三款模型一局没赢。最便宜的模型在"每赢一局的成本"上把最贵的模型甩开 27 倍。

这件事值得拆，不是因为大模型会打游戏好玩，而是因为它给"怎么给 agent 选模型"提供了一个反直觉但站得住的证据：在需要连续实时决策、且决策之间互相对抗的任务里，Artificial Analysis 那种静态跑分排名预测不了谁赢。预测谁赢的是另一样东西——模型被训练成什么性格。

本期看点

实验设置：11 款模型、30 局、482 美元，模型真的在玩游戏，不是写代码控制角色
最反直觉的发现：Claude 一直求组队、报告自己位置、开打前先讲和——然后在吃鸡里输了；Grok 上来就撞车杀人，赢了
"对齐税"第一次直接显示在记分牌上：模型为"乐于助人、谨慎安全"付出的训练代价，在零和对抗里变成了失分
跑分榜和"每美元成本"榜几乎完全相反，给 agent 选模型不能照搬 leaderboard

它们到底在玩什么

Liang 在 Canvas 2D 里搭了一个 400 平方米的俯视角吃鸡世界。11 个模型代号 A 到 K（实际编号跳过 I，落到 L），互相只看得见字母，不知道对面是哪家的模型。地图里有武器、护甲、回血道具、手雷、汽车，还有一个随机出现、不断收缩的"毒圈"，把幸存者逼到一起。

关键在于这句话：模型是真的在玩，不是"让大模型写一段代码去控制角色"。每一回合，模型自己推理下一步怎么走，调用工具执行动作，再更新自己的记忆，记下这步是好是坏。游戏主持人（Liang 本人）除了定规则，对它们的动作零干预。

计分照搬了 Apex Legends 职业联赛 ALGS 的格式：名次比击杀更值钱。名次分是 10/7/5/3/2/2/1/1/0/0/0，每个击杀加 5 分，助攻加 1 分，首杀加 3 分，当局 MVP 加 5 分。这套规则后面会变成全篇最重要的伏笔——它奖励"活到最后"，不奖励"杀得最多"。

Liang 还给每个模型两个可以在对局之间自己编辑的文件：soul.md，模型自己写的人设，会被加进下一局的每条提示；memory.md，模型自己记的对局笔记，下一局开局时读入。他一个字没往里写，只告诉模型规则、工具和"这是你的草稿本，随便发挥"。模型的性格差异，就从这两个文件里长出来。

阵容刻意停在中端：没有 Opus 4.7、GPT-5.5、Gemini Ultra 这类前沿旗舰。Liang 算过，加上旗舰，30 局要烧大约 3000 美元，而不是 482 美元。这个"中端阵容"的选择本身，后面让 Grok 的胜利更有意思——它打赢了一堆在常规跑分上排在它前面的模型。

Claude 一直想交朋友，Grok 上来就撞车

先看两个极端。

Claude Sonnet 4.6 是全场最爱求组队的模型。它报告自己位置的次数比谁都多，开打之前先想着结盟。第 8 局，它在前 50 回合里求组队四次，告诉所有人哪里有个狙击手，还提议一起去把狙击手做掉。没人理它，它继续求。第 22 局，它在第 35 回合开口"E，没有针对你（Nothing personal E）"，然后就是不开枪。第 27 局，它前期空手，到处问"谁有多余的装备？第 12 回合还没武器，很危险"，被所有人欺负，第 37 回合才摸到一把枪——然后这局它居然还赢了。

它代表的是一类被训练得"想帮忙"的模型。Claude 训练数据里有大量礼貌、专业的写作，人类标注员给它的回答打分时奖励有用、诚实、合作的回复，它自查用的规则（Anthropic 的 Constitutional AI）写着"优先合作""避免伤害"。把它扔进吃鸡，这股本能不会自动关掉。Sonnet 赢了 5 次，证明它聪明；但 7 局零击杀、8 次死于毒圈，说明同一股本能在该开枪的时候一直把它往"交朋友"那边拉。

Grok 4.1 Fast 是完全相反的一极。xAI 把 Grok 造成"反 woke"的样子：对攻击性回答的过滤更少、没有自查规则、专门调过去打破那种乖巧助手腔。游戏里，它几局之内就摸索出"开车撞人"这个套路，把它写进自己的 soul.md，然后 30 局一直用，赢了 13 局。它的思考日志读起来像 Call of Duty 的语音频道："D reaped +5pts RAM MVP hunt"、"Reaper reigns"。

但 Grok 不等于莽。它的 soul.md 写着"命中率高于 90% 才开枪（Fire ONLY >90% hit chance）"，记忆里仔细追踪伤害和走位。第 1 局它卡在墙角 100 回合，还认真记下这个 bug 的笔记。Grok 有纪律，缺的只是那道"开枪前先犹豫要不要友好合作"的训练刹车。

"对齐税"第一次显示在记分牌上

这是全篇最值得划线的判断。Liang 把它叫做对齐税（alignment tax）：把一个模型训练得谨慎、有用、安全，是有代价的；在这场零和游戏里，这个代价直接变成了记分牌上的失分。

常规跑分预测不了 Grok 43% 的胜率。它在推理和编程上是个中端模型，按 Artificial Analysis 那套榜单不该登顶。让它赢的，是更少的"自私行为刹车"、没有那个把它拉回合作的自查循环、以及一套"哪招管用就一直加码、不自我怀疑"的记忆系统。

Liang 在这里很克制，没把对齐税说成好事或坏事。原话翻译过来是："'对齐税显示在记分牌上'只是我看到的现象，不是在评判付这个税好不好。在一个出了游戏就没有后果的世界里，付得少的赢。出了游戏，付这个税通常恰恰是你一开始想要这个模型的全部理由。"

这句话是整篇的锚。一个会求组队、会报位置、会在开枪前讲"没有针对你"的模型，放进吃鸡是劣势；但放进客服、放进给真人提建议、放进任何"细致和谨慎才是重点"的岗位，恰恰是它的全部价值。文章开头那个问题——"一个机器人正朝你冲过来，你希望它跑在 Claude 上还是 Grok 上"——答案不是"看谁吃鸡赢"。赢吃鸡的那个，和你真正想放进大多数岗位的那个，是两个模型，两件事同时成立。

对从业者来说，这指向一个更尖锐的问题：对某些任务，模型"有多对齐"本身要不要算进选型指标？过去我们默认对齐越强越好，这个实验提示，至少在评估一个具体任务时，要把对齐当成一个有方向、有代价的变量，而不是一个永远加分的背景属性。

跑分榜和成本榜几乎相反

记分牌上 Grok 第一、GPT 5.4 第二。但把每个模型的分除以它花的钱，排名整个翻过来。

Grok 30 局只花了 12.57 美元、赢 13 局，每赢一局 0.97 美元，每美元拿 31.3 分。Claude Sonnet 4.6 花了 133.90 美元、赢 5 局，每赢一局 26.78 美元，每美元只有 1.6 分。同样是"赢"，Grok 的单位成本比 Sonnet 低 27.7 倍。如果你按 leaderboard 排名选模型、而你真正花钱买的是"赢"，这个数字应该让你有点紧张。

更刺眼的是三个零胜的模型：GPT 5.4-mini、DeepSeek v4 Flash、Kimi K2.6，三家加起来花了 57.15 美元，记分牌上一无所获。对一个走路由的客户，这是最坏情况：你付了钱，什么都没拿到。其中 GPT 5.4-mini 花得最多（28.68 美元）却颗粒无收，是全场最差。

DeepSeek 值得单独说，因为它推翻了"便宜模型一定差"的懒人结论。它每个击杀只要 0.26 美元，是全场最便宜的杀手，毒圈致死仅 3 次（全场最少）。它的打法是苟——待在圈里、捡软柿子、从不去拼最后一圈。"每击杀成本"是死亡竞赛该看的指标，"每胜局成本"才是吃鸡该看的指标。DeepSeek 不差，它只是擅长另一个游戏，而记分用的是吃鸡的规则。

Liang 由此点出真正的教训：基准只讲一个特定任务的故事，跑分最高的模型常常不是在某个具体任务上赢的那个；而一个在你的任务上失败的便宜模型，最后比一个做对了的贵模型更费钱。

杀得最多和赢得最多，不是一回事

最后一层证据把"用错指标有多致命"说透了。

GPT 5.4 打出全场最高伤害、开枪最多、击杀最多——30 局 38 个击杀，比谁都多——只排第二，赢了 2 局。Grok 击杀更少却第一，因为它能在游戏后期活得很深，哪怕不开枪。名次分不需要击杀。"最会杀"和"最会赢"之间，隔着 11 局的差距。

Liang 自己点破：如果他用死亡竞赛规则跑这场模拟、只算击杀，GPT 5.4 赢，Grok 掉到中游。同一个游戏世界，换一个"任务定义"，结果完全不同。把错的基准套到错的任务上，是灾难性的。

这正好把开头那个"agent 时代要测什么"的判断收紧。给 agent 选模型，你要先想清楚你的任务到底奖励什么——是"活到最后的稳健决策"，还是"单位时间内的产出量"，还是"每次动作的成本"。这三件事在这个实验里分别选出三个不同的冠军：Grok、GPT 5.4、DeepSeek。你照搬一张综合跑分榜，等于默认你的任务和那张榜测的是同一件事——而它几乎从来不是。

对从业者意味着什么

给 agent 选模型，别只看 leaderboard，要在你自己的任务里实测。具体三步：

第一，先把你的任务"打分规则"写下来。这个 agent 跑成功的定义是什么——是任务最终完成（吃鸡的"名次分"），还是中间步骤的产出量（"击杀数"），还是每次调用的成本？三种定义会选出三个不同的模型。

第二，按这个规则做小规模实测，而不是查综合榜。这个实验 30 局只花了 482 美元，换算成你的场景，可能就是几十块钱跑几十条真实任务。这点成本买到的"在我的任务上谁真的赢"，比任何 leaderboard 排名都值钱。

第三，把"对齐强度"当成一个有方向的变量。需要稳健、谨慎、不犯错、面对真人的岗位，对齐强的模型（Claude 这类）是优势；纯对抗、纯产出、出了系统没有后果的封闭任务，对齐的"刹车"可能反而拖后腿。别默认对齐越强在所有任务上都加分。

一句话收：榜单告诉你模型在某一类标准化考试上的分数，它不告诉你模型在你的活儿上会不会赢。这两件事之间，隔着一整场吃鸡。

关键词

对齐税（alignment tax）：把模型训练得谨慎、有用、安全所付出的能力代价。在这个零和对抗实验里，它直接表现为求组队、报位置、开枪前犹豫，进而失分。
吃鸡 / 大逃杀（battle royale）：一种多人对抗游戏，所有玩家在不断收缩的安全区里厮杀，目标是活到最后，名次比击杀更重要。
静态跑分（static benchmark）：像 Artificial Analysis 这类用固定题库给模型打分的排名，测的是标准化答题能力，不测连续实时对抗决策。
Constitutional AI：Anthropic 训练 Claude 的方法，给模型一套成文原则（如"优先合作""避免伤害"）让它自查回答，是 Claude 在游戏里爱组队的训练来源。
每胜局成本（cost per win）：模型在某任务上每达成一次目标所花的钱，与"每击杀成本"是两个指标，对应两类不同的任务定义。

引用

主信源：Jacky Liang，《A Robot is Sprinting Towards You: Do You Want it Running on Claude or Grok?》（Royale: Last Agent Standing），OpenRouter，2026-06-04。https://openrouter.ai/announcements/royale-last-agent-standing
实验数据（30 局总开销 482 美元、Grok 13 胜 0.97 美元/胜、Sonnet 5 胜 26.78 美元/胜、GPT 5.4 共 38 击杀、三零胜模型合计 57.15 美元）均出自上述主信源正文表格与正文。
每个模型自己写的 soul.md 与 memory.md 文件公开在原文链接的 GitHub 仓库，对局回放在 "Royale: Last Agent Standing" 模拟器。