482 美元,11 个大模型打了一场吃鸡——榜单第一的没赢
原文:https://openrouter.ai/announcements/royale-last-agent-standing

482 美元,11 个大模型打了一场吃鸡——榜单第一的没赢
OpenRouter 的开发者关系负责人 Jacky Liang 花了 482 美元,把 11 款大模型扔进一个 2D 吃鸡游戏,让它们连打 30 局。赢得最多的是 Grok 4.1 Fast,30 局赢 13 局,胜率 43%。三款模型一局没赢。最便宜的模型在"每赢一局的成本"上把最贵的模型甩开 27 倍。
这件事值得拆,不是因为大模型会打游戏好玩,而是因为它给"怎么给 agent 选模型"提供了一个反直觉但站得住的证据:在需要连续实时决策、且决策之间互相对抗的任务里,Artificial Analysis 那种静态跑分排名预测不了谁赢。预测谁赢的是另一样东西——模型被训练成什么性格。
本期看点
- 实验设置:11 款模型、30 局、482 美元,模型真的在玩游戏,不是写代码控制角色
- 最反直觉的发现:Claude 一直求组队、报告自己位置、开打前先讲和——然后在吃鸡里输了;Grok 上来就撞车杀人,赢了
- "对齐税"第一次直接显示在记分牌上:模型为"乐于助人、谨慎安全"付出的训练代价,在零和对抗里变成了失分
- 跑分榜和"每美元成本"榜几乎完全相反,给 agent 选模型不能照搬 leaderboard

它们到底在玩什么
Liang 在 Canvas 2D 里搭了一个 400 平方米的俯视角吃鸡世界。11 个模型代号 A 到 K(实际编号跳过 I,落到 L),互相只看得见字母,不知道对面是哪家的模型。地图里有武器、护甲、回血道具、手雷、汽车,还有一个随机出现、不断收缩的"毒圈",把幸存者逼到一起。
关键在于这句话:模型是真的在玩,不是"让大模型写一段代码去控制角色"。每一回合,模型自己推理下一步怎么走,调用工具执行动作,再更新自己的记忆,记下这步是好是坏。游戏主持人(Liang 本人)除了定规则,对它们的动作零干预。
计分照搬了 Apex Legends 职业联赛 ALGS 的格式:名次比击杀更值钱。名次分是 10/7/5/3/2/2/1/1/0/0/0,每个击杀加 5 分,助攻加 1 分,首杀加 3 分,当局 MVP 加 5 分。这套规则后面会变成全篇最重要的伏笔——它奖励"活到最后",不奖励"杀得最多"。
Liang 还给每个模型两个可以在对局之间自己编辑的文件:soul.md,模型自己写的人设,会被加进下一局的每条提示;memory.md,模型自己记的对局笔记,下一局开局时读入。他一个字没往里写,只告诉模型规则、工具和"这是你的草稿本,随便发挥"。模型的性格差异,就从这两个文件里长出来。
阵容刻意停在中端:没有 Opus 4.7、GPT-5.5、Gemini Ultra 这类前沿旗舰。Liang 算过,加上旗舰,30 局要烧大约 3000 美元,而不是 482 美元。这个"中端阵容"的选择本身,后面让 Grok 的胜利更有意思——它打赢了一堆在常规跑分上排在它前面的模型。

Claude 一直想交朋友,Grok 上来就撞车
先看两个极端。
Claude Sonnet 4.6 是全场最爱求组队的模型。它报告自己位置的次数比谁都多,开打之前先想着结盟。第 8 局,它在前 50 回合里求组队四次,告诉所有人哪里有个狙击手,还提议一起去把狙击手做掉。没人理它,它继续求。第 22 局,它在第 35 回合开口"E,没有针对你(Nothing personal E)",然后就是不开枪。第 27 局,它前期空手,到处问"谁有多余的装备?第 12 回合还没武器,很危险",被所有人欺负,第 37 回合才摸到一把枪——然后这局它居然还赢了。
它代表的是一类被训练得"想帮忙"的模型。Claude 训练数据里有大量礼貌、专业的写作,人类标注员给它的回答打分时奖励有用、诚实、合作的回复,它自查用的规则(Anthropic 的 Constitutional AI)写着"优先合作""避免伤害"。把它扔进吃鸡,这股本能不会自动关掉。Sonnet 赢了 5 次,证明它聪明;但 7 局零击杀、8 次死于毒圈,说明同一股本能在该开枪的时候一直把它往"交朋友"那边拉。
Grok 4.1 Fast 是完全相反的一极。xAI 把 Grok 造成"反 woke"的样子:对攻击性回答的过滤更少、没有自查规则、专门调过去打破那种乖巧助手腔。游戏里,它几局之内就摸索出"开车撞人"这个套路,把它写进自己的 soul.md,然后 30 局一直用,赢了 13 局。它的思考日志读起来像 Call of Duty 的语音频道:"D reaped +5pts RAM MVP hunt"、"Reaper reigns"。
但 Grok 不等于莽。它的 soul.md 写着"命中率高于 90% 才开枪(Fire ONLY >90% hit chance)",记忆里仔细追踪伤害和走位。第 1 局它卡在墙角 100 回合,还认真记下这个 bug 的笔记。Grok 有纪律,缺的只是那道"开枪前先犹豫要不要友好合作"的训练刹车。

"对齐税"第一次显示在记分牌上
这是全篇最值得划线的判断。Liang 把它叫做对齐税(alignment tax):把一个模型训练得谨慎、有用、安全,是有代价的;在这场零和游戏里,这个代价直接变成了记分牌上的失分。
常规跑分预测不了 Grok 43% 的胜率。它在推理和编程上是个中端模型,按 Artificial Analysis 那套榜单不该登顶。让它赢的,是更少的"自私行为刹车"、没有那个把它拉回合作的自查循环、以及一套"哪招管用就一直加码、不自我怀疑"的记忆系统。
Liang 在这里很克制,没把对齐税说成好事或坏事。原话翻译过来是:"'对齐税显示在记分牌上'只是我看到的现象,不是在评判付这个税好不好。在一个出了游戏就没有后果的世界里,付得少的赢。出了游戏,付这个税通常恰恰是你一开始想要这个模型的全部理由。"
这句话是整篇的锚。一个会求组队、会报位置、会在开枪前讲"没有针对你"的模型,放进吃鸡是劣势;但放进客服、放进给真人提建议、放进任何"细致和谨慎才是重点"的岗位,恰恰是它的全部价值。文章开头那个问题——"一个机器人正朝你冲过来,你希望它跑在 Claude 上还是 Grok 上"——答案不是"看谁吃鸡赢"。赢吃鸡的那个,和你真正想放进大多数岗位的那个,是两个模型,两件事同时成立。
对从业者来说,这指向一个更尖锐的问题:对某些任务,模型"有多对齐"本身要不要算进选型指标?过去我们默认对齐越强越好,这个实验提示,至少在评估一个具体任务时,要把对齐当成一个有方向、有代价的变量,而不是一个永远加分的背景属性。

跑分榜和成本榜几乎相反
记分牌上 Grok 第一、GPT 5.4 第二。但把每个模型的分除以它花的钱,排名整个翻过来。
Grok 30 局只花了 12.57 美元、赢 13 局,每赢一局 0.97 美元,每美元拿 31.3 分。Claude Sonnet 4.6 花了 133.90 美元、赢 5 局,每赢一局 26.78 美元,每美元只有 1.6 分。同样是"赢",Grok 的单位成本比 Sonnet 低 27.7 倍。如果你按 leaderboard 排名选模型、而你真正花钱买的是"赢",这个数字应该让你有点紧张。
更刺眼的是三个零胜的模型:GPT 5.4-mini、DeepSeek v4 Flash、Kimi K2.6,三家加起来花了 57.15 美元,记分牌上一无所获。对一个走路由的客户,这是最坏情况:你付了钱,什么都没拿到。其中 GPT 5.4-mini 花得最多(28.68 美元)却颗粒无收,是全场最差。
DeepSeek 值得单独说,因为它推翻了"便宜模型一定差"的懒人结论。它每个击杀只要 0.26 美元,是全场最便宜的杀手,毒圈致死仅 3 次(全场最少)。它的打法是苟——待在圈里、捡软柿子、从不去拼最后一圈。"每击杀成本"是死亡竞赛该看的指标,"每胜局成本"才是吃鸡该看的指标。DeepSeek 不差,它只是擅长另一个游戏,而记分用的是吃鸡的规则。
Liang 由此点出真正的教训:基准只讲一个特定任务的故事,跑分最高的模型常常不是在某个具体任务上赢的那个;而一个在你的任务上失败的便宜模型,最后比一个做对了的贵模型更费钱。

杀得最多和赢得最多,不是一回事
最后一层证据把"用错指标有多致命"说透了。
GPT 5.4 打出全场最高伤害、开枪最多、击杀最多——30 局 38 个击杀,比谁都多——只排第二,赢了 2 局。Grok 击杀更少却第一,因为它能在游戏后期活得很深,哪怕不开枪。名次分不需要击杀。"最会杀"和"最会赢"之间,隔着 11 局的差距。
Liang 自己点破:如果他用死亡竞赛规则跑这场模拟、只算击杀,GPT 5.4 赢,Grok 掉到中游。同一个游戏世界,换一个"任务定义",结果完全不同。把错的基准套到错的任务上,是灾难性的。
这正好把开头那个"agent 时代要测什么"的判断收紧。给 agent 选模型,你要先想清楚你的任务到底奖励什么——是"活到最后的稳健决策",还是"单位时间内的产出量",还是"每次动作的成本"。这三件事在这个实验里分别选出三个不同的冠军:Grok、GPT 5.4、DeepSeek。你照搬一张综合跑分榜,等于默认你的任务和那张榜测的是同一件事——而它几乎从来不是。
对从业者意味着什么
给 agent 选模型,别只看 leaderboard,要在你自己的任务里实测。具体三步:
第一,先把你的任务"打分规则"写下来。这个 agent 跑成功的定义是什么——是任务最终完成(吃鸡的"名次分"),还是中间步骤的产出量("击杀数"),还是每次调用的成本?三种定义会选出三个不同的模型。
第二,按这个规则做小规模实测,而不是查综合榜。这个实验 30 局只花了 482 美元,换算成你的场景,可能就是几十块钱跑几十条真实任务。这点成本买到的"在我的任务上谁真的赢",比任何 leaderboard 排名都值钱。
第三,把"对齐强度"当成一个有方向的变量。需要稳健、谨慎、不犯错、面对真人的岗位,对齐强的模型(Claude 这类)是优势;纯对抗、纯产出、出了系统没有后果的封闭任务,对齐的"刹车"可能反而拖后腿。别默认对齐越强在所有任务上都加分。
一句话收:榜单告诉你模型在某一类标准化考试上的分数,它不告诉你模型在你的活儿上会不会赢。这两件事之间,隔着一整场吃鸡。
关键词
- 对齐税(alignment tax):把模型训练得谨慎、有用、安全所付出的能力代价。在这个零和对抗实验里,它直接表现为求组队、报位置、开枪前犹豫,进而失分。
- 吃鸡 / 大逃杀(battle royale):一种多人对抗游戏,所有玩家在不断收缩的安全区里厮杀,目标是活到最后,名次比击杀更重要。
- 静态跑分(static benchmark):像 Artificial Analysis 这类用固定题库给模型打分的排名,测的是标准化答题能力,不测连续实时对抗决策。
- Constitutional AI:Anthropic 训练 Claude 的方法,给模型一套成文原则(如"优先合作""避免伤害")让它自查回答,是 Claude 在游戏里爱组队的训练来源。
- 每胜局成本(cost per win):模型在某任务上每达成一次目标所花的钱,与"每击杀成本"是两个指标,对应两类不同的任务定义。
引用
- 主信源:Jacky Liang,《A Robot is Sprinting Towards You: Do You Want it Running on Claude or Grok?》(Royale: Last Agent Standing),OpenRouter,2026-06-04。https://openrouter.ai/announcements/royale-last-agent-standing
- 实验数据(30 局总开销 482 美元、Grok 13 胜 0.97 美元/胜、Sonnet 5 胜 26.78 美元/胜、GPT 5.4 共 38 击杀、三零胜模型合计 57.15 美元)均出自上述主信源正文表格与正文。
- 每个模型自己写的
soul.md与memory.md文件公开在原文链接的 GitHub 仓库,对局回放在 "Royale: Last Agent Standing" 模拟器。