2026 年 06 月 04 日decode

DeepMind 让一群 AI 互相辩论，逼出科研级的新假设

单个大模型给你出科研假设，问题不在它笨，在它太顺从——你问一句，它给一个听上去合理的答案，没人反驳，也没人逼它再想一遍。真正的科研不是这样工作的。一个想法被提出来，要先被同行批，被竞争假设比下去，改了再上，反复多轮才轮得到进实验室。

DeepMind 6 月 2 日放出的 Co-Scientist，就是把这套"被反复批斗"的流程搬进了机器内部。官方推文一句话点题：

"我们相信 AI 能成为一个专属的研究伙伴，帮助发现下一个突破。这就是 Co-Scientist：我们最新的、基于 Gemini 的多智能体系统，能为复杂科学问题生成、辩论并演进新颖的假设。"

关键词是 generate、debate、evolve——生成、辩论、演进。不是一个更强的模型，而是一群分工的 agent 互相对抗。这跟本周 Claude 那边推的对抗式自检、动态工作流是同一个思路：单次推理不可信，靠多个角色互相挑刺来逼近质量。Co-Scientist 是这个思路在科研场景里最完整的一次落地。

本期看点

多智能体系统（multi-agent system） —— 不是一个模型干所有活，而是把任务拆给多个有明确角色的 AI agent，各管一段，互相传递、互相制衡。Co-Scientist 里有七个固定角色。
自我对弈式辩论（self-play debate） —— 借自下棋 AI 的打法：让模型扮演不同立场互相攻防，谁的论证站得住谁胜出，用对抗逼出质量，而不是靠一次生成。
Elo 评分（Elo rating） —— 国际象棋的等级分系统。Co-Scientist 用它给一堆假设排名：两两"对战"，赢的加分输的减分，分越高代表越扛得住批评。
湿实验（wet-lab validation） —— 在真实实验室里用细胞、组织、试剂做的实验，区别于纯计算的"干实验"。假设再漂亮，没过湿实验都只是猜想。

一、七个角色，一条流水线

Co-Scientist 不是把"出假设"这件事丢给一个超大模型，而是拆成七个专职 agent，每个只干一件事，由一个总管调度。这是它跟普通"问一句答一句"最本质的区别。

按官方博客的描述，这条流水线是这样转的。Supervisor（总管） 先把研究者给的目标拆解成子任务，排好队列，再把算力分给底下各个 agent。Generation（生成） 负责产出第一批假设，靠的是后面会讲的自我对弈辩论。Reflection（反思） 像审稿人一样逐条批评、找漏洞。Ranking（排名） 把这批假设拉进锦标赛两两比，用 Elo 算分排座次。Evolution（演进） 拿排名靠前的假设接着改、接着组合，生出下一代。Proximity（邻近） 管假设之间的相似度，避免一堆换汤不换药的重复。Meta-review（元评审） 站在全局总结这一轮暴露出的共性问题，反过来指导下一轮怎么生成。

七个角色合起来是一个闭环：生成、批评、排名、演进，再用元评审的反馈喂回生成端，转下一圈。每多转一圈，活下来的假设就被批得更狠一次。这套结构的设计意图很明确——把人类科研团队里"提出、评审、竞争、迭代"的社会过程，编码进了机器的内部分工。

二、辩论才是发动机：用 Elo 给假设排座次

这套系统真正的发动机，是 Generation 和 Ranking 这两环用的对抗机制。

生成端用的是"自我对弈式科学辩论"。self-play（自我对弈）这个词来自 AlphaGo 那一脉：让模型左右手互搏，扮演不同立场互相攻防，一方提假设、另一方挑毛病，论证站不住的当场被打掉，活下来的才是经得起反驳的。这跟一个模型一次性吐出答案的区别，相当于"答辩通过的方案"和"草稿"的区别。

排名端把这些假设拉进一场锦标赛，用 Elo 评分系统打分。Elo 是国际象棋给棋手定段位的算法：两两对弈，赢的从输的那里夺分，长期下来分数就反映真实强弱。Co-Scientist 让假设两两"对战"——谁的科学论证更扛批评谁赢——赢的加分、输的减分，最后按分排座。

这个设计最有意思的地方，是 DeepMind 给出了一个可量化的信号：Elo 分越高的假设，在高难度科学基准测试（GPQA 钻石难度集）上的准确率也越高。换句话说，"被批斗后还能活下来"这件事，和"答案真的更对"是正相关的。对抗不只是表演，它在筛真东西。这也解释了为什么要费劲搞七个 agent——不是为了热闹，是因为单次生成根本区分不出哪个假设更靠谱，必须让它们互相厮杀，分数才会浮出来。

三、它真做出了能进实验室的东西

如果只到"假设互相辩论"这一层，Co-Scientist 还只是个聪明的玩具。它值得拆的原因是：生成出来的假设，有几条真的进了湿实验室，而且验出来了。

5 月 19 日，《自然》（Nature）发表论文正式记录了 Co-Scientist 的架构和实验结果，验证集中在三个生物医学场景。药物重定位：系统为急性髓系白血病（AML，一种凶险的血癌）提出了几个老药新用的候选，斯坦福医学院的研究者在多个 AML 细胞系上做实验，确认这些药"在临床相关浓度下能抑制肿瘤活性"。新靶点发现：在肝纤维化方向，AI 指出的表观遗传靶点在人类肝脏类器官上显示出"显著的抗纤维化活性"，所有候选药的统计 p 值都小于 0.01（即结果是偶然的概率低于百分之一）。抗菌素耐药性机制：系统独立推出的一个机制假设，竟和此前一项尚未发表的实验发现对上了——它在不知道答案的情况下，重新推出了真实存在的结论。

这三件事的分量不一样。前两件是 AI 出主意、人去做实验验真；第三件最微妙——它在没有数据泄露的前提下复现了一个真实但未公开的发现，这才是"它真的在推理而不是在检索"的强证据。

但边界必须讲清楚。验的全部是临床前阶段：细胞系、类器官，没有一例进过病人身体。生成假设不等于验证假设，从"细胞里有效"到"对人有效"之间，隔着整个药物开发的死亡谷。Co-Scientist 把科研最前端那道"想出值得一试的方向"的工序加速了，但下游的湿实验、临床试验，仍然是人和时间的活，一步都省不掉。

四、跟 06-03 那篇 Science Skills 别搞混

DeepMind 这周连出两手科研 AI，容易混。它们补的是完全不同的缺口。

前一篇拆的 Science Skills，是一组开源的 agent 能力包——给模型一个"事实接口"，让它查基因就去查 ClinVar、查蛋白结构就去查 AlphaFold，解决的是模型不该凭记忆瞎编、要锚在真实数据库上的 grounding 问题。那是数据层的接口。

Co-Scientist 是另一回事：它是推理层的系统，解决的是"怎么从已知信息里逼出一个新颖、靠谱、值得做实验的假设"。一个管"别编"，一个管"会想"。理想形态是两者叠加——Co-Scientist 负责让一群 agent 辩论出假设，Science Skills 负责让每个 agent 在辩论时手里握着真实数据而不是幻觉。DeepMind 同一周放出这两件，方向是清楚的：把 AI 科研助手从"会聊"推向"会查 + 会想"。

对从业者意味着什么

对研究者：Co-Scientist 重新定义了 AI 在科研工作流里的位置——它不在终点（替你做实验、下结论），在最前端那道最耗脑力又最难外包的工序：从一堆文献和数据里想出值得一试的方向。会用它的人，是把它当一个不知疲倦、敢跟你对着干的"假设陪练"，让它先帮你把烂主意筛掉、把好主意逼出来，再用你自己的实验资源去验那几条最扛打的。把它当"答案机"用的人会失望，因为它的产物是假设不是结论。

对做 AI 系统的工程师：这是"多 agent 对抗优于单次推理"的又一个硬证据，而且给了可量化的信号——Elo 分和基准准确率正相关，说明"让 agent 互相批斗再排名"是能筛出质量的真机制，不是噱头。如果你在搭需要高质量输出的 agent 系统，Generation-Reflection-Ranking-Evolution 这套生成、批评、竞争、迭代的闭环，比单纯堆更大的模型更值得抄。

对所有人：别被"AI 做出科学发现"的标题冲昏头。Co-Scientist 的全部战果都止步于细胞和类器官，离病床还隔着整个临床开发周期。它真正改变的是科研的前端效率，不是终点。生成假设这一步可以指数级加速，验证假设这一步，仍然按实验室和人体的物理速度走。

引用

Google DeepMind 官方推文（2026-06-02）："我们相信 AI 能成为一个专属的研究伙伴……基于 Gemini 的多智能体系统，能为复杂科学问题生成、辩论并演进新颖的假设。"：https://x.com/GoogleDeepMind/status/2061857539977842793
Google Research 官方博客《用 AI co-scientist 加速科学突破》（Accelerating scientific breakthroughs with an AI co-scientist）：https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/
Google DeepMind 博客《Co-Scientist：加速研究的多智能体 AI 伙伴》（Co-Scientist: A multi-agent AI partner to accelerate research）：https://deepmind.google/blog/co-scientist-a-multi-agent-ai-partner-to-accelerate-research/
《自然》（Nature）论文（2026-05-19）：记录 Co-Scientist 架构及药物重定位、新靶点发现、抗菌素耐药机制三类临床前验证结果，斯坦福医学院参与湿实验。