DeepMind 让一群 AI 互相辩论,逼出科研级的新假设

DeepMind 让一群 AI 互相辩论,逼出科研级的新假设
单个大模型给你出科研假设,问题不在它笨,在它太顺从——你问一句,它给一个听上去合理的答案,没人反驳,也没人逼它再想一遍。真正的科研不是这样工作的。一个想法被提出来,要先被同行批,被竞争假设比下去,改了再上,反复多轮才轮得到进实验室。
DeepMind 6 月 2 日放出的 Co-Scientist,就是把这套"被反复批斗"的流程搬进了机器内部。官方推文一句话点题:
"我们相信 AI 能成为一个专属的研究伙伴,帮助发现下一个突破。这就是 Co-Scientist:我们最新的、基于 Gemini 的多智能体系统,能为复杂科学问题生成、辩论并演进新颖的假设。"
关键词是 generate、debate、evolve——生成、辩论、演进。不是一个更强的模型,而是一群分工的 agent 互相对抗。这跟本周 Claude 那边推的对抗式自检、动态工作流是同一个思路:单次推理不可信,靠多个角色互相挑刺来逼近质量。Co-Scientist 是这个思路在科研场景里最完整的一次落地。
本期看点
- 多智能体系统(multi-agent system) —— 不是一个模型干所有活,而是把任务拆给多个有明确角色的 AI agent,各管一段,互相传递、互相制衡。Co-Scientist 里有七个固定角色。
- 自我对弈式辩论(self-play debate) —— 借自下棋 AI 的打法:让模型扮演不同立场互相攻防,谁的论证站得住谁胜出,用对抗逼出质量,而不是靠一次生成。
- Elo 评分(Elo rating) —— 国际象棋的等级分系统。Co-Scientist 用它给一堆假设排名:两两"对战",赢的加分输的减分,分越高代表越扛得住批评。
- 湿实验(wet-lab validation) —— 在真实实验室里用细胞、组织、试剂做的实验,区别于纯计算的"干实验"。假设再漂亮,没过湿实验都只是猜想。

一、七个角色,一条流水线
Co-Scientist 不是把"出假设"这件事丢给一个超大模型,而是拆成七个专职 agent,每个只干一件事,由一个总管调度。这是它跟普通"问一句答一句"最本质的区别。
按官方博客的描述,这条流水线是这样转的。Supervisor(总管) 先把研究者给的目标拆解成子任务,排好队列,再把算力分给底下各个 agent。Generation(生成) 负责产出第一批假设,靠的是后面会讲的自我对弈辩论。Reflection(反思) 像审稿人一样逐条批评、找漏洞。Ranking(排名) 把这批假设拉进锦标赛两两比,用 Elo 算分排座次。Evolution(演进) 拿排名靠前的假设接着改、接着组合,生出下一代。Proximity(邻近) 管假设之间的相似度,避免一堆换汤不换药的重复。Meta-review(元评审) 站在全局总结这一轮暴露出的共性问题,反过来指导下一轮怎么生成。
七个角色合起来是一个闭环:生成、批评、排名、演进,再用元评审的反馈喂回生成端,转下一圈。每多转一圈,活下来的假设就被批得更狠一次。这套结构的设计意图很明确——把人类科研团队里"提出、评审、竞争、迭代"的社会过程,编码进了机器的内部分工。

二、辩论才是发动机:用 Elo 给假设排座次
这套系统真正的发动机,是 Generation 和 Ranking 这两环用的对抗机制。
生成端用的是"自我对弈式科学辩论"。self-play(自我对弈)这个词来自 AlphaGo 那一脉:让模型左右手互搏,扮演不同立场互相攻防,一方提假设、另一方挑毛病,论证站不住的当场被打掉,活下来的才是经得起反驳的。这跟一个模型一次性吐出答案的区别,相当于"答辩通过的方案"和"草稿"的区别。
排名端把这些假设拉进一场锦标赛,用 Elo 评分系统打分。Elo 是国际象棋给棋手定段位的算法:两两对弈,赢的从输的那里夺分,长期下来分数就反映真实强弱。Co-Scientist 让假设两两"对战"——谁的科学论证更扛批评谁赢——赢的加分、输的减分,最后按分排座。
这个设计最有意思的地方,是 DeepMind 给出了一个可量化的信号:Elo 分越高的假设,在高难度科学基准测试(GPQA 钻石难度集)上的准确率也越高。换句话说,"被批斗后还能活下来"这件事,和"答案真的更对"是正相关的。对抗不只是表演,它在筛真东西。这也解释了为什么要费劲搞七个 agent——不是为了热闹,是因为单次生成根本区分不出哪个假设更靠谱,必须让它们互相厮杀,分数才会浮出来。

三、它真做出了能进实验室的东西
如果只到"假设互相辩论"这一层,Co-Scientist 还只是个聪明的玩具。它值得拆的原因是:生成出来的假设,有几条真的进了湿实验室,而且验出来了。
5 月 19 日,《自然》(Nature)发表论文正式记录了 Co-Scientist 的架构和实验结果,验证集中在三个生物医学场景。药物重定位:系统为急性髓系白血病(AML,一种凶险的血癌)提出了几个老药新用的候选,斯坦福医学院的研究者在多个 AML 细胞系上做实验,确认这些药"在临床相关浓度下能抑制肿瘤活性"。新靶点发现:在肝纤维化方向,AI 指出的表观遗传靶点在人类肝脏类器官上显示出"显著的抗纤维化活性",所有候选药的统计 p 值都小于 0.01(即结果是偶然的概率低于百分之一)。抗菌素耐药性机制:系统独立推出的一个机制假设,竟和此前一项尚未发表的实验发现对上了——它在不知道答案的情况下,重新推出了真实存在的结论。
这三件事的分量不一样。前两件是 AI 出主意、人去做实验验真;第三件最微妙——它在没有数据泄露的前提下复现了一个真实但未公开的发现,这才是"它真的在推理而不是在检索"的强证据。
但边界必须讲清楚。验的全部是临床前阶段:细胞系、类器官,没有一例进过病人身体。生成假设不等于验证假设,从"细胞里有效"到"对人有效"之间,隔着整个药物开发的死亡谷。Co-Scientist 把科研最前端那道"想出值得一试的方向"的工序加速了,但下游的湿实验、临床试验,仍然是人和时间的活,一步都省不掉。

四、跟 06-03 那篇 Science Skills 别搞混
DeepMind 这周连出两手科研 AI,容易混。它们补的是完全不同的缺口。
前一篇拆的 Science Skills,是一组开源的 agent 能力包——给模型一个"事实接口",让它查基因就去查 ClinVar、查蛋白结构就去查 AlphaFold,解决的是模型不该凭记忆瞎编、要锚在真实数据库上的 grounding 问题。那是数据层的接口。
Co-Scientist 是另一回事:它是推理层的系统,解决的是"怎么从已知信息里逼出一个新颖、靠谱、值得做实验的假设"。一个管"别编",一个管"会想"。理想形态是两者叠加——Co-Scientist 负责让一群 agent 辩论出假设,Science Skills 负责让每个 agent 在辩论时手里握着真实数据而不是幻觉。DeepMind 同一周放出这两件,方向是清楚的:把 AI 科研助手从"会聊"推向"会查 + 会想"。
对从业者意味着什么
对研究者:Co-Scientist 重新定义了 AI 在科研工作流里的位置——它不在终点(替你做实验、下结论),在最前端那道最耗脑力又最难外包的工序:从一堆文献和数据里想出值得一试的方向。会用它的人,是把它当一个不知疲倦、敢跟你对着干的"假设陪练",让它先帮你把烂主意筛掉、把好主意逼出来,再用你自己的实验资源去验那几条最扛打的。把它当"答案机"用的人会失望,因为它的产物是假设不是结论。
对做 AI 系统的工程师:这是"多 agent 对抗优于单次推理"的又一个硬证据,而且给了可量化的信号——Elo 分和基准准确率正相关,说明"让 agent 互相批斗再排名"是能筛出质量的真机制,不是噱头。如果你在搭需要高质量输出的 agent 系统,Generation-Reflection-Ranking-Evolution 这套生成、批评、竞争、迭代的闭环,比单纯堆更大的模型更值得抄。
对所有人:别被"AI 做出科学发现"的标题冲昏头。Co-Scientist 的全部战果都止步于细胞和类器官,离病床还隔着整个临床开发周期。它真正改变的是科研的前端效率,不是终点。生成假设这一步可以指数级加速,验证假设这一步,仍然按实验室和人体的物理速度走。
引用
- Google DeepMind 官方推文(2026-06-02):"我们相信 AI 能成为一个专属的研究伙伴……基于 Gemini 的多智能体系统,能为复杂科学问题生成、辩论并演进新颖的假设。":https://x.com/GoogleDeepMind/status/2061857539977842793
- Google Research 官方博客《用 AI co-scientist 加速科学突破》(Accelerating scientific breakthroughs with an AI co-scientist):https://research.google/blog/accelerating-scientific-breakthroughs-with-an-ai-co-scientist/
- Google DeepMind 博客《Co-Scientist:加速研究的多智能体 AI 伙伴》(Co-Scientist: A multi-agent AI partner to accelerate research):https://deepmind.google/blog/co-scientist-a-multi-agent-ai-partner-to-accelerate-research/
- 《自然》(Nature)论文(2026-05-19):记录 Co-Scientist 架构及药物重定位、新靶点发现、抗菌素耐药机制三类临床前验证结果,斯坦福医学院参与湿实验。