AI 在法学教授的主场赢了 75%——被啃下的不是法条,是「品味」

AI 在法学教授的主场赢了 75%——被啃下的不是法条,是「品味」
斯坦福法学院做了一项严谨到近乎苛刻的盲测:让 16 名美国法学院教授出 40 道合同法题、各自写答案,再把人类答案和 AI 答案混在一起、在不知道哪个是谁写的情况下两两比对,比了近 3000 次。结果是,AI 在正面交锋里赢了 75%。
这个数字容易被读成又一条「AI 又超过人类」的耸动新闻,但它真正的分量在别处。合同法这类题不是查法条就能答的——它要求把一堆零散材料综合起来、迁移到一个新情境、再把法律概念讲清楚。法律推理长期被当成人类判断的安全区:两个对立的论证可以都成立,胜负靠的是说理的品味而不是对错。这次盲测说的是,连这块安全区都开始收缩了。
本期关键词
- 盲测(blind evaluation) —— 评判者在不知道答案出自谁手的情况下打分,剥掉「这是 AI 写的」或「这是某名教授写的」带来的先入为主,只看内容本身。
- 隐性专业标准(latent professional standard) —— 一个行业里没写成条文、靠从业者互相评判时心照不宣使用的那套「什么算好」的判断尺度。律师互看对方的辩状好不好,用的就是这套尺。
- 合同法推理 —— 不是检索型任务(背出某条规则),而是综合 + 迁移 + 解释三步:把复杂材料拼起来、用到没见过的情境、再讲明白为什么。这正是它难的地方。

一、先看清这是个什么测试:它防的是「光环」
多数「AI 超过人类」的新闻经不起追问,因为它们没控制评判者的偏见。这项研究的设计就是冲着偏见去的。
16 名美国法学院教授出题,每人就 40 道代表性合同法题各写一份答案,作为人类基准。然后把人类答案和多个 AI 系统的答案放进同一个池子,让教授们在不知道来源的情况下做两两比对——近 3000 次匿名对决。研究者还做了两件事堵住漏洞:答案按长度和结构做了校准(防止「长的看着更专业」这种表面优势),并且用了多种评估方法交叉验证。
为什么「不知道来源」这么关键。如果评判者知道某个答案是 AI 写的,可能本能挑刺;知道是某位资深教授写的,可能下意识抬高。盲测把这层光环全部抹掉,逼评判者只对着文字本身打分。所以这 75% 不是「AI 答对了 75% 的题」,而是「在剥离身份、只看说理质量的条件下,AI 的答案在四分之三的对决里被同行评得更好」。
判断:这个测试设计本身就是结论的一部分。它证明的不是 AI 知识多,而是当人类专家被剥夺了「我知道这是机器写的」这个心理锚点之后,他们自己的专业眼光会更频繁地倒向 AI。

二、真正被攻破的是 Sanga 那句话
研究里最该被记住的不是 75%,是合著者 Sarath Sanga 解释他们到底想测什么的那句话:
"Two opposing arguments can both be good. What we wanted to know is whether AI can meet the latent professional standard that lawyers use to evaluate each other's arguments."(两个对立的论证可以都是好的。我们想知道的是,AI 能不能达到律师们互相评判论证好坏时所用的那套隐性专业标准。)
把这句拆开看。法律里很多问题没有唯一正确答案,正方反方都能写出站得住的辩状,差别在说理的清晰、结构、对材料的把握——这是一种品味,一种行业内部互相承认的「好」。它从不写在教科书里,是律师在评判同行时心里那把没刻度的尺。Sanga 说的「隐性」就是这个意思:它存在,但说不清楚,只能靠从业者彼此感知。
长期以来,正是这种「说不清楚的好」被当作人类判断不可替代的证据。机器能背规则、能检索判例,但「品味」似乎是人的领地。这次盲测的真正杀伤力在于:AI 在四分之三的对决里达到甚至超过了这把尺的要求——不是靠答对,是靠在评判者说不清的那套标准下显得更好。
主研 Julian Nyarko 把题目的难度也说透了:
"These weren't just simple questions with obvious answers. Many required synthesizing complex material, applying it to new situations, and explaining legal concepts."(这些不是有显而易见答案的简单题。很多题需要综合复杂材料、把它应用到新情境、并解释法律概念。)
综合、迁移、解释——这三个动词恰好是检索做不到的。检索能告诉你规则是什么,但综合是把散落的材料拼成一个判断,迁移是把它用到一个题目里没给过的情境,解释是让一个没上下文的人也听懂。AI 在这三件事上同时过关,意味着被逼近的不是记忆力,是判断力。

三、3.5% 对 12%:更少误导,但不是零
光赢得多还不够,研究做了一件更难的事——评估每个答案「误导学生的可能性」。这是合同法辅导场景里最要命的指标:一个看起来流畅、实则把学生带偏的答案,比一个笨拙但正确的答案危险得多。
结果是,被标记为「可能误导学生」的 AI 回答只占 3.5%,而人类同行的答案是 12%。AI 不仅赢得更频繁,犯下「误导」这种严重错误的频率还更低——大约是人类的三分之一。
但 3.5% 这个数字必须读全:它低,但不是零。每 30 个 AI 回答里仍有大约一个可能把学生带偏,而且这是在「答案流畅可信」的外壳下发生的,更难被初学者识破。低误导率是优势,零误导才是托付的前提,而 AI 离后者还有距离。
测试用的是商业辅导系统、Google NotebookLM 等多个产品,不同系统表现有差异。一个耐人寻味的细节:即便教授们知道某些系统的上下文是受限的,他们仍然常常更偏好 AI 的回答。判断:这说明偏好不是被「信息更全」买来的,而是被说理质量本身赢来的——哪怕对手手里的牌更少。

四、别把「教学辅导」读成「能当律师」
这里需要一次主动的克制,否则容易把结论吹爆。
这项研究测的是合同法课程辅导答题——回答学生的问题、解释概念、给出推理。它不等于 AI 能出庭、能签字担责、能做需要对客户后果负责的法律判断。辅导答题没有真实当事人,答错了最多是一道题;执业律师的每一个判断背后是真人的财产、自由、合同义务。盲测攻破的是「专业品味」这一项能力,不是「专业责任」这一整套制度。
把两者混为一谈是这类新闻最常见的误读。能力的逼近是真的,但能力不等于授权。法律行业对人的要求里,「判断得好」只是入场券,「为判断负责、可被追责、受职业伦理约束」才是它真正卖的东西——而这些目前还落在人这一侧。
研究者自己的建议也是克制的:他们没有喊「AI 取代教授」,而是建议法学院从一概排斥转向负责任地整合 AI。同时坦白,「如何用 AI 真正优化学生的学习成效」仍是个开放问题——赢了盲测不等于教得好,让学生答得过测试和让学生学得会,是两件事。

对从业者意味着什么
把这项研究和过去半年那些「AI 攻破某专业任务」的新闻叠在一起,浮出来的是同一句话:「需要判断」不再是人类自动安全的护城河。 但护城河收缩的方式有讲究,照搬错了会踩两个相反的坑——要么盲目排斥,要么盲目托付。
- 对法律 / 专业服务从业者:别再用「这活需要判断」给自己上保险。盲测证明,连「同行互评时那套说不清的好」AI 都能逼近。把不可替代性从「我会做这类推理」往「我能定义问题、能验收结果、能为结论担责」上迁移——前者在被逼近,后者还稳。
- 对法学院 / 教育机构:研究者的建议是负责任地整合,不是排斥也不是放手。可以让 AI 当辅导和陪练(它在这上面已经赢了盲测),但「学生是否真的学会」要单独验证,因为答得过测试不等于学得会,这是研究自己留的开放问题。
- 对所有用 AI 处理判断型工作的人:盯住那个 3.5%。AI 更少犯错,但错误藏在流畅可信的外壳里,比笨拙的错误更难发现。低误导率让 AI 适合做初稿和陪练,但「可能误导非零」意味着终审环节仍要有人盯——把人留在「抓那 3.5%」的位置上,而不是和 AI 比谁答得快。
- 对评估 AI 能力的人:这项研究最值得学的是方法,不是结论。盲测 + 校准长度结构 + 近 3000 次比对 + 专门评「误导可能性」——它把「AI 是否够好」这个模糊问题拆成了能被同行眼光检验的对决。下次再看到「AI 超过专家」的新闻,先问一句:评判者知道答案来源吗。知道,这条新闻就要打折。
引用
- Stanford Law:AI Outperforms Law Professors in Stanford Law Study(斯坦福法学院新闻:在斯坦福法学院的一项研究中,AI 表现超过法学教授):https://law.stanford.edu/press/ai-outperforms-law-professors-in-stanford-law-study/