2026 年 05 月 20 日decode

Anthropic 把对话向神职人员打开：safety lab 的定位战

原文：https://www.anthropic.com/news/widening-conversation-ai

AnthropicAI治理AI安全alignment政策

播客版

Anthropic 把对话向神职人员打开：safety lab 的定位战

一家以 safety lab 自我定位的公司，正在把对话向神职人员、哲学家和伦理学家打开。

2026 年 5 月，Anthropic 发了一篇标题克制的博客 "Widening the Conversation on AI"。原文只有几百词，列出已经完成的一轮对话——"scholars, clergy, philosophers, and ethicists from more than fifteen religious and cross-cultural groups"——以及未来要扩展的对话对象——"legal scholars, psychologists, writers, and civic institutions"。读起来像一份温吞的 outreach 公告。

但放在 2026 上半年这个时间点看，这不是 outreach。这是一次明确的定位动作。

OpenAI 在卖产品，xAI 在打嘴炮，Anthropic 在主动收集"对话权"。三家头部模型公司里，只有 Anthropic 在系统性地把自己钉在"AI 实验室"与"公共议题中介"之间的那一格。这一格过去是空的，过去由学者、智库、NGO 占据。现在 Anthropic 在亲自下场坐下来。

公告说了什么

公告的语气是集体的"我们"，没有 Dario 或 Jack Clark 的署名引用。这本身就是信号——它不是某一个人的观点，是公司层面的姿态。

值得逐字看的几句话：

"At Anthropic, we want to build AI systems that advance humanity and act for the global good."

在 Anthropic，我们想构建推进人类发展、为全球福祉服务的 AI 系统。

"we need to engage with those who see the world from a variety of different perspectives."

我们需要与那些从多种不同视角看世界的人接触。

"we hope these conversations might inform the practical work of developing Claude."

我们希望这些对话能够指导开发 Claude 的具体工作。

这三句话连起来构成一个闭环：我们在做 AI 善治 → 因此需要多元视角 → 视角会回到 Claude 的开发。最后一句尤其关键。它不是"我们在听"，而是"我们听到的会进产品"。这把"对话"从公关动作升级成了产品输入。

公告里还埋了一个具体的研究结果。Anthropic 测试了一个让 Claude 在执行任务过程中暂停做伦理反思的实验工具，结果在多项内部 alignment 评估里"markedly lower rates of misaligned behavior"。这个机制的灵感，来自前面那些对话里讨论的"safe other"——一个在道德冲突时可以求助的对象。

宗教传统的"良师"概念，被翻译成 Claude 内部的一个 prompt-level 暂停机制。这个翻译动作就是这篇公告的真正信号。

Anthropic 把对话向神职人员打开：safety lab 的定位战配图 2

这次"对话扩散"是一次政治动作

把这个动作放回 2026 的具体上下文里。

第一，监管时点。美国的 AI 行政命令进入第二个修订周期，欧盟 AI Act 的高风险系统条款开始实质性执行，加州 SB 53 后续法案在准备。监管机构在找"问题清单"——AI 该被监管的边界是什么、用什么语言描述、找谁咨询。

第二，对话对象的选择。Anthropic 没有选用户、没有选开发者、没有选企业 CTO，而是选了宗教学者、神职人员、哲学家、伦理学家，下一轮要加法律学者、心理学家、作家和公民机构。这个名单的共同特征是——在监管议题里有道德合法性，但没有商业利益。当立法者听证时，这些人是最容易被邀请、最容易被引用、最容易被认为代表"社会"的群体。

第三，叙事包装。Anthropic 在公告里把这条研究线命名为 "Moral Formation Research"——道德养成研究。这个命名值得停下来看。alignment 这个词技术性太强、太像 RLHF 调参；moral formation 则直接借用了哲学和宗教教育的术语。换个词，听众就从工程师换成了伦理学家。

这三件事合起来，是在做一件单一的事：把 Anthropic 的安全叙事变成监管语境的默认问题框架。

OpenAI 用的是"preparedness levels"。xAI 用的是"truth-seeking"。Anthropic 用的是"constitution"、"alignment"、"moral formation"——三个都自带"应该"的味道。当立法者最终要写一句"AI 公司应当......"时，他们大概率会借用 Anthropic 提供的词，而不是 OpenAI 的。

这就是为什么"扩大对话"温和的外表下，是硬定位。

Anthropic 把对话向神职人员打开：safety lab 的定位战配图 3

框架：安全姿态的扩音器策略

把这套打法命名为安全姿态的扩音器策略（Safety-Posture Amplifier）。

第一层，在内部把命名升级。把 alignment 重新叙述为"宪法"、"道德养成"、"safe other"，让它从工程问题听起来像伦理问题。

第二层，把这套命名带出去，找外部群体做结构化对话。神职人员、哲学家、伦理学家是天然的传声筒——他们的话语权来自非商业的道德权威，他们使用的词汇会被媒体和监管引用。

第三层，等外部群体开始用 Anthropic 的命名讨论 AI，监管语境就被默认收编了。立法者听证时，被邀请的伦理学家用着 Anthropic 给的词，监管文献里"行业已与社会广泛对话"的句子开始出现，Anthropic 自己却不需要再说一次。

这套策略的高明之处在于——它不是 lobby。Lobby 是直接游说立法者，付钱给说客。扩音器策略是塑造立法者将听到的语言。前者会被记录在游说支出公开数据库里，后者不会。

公告里同时出现 KPMG 和 PwC 这两家咨询公司，是这套策略的另一只手。咨询公司是企业合规和政府咨询的传导带——当某个司法管辖区的监管机构要做 AI 风险评估，他们大概率请的就是 KPMG / PwC / Deloitte / EY。Anthropic 在和这两家做企业部署的同时，等于把自己的安全语言种进了未来咨询报告的脚注里。

Anthropic 把对话向神职人员打开：safety lab 的定位战配图 4

监管语境会被怎么改写

具体到从业者要关心的事：监管的"该问什么问题"正在被重写。

过去监管者问的是技术问题——参数量多少、训练数据来源、是否使用 RLHF、是否有红队测试。这些问题答案有限、可量化、容易合规化。

Anthropic 在推动的是新一类问题——AI 系统的"性格"是怎么形成的、它的"价值观"训练用了什么、在道德冲突时它会向哪种"safe other"求助。公告里有一句话明确这点："developers...choosing which patterns to reinforce, which to set aside"——开发者在选择强化哪些模式、搁置哪些。这把训练过程描述成了道德选择，而不是技术决策。

如果监管开始按这个新框架问问题，模型公司将被要求披露的不是参数和数据，而是"价值观训练设计文档"、"道德反思机制"、"伦理审查记录"。这些东西 Anthropic 已经有了——Claude's constitution 就是现成模板。OpenAI 和 xAI 没有同样的预制内容。

谁制定了问题清单，谁就占据了合规模板的位置。

Anthropic 把对话向神职人员打开：safety lab 的定位战配图 5

盲区：道德叙事和商业利益的边界

写到这里必须把另一面摊开。

Anthropic 不是 NGO。它是一家估值数百亿美元、和 KPMG / PwC 谈企业部署、和 AWS / Google Cloud 有几十亿美元基础设施合约、要打模型市场份额战的商业公司。这家公司同时在做两件事——和神职人员谈道德形成，和咨询公司谈企业合规——并且把两件事放在同一篇博客里。

这里有几个值得追问的问题。

被邀请的群体——那 fifteen religious and cross-cultural groups——是怎么选出来的？他们有发言纪要吗？他们的反对意见是否被同等收录？Anthropic 公告里没有给。

更直接的问题：当这些对话被未来的监管文献引用为"行业已和社会广泛对话"的证据时，被引用方是否有权决定怎么被引用？目前看没有。Anthropic 既是组织方、记录方，也是叙事框架的提供方。

还有一个尴尬的不对称：神职人员和哲学家面对一个估值数百亿的 AI 实验室坐下来谈话时，议程是谁定的、记录是谁写的、结论怎么形成共识？传统对话研究里，这种结构性不对称会被明确披露并控制。在 Anthropic 的公告里，这一层没有。

"对话扩散"和 lobby 之间的边界不是从有到无，是一道梯度。Anthropic 现在站在这道梯度上，向 lobby 那一端走还是向真正的公共协商那一端走，取决于它接下来是否愿意公开对话的程序细节——谁来选嘉宾、议程谁定、纪要谁审、反对意见怎么处理。

公告里没有任何关于程序的承诺。这就是这次定位战目前最大的盲区。

Anthropic 把对话向神职人员打开：safety lab 的定位战配图 6

对从业者意味着什么

对 AI 政策研究者：注意 Anthropic 提供的语言正在进入监管语境。下一个版本的 AI 立法草案如果出现 "moral formation"、"constitutional AI"、"safe other" 这类术语，就是扩音器策略生效的证据。建议追踪：被邀请的 fifteen religious and cross-cultural groups 的具体名单、对话纪要是否会公开。

对 AI 产品负责人：未来合规文档的形态会从"技术披露"扩展到"价值观训练文档"。提前准备一份能讲清"模型在道德冲突时怎么处理"的内部材料，比临时被问起来好。Claude's constitution 是参考模板。

对模型公司战略：OpenAI 和 xAI 在监管语境里目前是失声的——OpenAI 在 safety 议题上以技术披露为主，xAI 在嘴炮里。如果不在 2026 下半年补一套自己的"价值观叙事"，监管语言会默认采用 Anthropic 的版本。

对一般 AI 从业者：留意一个模式——技术公司把自己的工程概念翻译成伦理/哲学语言，再通过对话扩散到非技术群体，最后被引用回监管。这个模式不是 Anthropic 发明的（药企做过、烟草公司做过、社交平台做过），但 Anthropic 的执行精细程度值得记下来。具体到日常工作里，下次看到任何"AI 安全"的新术语，先问一句它最初是为了解决工程问题还是为了讲故事，再看它现在长什么样。两者之间的距离就是定位战的位移量。

对学术研究者与学者：如果接到 Anthropic 或其他模型公司的"对话邀请"，提前要清楚三件事——议程谁定、纪要谁审、自己的反对意见会以怎样的形式被记录和引用。这不是冒犯邀请方，是任何严肃公共协商的程序前提。被引用比不被引用更需要程序保护。

Anthropic 把对话向神职人员打开：safety lab 的定位战配图 7

本期关键词

Moral Formation Research（道德养成研究） —— Anthropic 提出的 alignment 新命名。把训练过程描述成道德教育而非工程调参。命名升级本身是定位动作，不是技术变更。

Claude's constitution（Claude 的宪法） —— Anthropic 早期公开的一份"价值与行为规范"文档，规定 Claude 在哪些情境下应该拒绝、怎么回应、用什么口吻。是 Anthropic 把 alignment 文档化的源头模板。

safe other（安全他者） —— 来自宗教/伦理传统的概念，指人在道德冲突时可以求助的另一个存在（如良师、长辈）。Anthropic 把这个概念翻译成 Claude 内部的一个 prompt-level 暂停机制，是这次"对话→产品"翻译动作的具体样本。

安全姿态的扩音器策略（Safety-Posture Amplifier） —— 本文命名的一套打法：内部把 alignment 升级为道德叙事 → 找外部群体做结构化对话 → 让外部群体的话语反过来塑造监管语境。比 lobby 隐形，比 PR 长效。

问题清单收编（agenda capture） —— 在监管议程形成前，先决定监管会问什么问题。比直接游说立法答案更前置，效果更持久。这次 Anthropic 在做的事的本质。

引用

Anthropic: Widening the Conversation on AI — 官方公告，2026-05-19。
Anthropic: Claude's Constitution — Claude 行为规范文档，本文中明确引用。