2026 年 06 月 05 日published

Grok 进了 Cloudflare 的 AI Gateway——模型分发开始"自来水管化"

CloudflareAI-GatewayGrokxAI模型网关OpenRouter

播客版

Grok 进了 Cloudflare 的 AI Gateway——模型分发开始"自来水管化"

6 月 3 日，xAI 发了一条只有六个词的推文："在 Cloudflare 的 AI Gateway 上试试 Grok 模型。"配图是 Cloudflare 开发者账号的视频，下面一行字：Grok 的语言、音频、图像、视频模型现在都能通过 AI Gateway 调用，账单直接走 Cloudflare，不用额外配 auth、环境变量、API key。

这条推文本身没有信息量。值得拆的是它背后那个动作：又一家模型厂商，把自己接到了一个"网关"上。一年前还在各自卖 API 的模型公司，现在排着队往同一类入口里挤。这个入口叫 AI Gateway，它正在变成开发者接所有模型的统一总阀门——而谁握住这个总阀门，谁就握住了分发权和切换成本。

本期看点

AI Gateway 是夹在你的应用和各家模型之间的一层代理：缓存、限流、日志、回退、多模型切换，一个入口全包。
xAI 上架 Cloudflare，图的不是技术而是渠道——把 Grok 摆到开发者每天经过的货架上。
这和本周 OpenRouter 那套聚合路由是同一场战争：网关层在抢"谁来决定请求打给哪个模型"。
对从业者：接多模型的正确姿势是接网关层，不是各家直连——但要看清你交出去的是什么。

Grok 进了 Cloudflare 的 AI Gateway——模型分发开始"自来水管化" 配图 2

AI Gateway 到底是什么：模型和你之间的那层代理

直接说人话。你写一个应用要调大模型，最朴素的做法是拿着 OpenAI 的 key 往 api.openai.com 发请求，拿着 Anthropic 的 key 往 Anthropic 发请求。每多接一家，多一套 key、多一套 SDK、多一处要监控的开销。

AI Gateway 是插在中间的一层。你的应用不再直接发给模型厂商，而是发给 Gateway，Gateway 再转发出去。就因为所有请求都过这一道关，它能顺手做四件各家直连做不了的事。

第一是缓存。Cloudflare 文档里写得直白：相同的请求"直接从 Cloudflare 的缓存返回，而不是回源到模型厂商"。同一个问题问第二遍，不必再花一次 token 钱。第二是限流，按你设的上限卡住请求量，防止某个失控的循环把账单刷爆。第三是可观测，请求数、token 用量、花了多少钱、哪些报错，全在一个面板里——这是各家直连时你得自己拼日志才能得到的东西。第四是回退和重试，Cloudflare 的说法是"定义请求重试和模型回退，在出错时提升韧性"：主模型挂了或超时，自动切到备用模型，应用不至于跟着一起倒。

把这四件事合起来看，AI Gateway 干的就是"代理层"该干的活——它不生产模型，它管理你对模型的访问。这个位置，和 CDN 当年插在用户和源站之间是同一个生态位。Cloudflare 做这个尤其顺手，因为它本来就是干代理的。

Grok 进了 Cloudflare 的 AI Gateway——模型分发开始"自来水管化" 配图 3

xAI 为什么要上架：这是铺货，不是炫技

xAI 把 Grok 接到 Cloudflare，技术上没有任何难度可言。一家能训出千亿参数模型的公司，对接一个网关的 API 是下午就能干完的活。所以这步动作的意义不在技术，在渠道。

看 Cloudflare 那条推文强调的三点："Grok 的 LLM、音频、图像、视频模型现已通过 AI Gateway 提供""账单直接通过 Cloudflare 结算""无需额外的 auth、环境变量、API key"。三句话指向同一件事：把接 Grok 的摩擦降到接近于零。一个已经在用 Cloudflare AI Gateway 的开发者，想试 Grok，不必去 xAI 注册账号、申请额度、配密钥，改一个模型名字符串就行。

这就是铺货的逻辑。对模型厂商来说，能力再强，开发者接不进来也是零。各家直连的世界里，每个开发者接你都要付出一次性成本，这个成本就是你的获客漏斗在漏水的地方。上架网关等于把自己摆到开发者每天都经过的那个货架上，省掉他们重新建立连接的那一步。据 Cloudflare 文档，目前 Grok 4.3 带百万 token 上下文、函数调用、结构化输出，外加 Grok 的语音转文字（25 种语言、词级时间戳、说话人分离）和 Grok Imagine 的图像、视频生成——一整套全模态摆上同一个货架。

代价是什么？xAI 把和开发者之间的那道"直接连接"让给了 Cloudflare。账单走 Cloudflare、调用经 Cloudflare、切换在 Cloudflare 的面板里完成。开发者记住的是"我在用 AI Gateway"，而不是"我在用 xAI"。铺货铺得越成功，品牌就越被网关吃掉一层。这是所有上货架的供应商都要付的过路费。

Grok 进了 Cloudflare 的 AI Gateway——模型分发开始"自来水管化" 配图 4

网关层之争：和 OpenRouter 是同一场战争

把 Cloudflare 这步放到本周的另一条线上看才完整。OpenRouter 这种聚合路由本周也在被反复讨论——它给你一个 key、一个 OpenAI 风格的接口，背后接 200 多个模型，请求哪个模型就写哪个模型名。逻辑和 AI Gateway 高度重叠：都是"你只对一个入口，入口替你连所有模型"。

两者的差别在站位。OpenRouter 是一个托管的聚合市场，重心是模型的"广度"和零摩擦接入——把尽可能多的模型摆进同一个目录，开发者图省事。Cloudflare AI Gateway 重心是"控制面"，缓存、限流、可观测、回退跑在它的边缘网络上，和 Workers、Secrets Store 这些已有产品长在一起。一个像模型超市，一个像架在你应用前面的调度台。但它们抢的是同一个位置：请求离开你的应用之后、到达模型之前的那一层，谁说了算。

这一层一旦被占住，议价权就开始转移。Cloudflare 2026 年上线了统一账单，第三方模型（OpenAI、Anthropic、Google AI Studio 这些）的用量可以直接计进 Cloudflare 的发票，代价是 5% 的手续费——充 100 美元额度扣 105。这个 5% 就是网关位置变现的第一道收费口。还有动态路由：你设好条件和上限，由 Gateway 内部决定这次请求该打给哪个厂商、还是直接返回缓存。Cloudflare 自己也承认这套路由和回退逻辑是不透明的——它怎么选模型、怎么命中缓存、怎么故障转移，外部看不到，你得信它的算法。

这是网关层之争的核心赌注：模型在变成可替换的后端，而"决定打给哪个后端"的权力，正在从开发者手里挪到网关手里。模型厂商排队上货架，是在亲手把这个权力喂给网关。

Grok 进了 Cloudflare 的 AI Gateway——模型分发开始"自来水管化" 配图 5

模型在商品化，网关在基础设施化

退一步看趋势。模型本身正在快速商品化——同一个任务，今天用 Grok、明天用 Claude、后天用 Gemini，对很多应用来说差别在收窄，价格和延迟反而更要紧。当后端可以随时替换，真正稀缺的就不再是某一个模型，而是"在它们之间无痛切换"的能力。这个能力，恰好就是网关层提供的。

所以会看到一个分层在固化。底层是模型厂商，拼参数、拼上下文、拼多模态，但越来越像发电厂——电是电，谁家的电点亮灯泡没本质区别。上面一层是网关，谁都不发电，但它握着自来水管和总阀门，决定水从哪个厂引、按什么价收、出故障切到哪。当年 CDN 对 web 流量、电网对发电厂，都是这个生态位。AI Gateway 想做的就是 agent 时代的那根总管。

判断落在这里：模型分发正在基础设施化。xAI 上架 Cloudflare 不是一条产品新闻，是一个信号——连最不缺渠道、最有品牌的模型公司，也开始接受"通过别人的水管把自己卖出去"。当供应商都来上货架，货架本身就成了行业里最值钱的不动产。

对从业者意味着什么

如果你在接多模型，默认选网关层，别再各家直连。各家直连意味着你自己重写缓存、自己拼日志、自己做限流和故障转移——这些 AI Gateway 开箱就有，省下的是实打实的工程时间。一个入口接所有模型，今天想换个后端改一个字符串，这是直连给不了的灵活度。

但接之前看清三件事。一是你交出去了路由的可见性：动态路由怎么选、缓存怎么命中，网关说了不一定让你看到，对延迟敏感或要审计的场景这是真问题。二是看清收费口在哪，比如统一账单那 5% 的便利费，省心是有价的，量大了这笔过路费要算进成本模型。三是别让网关把你锁死——尽量让你的代码在"绕过网关直连模型"和"走网关"之间能切换，网关是为了降摩擦，不是为了再造一个你逃不出的依赖。

还有一条给做模型或做平台的：如果你在卖能力，问自己货架在哪。开发者不会为了你重新建一次连接，他们在哪个网关上，你就得出现在哪个网关上。xAI 这步给的就是这个答案。

本期关键词

AI Gateway（AI 网关）：插在应用和各家大模型之间的代理层，统一做缓存、限流、日志、故障回退、多模型切换。你只对一个入口，它替你连所有模型。
回退（Fallback）：主模型出错或超时，自动切到预设的备用模型，应用不中断。
动态路由（Dynamic Routing）：按你设的条件和上限，由网关在运行时决定请求打给哪个厂商或直接返缓存，路由逻辑通常不透明。
统一账单（Unified Billing）：第三方模型的用量直接计进网关厂商的发票，免去逐家结算，Cloudflare 收 5% 便利费。
BYOK（自带密钥）：把你自己的模型厂商 key 存进网关，运行时由网关替你带上，密钥集中托管加密。
商品化（Commoditization）：模型之间的差异收窄、可互换，价值从"用哪个模型"转向"在模型间怎么切换"。

引用

xAI 推文（主信源），2026-06-03："Try Grok models on @Cloudflare's AI Gateway!"（在 Cloudflare 的 AI Gateway 上试试 Grok 模型！）https://x.com/xai/status/2062294202625696081
Cloudflare Developers 推文，2026-06-03："We're partnering with @xai to bring Grok to @Cloudflare AI Gateway. Grok LLMs, audio, image, and video models are now available through AI Gateway; billed directly through Cloudflare; no additional auth, env, API keys needed."（我们和 xAI 合作，把 Grok 带进 Cloudflare AI Gateway。Grok 的语言、音频、图像、视频模型现已通过 AI Gateway 提供；账单直接走 Cloudflare 结算；无需额外的 auth、环境变量、API key。）https://x.com/CloudflareDev/status/2062281694162629119
Cloudflare AI Gateway 官方文档（概览）：缓存、限流、可观测、回退与重试、多厂商支持。https://developers.cloudflare.com/ai-gateway/
Cloudflare AI Gateway 文档·统一账单：第三方模型用量计进 Cloudflare 发票，收 5% 便利费。https://developers.cloudflare.com/ai-gateway/features/unified-billing/
Cloudflare AI Gateway 文档·xAI（Grok 上架的厂商页与模型清单）。https://developers.cloudflare.com/ai-gateway/usage/providers/grok/
Cloudflare 博客："AI Gateway now gives you access to your favorite AI models, dynamic routing and more — through just one endpoint."（AI Gateway 现在让你通过单一端点访问喜欢的模型、动态路由等更多功能。）https://blog.cloudflare.com/ai-gateway-aug-2025-refresh/