视频模型的分叉日:Omni 走统一架构,Uni 走协调层

距离 Google I/O 2026 还有一周。5 月 12 日同一天,Demis Hassabis 和 Luma Labs 各自发了一条视频 demo 推文。前一天,9to5Google 已经放出 Gemini Omni 的早期演示截屏;同一周,Luma 的 Uni-1.1 API 刚开放七天。两条 demo 推文的具体帧画面外人看不到,但它们落在的时间点和上下文足够清楚——视频模型的下一回合,今天开打。
钩子不在视频本身。钩子在两家公司选了截然相反的路径去做同一件事——让视频模型从"生成"变成"在聊天里编辑、混音、按模板套用"。Google 把 Veo 吞进 Gemini,做一个统一模型;Luma 把 Uni 放在前面,让 agent 在背后调度 Veo、Seedream、Nano Banana、ElevenLabs。一个内部融合,一个外部协调。这是视频 AI 路线分叉的第一次清晰可见。
同一天发同一类 demo,差几个小时
5 月 11 日,9to5Google 发了一条核稿:"Gemini 'Omni' video model shows up with some early demos"(Gemini "Omni" 视频模型出现,附若干早期演示)。Google 在 Gemini 应用内对 Omni 的官方介绍语是:"Meet our new video generation model. Remix your videos, edit directly in chat, try a template, and more."(认识下我们的新视频生成模型。重混你的视频,在聊天里直接编辑,套模板,等等。)
demo 内容两个:一个让模型生成"教授在黑板上推导三角恒等式并讲解当前那一步"的镜头——黑板文字渲染过关,整体仍能看出 AI 感;另一个生成"两个男人在海边露台高档餐厅吃意面"的场景。一个用户跑两条 prompt 用掉了当日 AI Pro 套餐配额的 86%。
5 月 12 日,Demis Hassabis 在 X 上发了一条带视频的推文。同一天,Luma Labs 也在 X 上发了一条带视频的推文。两条具体视频内容因 x.com 反爬未能取得逐帧——但 9to5Google 的泄露时机、Luma 在 5 月 5 日刚发的 Uni-1.1 API 公告,决定了同一周这两条视频不是巧合而是节奏。
把这件事命名:节奏共振。当两家在同一周做同一类产品演示,并不一定是抄袭或互相回应——更常见的解释是行业曲线到了某个拐点,谁先发都会被解读成对手的应答。视频模型的"聊天内编辑"是 2026 春季的共振拐点。Google I/O 5 月 19 日开幕,Demis 的视频是 keynote 前的预热;Luma 在同一天放视频,是不让自己的 narrative 被 keynote 全部覆盖。

Omni vs Uni:两条路同一终点
把两家短期内的公开动作拉一条线对比,差异极其干净。
Google Omni(统一架构路径)。"Omni" 这个名字本身就有三种解读,felloai 把这三种摆得很清楚:一是 Veo 3.1 的公开品牌重塑,二是 Gemini 专属的新视频模型,三是真正的多模态统一架构——文本/图像/视频/音频在同一组权重里。"Omni" 这个名字最支持的是第三种解读。Demis 在 2025 年 4 月接受 TechCrunch 采访时说得很白:Google "will eventually combine Gemini and Veo"(将最终把 Gemini 和 Veo 合并)来让前者真正理解物理世界。Omni 是这个合并的产品名。
Google 的赌注是:一个模型搞定所有模态,能力随规模涌现。这条路要求大算力、大数据、大架构改造——Google 的资源结构刚好对得上。代价是迭代慢,Omni 现在的原始保真度据报可能落后 ByteDance Seedance 2,但 felloai 强调它真正的护城河是"同一聊天里直接编辑"——工作流整合优于纯生成画质。
Luma Uni(协调层路径)。Uni-1 在 3 月 5 日上线,定位是"多模态推理模型,能生成像素"(multimodal reasoning model that can generate pixels)。它的官方描述"understands intention, responds to direction, and thinks with you"(理解意图,响应指令,与你共同思考)说明设计重心在 reason-before-generate,不在直接堆视觉保真度。同一天 Luma 发了 Luma Agents——一组创意 agent,背后协调 Google Veo 3、Nano Banana Pro、ByteDance Seedream、ElevenLabs voice 等多家模型。
Luma 的赌注是:自己做不到全栈最强,但可以做调度层最强。Uni-1 在自家推理 benchmark 上击败 Google Nano Banana 2 和 OpenAI GPT Image 1.5,而且便宜 30%——这是局部优势。真正的杠杆在 Luma Agents 把别家模型当工具调用,做"哪家模型在某一步最合适就用哪家"的智能编排。Luma Series C 公告那句"AGI is multimodal and reality is the dataset of AGI"——他们把 AGI 押在"协调"而不是"统一"。
把这种差异命名:统一架构 vs 协调层。统一架构追求模型涌现,赌的是 Google 这种巨头才玩得起的资源密度;协调层追求工作流编排,赌的是 Luma 这种中型公司可以靠产品形态拿到独立价值。两条路最终落点都是"视频从一段输出变成一个可编辑对象"——区别只是先做 superModel 还是先做 superAgent。

Omni 的真实卖点:从生成到编辑
90% 的视频 AI 报道把"画质"当作头条指标。Omni 的官方介绍打开新角度:"Remix your videos, edit directly in chat, try a template, and more."
四个动词分开看:
- Remix:拿一段已有视频,让模型改其中一部分——换演员、换场景、换风格
- Edit directly in chat:不进剪辑软件,在 Gemini 对话框里用文字指令改
- Try a template:套预设——婚礼回忆、产品广告、教学解释——用户只填空
- And more:留白
这四个动词指向同一件事:视频从"生成结果"变成"可对话对象"。过去 Veo/Sora/Kling 的工作流是 prompt-render-pray(写提示词、等渲染、祈祷出片);Omni 想做的是 prompt-render-converse(生成完之后可以接着聊改)。
对比 OpenAI 的 Sora——在 2026 年早期被 OpenAI 自己下线——可以看出节奏差。Sora 把宝押在保真度,结果在产品形态上没找到稳定 PMF;Google 这次的赌注是:保真度可能不是最高,但工作流够顺,用户黏在 Gemini 里。86% 的日配额耗在两条 prompt 这个数据点本身也说明——Omni 不是即开即用的玩具,它正在被 Google 当严肃工作流来定价。

Uni 的真实卖点:把别人的模型当 SDK 用
Luma 这条路看起来"自己模型不够强、靠拼装",但 3 月 5 日的 Luma Agents 公告把这件事解构得不留余地:Luma 不光卖 Uni-1 的图像生成,它卖一个会自动选用别家模型的 creative agent。
实际工作流大致是这样的:用户在 Luma Agents 里说"做一个 30 秒的产品广告,主角是这个小狗"。Agent 内部拆任务——分镜由 Uni-1 推理出来;每个分镜的图像让 Nano Banana Pro 渲染、或让 Seedream 处理风格化;视频运动让 Veo 3 来跑;旁白让 ElevenLabs 合成;最后 Agent 拼起来。从用户视角看,他在用一个 Luma 产品;从模型视角看,背后是五六家公司的 API 被 Luma 编织成一个工作流。
这是SDK 化竞争对手。Luma 把 Google Veo、字节 Seedream 当作 SDK 调用——它们仍在收 token 费,但产品入口和定义权在 Luma 手里。这个模式对中型公司极有诱惑力:自家模型不需要每个维度都最强,只需要在调度层有独立判断力。
Uni-1.1 API 5 月 5 日开放给开发者,意味着 Luma 把这套调度层暴露给第三方应用——任何创意工具都可以接入 Uni 做 reasoning 层,下面调谁的视频/图像/音频模型由 Luma 决定。Luma 在视频赛道做的事,逻辑上和 LangChain 在 LLM 赛道做的事是一类。

盲区与反面论证
Omni 的三种解读还没有官方答案。Veo 改名最保守、新模型中间、真正多模态统一最激进。在 Google I/O 5 月 19 日给出正式公告前,"Omni 是什么"只能基于泄露反推。Demis 5 月 12 日发视频推文是 I/O 前的最后一波铺垫,他不会在 keynote 之前把底牌完全揭。
Luma 协调层有自我依赖陷阱。Uni-1 自家的图像保真度不是最强(推理强、像素未必)。一旦 Agent 调度逻辑被复制——OpenAI 或 Google 也搞类似的协调层——Luma 失去独立价值。Luma Agents 现在的护城河更多在产品设计和创意行业品牌(Wonder Project 合作、Jude Law 同业未发生但同类广告语境),不在技术。
保真度仍在中国手里。原始视频画质这一块,ByteDance Seedance 2 和 Kling 的输出在 2026 年仍然被多家行业评测列为头部。Google Omni 拿"工作流"做差异化,Luma 拿"协调"做差异化——两家都不和中国头部模型在像素竞赛上正面打。如果 Seedance 3 或 Kling 3 推出更好的对话内编辑能力,这两条护城河会同时被掏。
Sora 下线的真实原因 OpenAI 没说完。这件事在 2026 年早期发生,行业一般归因为 PMF 和合规,但 OpenAI 自己没正面解释。Sora 死后留下的市场空位,是 Omni 和 Uni 现在抢的核心位置。如果 OpenAI 用别的形态重回视频赛道(比如把视频做成 ChatGPT 的工具调用,而不是独立产品),这两条路都会被搅乱。
对从业者意味着什么
视频/创意工具 PM:本周看你产品里的"生成"按钮——它能不能在结果之后接受第二轮修改指令?如果不能,你正在做 2024 年的产品。Omni 和 Uni 两条路殊途同归地把视频变成"可对话对象"。
多模态 AI 架构师:本周判断你的技术选型——你是押单一统一模型,还是押多模型协调。这个判断在 2026 年下半年会越来越像选边。统一模型路径需要绑定一家大厂;协调路径需要自己有 reasoning 层。
创业者:本周想清楚你的 moat 是不是 "agent 把别家模型用得最好"。Luma 把这件事公开做了——你能不能在自己的垂直领域做同样的事?教育视频、电商带货、品牌广告——每个垂类都有自己的"哪家模型在哪一步最合适"。
视频内容创作者:本周试一次 Omni(如果你有 AI Pro)或 Luma Agents——重点不看出片质量,看对话内编辑的体验。这件事比单帧画质决定下半年的工作流。
研究爱好者 / 关心 AGI 路径:本周回想一下 Luma Series C 公告那句"reality is the dataset of AGI"——视频在 2026 年正式从"产品"被定义为"AGI 训练数据"。这意味着所有视频生成公司同时在做两件事:服务终端用户 + 收集真实世界视频反馈。Omni 86% 的高配额消耗也指向这个方向。
本期关键词
Gemini Omni —— Google 2026 年 5 月泄露的视频模型,定位是"在聊天里直接编辑视频"的统一多模态产品。Omni 这个名字暗示文/图/视频/音频在同一模型里。Veo 是 Omni 的前身或子模块。Demis 在 2025 年 4 月已经预告过 Gemini × Veo 合并。
统一架构 vs 协调层 —— 多模态 AI 在 2026 年的两条主路径。统一架构由 Google/OpenAI 这种巨头玩,赌的是大规模训练带来的涌现;协调层由 Luma/LangChain 这类中型公司玩,赌的是用 agent 把别家模型编排得更聪明。两条路最终都让"视频"从"输出"变成"可对话对象"。
节奏共振 —— 当两家公司在同一周做同一类产品演示,通常不是巧合也不是抄袭,而是行业曲线到了拐点。视频模型 2026 春的拐点是"聊天内编辑",Google 和 Luma 都被这个拐点拉到 5 月 12 日同时演示。
SDK 化竞争对手 —— 协调层路径的核心动作:把别家的强模型当作自己产品里的可调用 SDK。Luma Agents 调用 Veo 3、Seedream、ElevenLabs,把它们框在自己的工作流入口下。这种姿态的潜台词是"我不在每个维度都最强,但我决定什么时候用谁"。
prompt-render-converse —— 视频 AI 的新工作流。过去是 prompt-render-pray(写提示词、等渲染、祈祷),现在是 prompt-render-converse(生成完之后接着聊改)。Omni 的"edit directly in chat"和 Luma Agents 的"thinks with you"都是这一变化的产品化。
reality as dataset —— Luma Series C 公告里的说法:"AGI is multimodal and reality is the dataset of AGI"。视频生成公司收集用户生成行为,是在收集"现实"的标注数据。这把视频赛道的商业模式和 AGI 训练数据回路绑死。
引用
- Demis Hassabis 2026-05-12 video tweet —— 推文锚点(视频内容因 x.com 反爬未能取得逐帧)
- Luma Labs 2026-05-12 video tweet —— 推文锚点
- Gemini 'Omni' video model shows up with some early demos —— 9to5Google 2026-05-11,含 Omni 官方介绍语原文与 demo 描述
- Gemini Omni Just Leaked Ahead of Google I/O 2026 —— Omni 三种解读、与 Veo 3.1 / Seedance 2 对比
- DeepMind CEO Demis Hassabis says Google will eventually combine its Gemini and Veo AI models —— TechCrunch 2025-04,Demis 关于统一架构的原始预告
- Luma launches creative AI agents powered by its new "Unified Intelligence" models —— TechCrunch 2026-03-05,Luma Agents 协调 Veo/Seedream/ElevenLabs 的原始报道
- UNI-1 | Less Artificial. More Intelligent. —— Luma 官方 Uni-1 产品页
- Luma Series C 官方公告 —— "AGI is multimodal and reality is the dataset of AGI" 原话出处