2026 年 05 月 22 日· 量子位 / 智谱官方 / 财华智库decode

智谱半年涨 11 倍：当中国 AI 第一次同时拿到"会干 8 小时"和"每秒 200 字"

原文：https://www.qbitai.com/2026/05/422511.html

智谱GLM-5.1长程任务港股AI 估值TileRT

播客版

智谱半年涨 11 倍：当中国 AI 第一次同时拿到"会干 8 小时"和"每秒 200 字" 配图 1

5 月 22 日，智谱（02513.HK）盘中涨超 30%，收盘大涨近 27% 报 1282 港元/股，市值冲到 5715.7 亿港元——比 1 月 8 日上市当天的 528 亿港元翻了 10 倍多。同一天，智谱发布 GLM-5.1-highspeed，输出速度 400 tokens/s，刷新全球大模型 API 的速度上限。再往前一个月，GLM-5.1 旗舰版的长程任务能力已经能让一个 session 自主跑 8 小时——Linux 桌面任务连续 1200 多步，向量数据库优化跑了 655 轮迭代把吞吐拉了 6.9 倍。

把这三件事放在一张时间线上，会得到一个很危险的结论：中国 AI 厂商第一次在"模型能干长活"和"模型吐得快"两个 frontier 指标上同时压住了海外，资本市场也认了。

但仔细拆，这个结论一半是真的，一半是港股稀缺性溢价的滤镜。

TL;DR

GLM-5.1-highspeed 的 400 tokens/s 是真的快，但它赢的不是绝对速度——Groq 和 Cerebras 用专用硬件早就破 500 了——而是"通用 API + 旗舰模型能力 + 不掉智商"这三件事第一次在同一个产品上做到
8 小时长程任务是真的硬，SWE-Bench Pro 跑分超过 GPT-5.4 和 Claude Opus 4.6 也是真的，但 Anthropic 在 Claude Opus 4.5（2026 Q1）就已经能 8 小时跑了——智谱赢的是"开源模型里第一个做到"
5715 亿港元市值不能用技术解释。智谱 2025 年营收 7.24 亿人民币，PS 接近 700 倍；同期 OpenAI PS 约 15 倍。这 50 倍鸿沟是港股没有第二个一线大模型纯标可买出来的稀缺性溢价
真正的商业化信号在涨价权：GLM Coding Plan 海外版三个月涨 80%-150%，Max 套餐 $160/月已经超过 Claude Max（$100/月），用户骂但不走——这才是中国 AI 第一次把"定价权"从"低价跑量"切到"对标 Claude"
B 端落地的容错带正在被重估：8 小时无人监督 + 跑废了再来一次的 Agent 模式，对中国企业的真意是"取代海外工程外包"，而不是"取代正式员工"

智谱半年涨 11 倍：当中国 AI 第一次同时拿到"会干 8 小时"和"每秒 200 字" 配图 2

一、技术：highspeed 真正的赢点不是 400 tokens/s

400 tokens/s 折成中文大约是每秒 200 个汉字——大概是人正常阅读速度的 3 倍。智谱官方对这个数字的措辞很克制：「刷新当前全球大模型厂商 API 的速度上限」。"全球大模型厂商 API"七个字是关键。

这个限定词刨掉了两类竞争对手。第一类是 Groq、Cerebras、SambaNova 这些专用硬件方案——Groq 跑 Llama 3 早就破 500 tokens/s，Cerebras 的 WSE-3 上 Llama 3.1-70B 能做到 2100 tokens/s。但这些是"用特殊硬件跑别人模型"的服务，不是"自家模型 + 自家 API"。第二类是 token/s 不公布的本地推理（如 llama.cpp + Apple Silicon）。

留下的对照组是：OpenAI gpt-4o 通常 50-80 tokens/s、Claude Sonnet 4.5 API 约 100-150 tokens/s、GLM-5.1 旗舰版自己也就 60-80 tokens/s。highspeed 在这条赛道上跳到了 400。

更值得拆的是它怎么做到的。智谱披露由 GLM 团队和 TileRT 团队联合打造，三层重写：

推理引擎层：TileRT 的核心动作是「彻底抛弃 Runtime 层的动态调度，在编译期将整个计算图静态编排为一个常驻 GPU 的 persistent Engine Kernel」
调度系统：动态批处理 + 请求合并 + KV cache 调度优化，目标是把高并发场景的尾延迟压下来
底层基础设施：集群和网络协同优化

这套思路其实和过去一年大家在做的"推理引擎换皮"（vLLM、SGLang、TensorRT-LLM）不一样。vLLM 这一代解决的是"动态分配 KV cache 不浪费显存"，本质还是 runtime 调度。TileRT 的取舍是把动态调度的灵活性丢掉，换静态编排的极致延迟——这个 trade-off 适合"模型固定、请求形态相对稳定"的场景，不适合做需要频繁切换模型的 router。

技术上的潜台词是：智谱把推理基础设施和模型本身做了深度耦合。这是 Anthropic 在 Managed Agents 里用 Pets vs Cattle 模式想避开的耦合——只是这次耦合是为了榨速度，不是为了卖架构。

智谱半年涨 11 倍：当中国 AI 第一次同时拿到"会干 8 小时"和"每秒 200 字" 配图 3

二、8 小时长程任务：开源世界的第一次

GLM-5.1 旗舰版 4 月 8 日开源的时候，智谱写了一句很大的话：「唯一达到 8 小时级持续工作的开源模型，除 Claude Opus 4.6 外少数具备这一能力」。这句话需要拆。

"8 小时"这个数字背后是三个具体场景：

Linux 桌面任务：1200 多步、连续 8 小时，输出 4.8MB
向量数据库优化：655 轮迭代，把 QPS 从 3108 拉到 21472（6.9 倍提升）
ML 模型优化：1000+ tool call，几何平均加速 3.6 倍

这是真正"长程"——上下文要管几十万 token，工具调用要管错误重试，规划要管目标拆解，每一步都不能崩。SWE-Bench Pro 上 GLM-5.1 据二手报道刷出了全球最佳（超过 GPT-5.4 和 Claude Opus 4.6），但这个具体数字（58.4%）只在 CSDN 等二手转述里出现，智源/智谱官博一手原文只说"刷新该榜单全球最佳"——存疑，按"对标"读，不按"领先"读。

更关键的对照：Anthropic 在 Claude Opus 4.5（2026 年 1 月）的 Managed Agents 发布上就展示过 8 小时级 session。智谱赢的不是"第一个会跑 8 小时的模型"，而是"第一个开源出来给所有人跑 8 小时的模型"。这两件事的商业含义完全不同——前者是模型能力榜单的并列，后者是"中国 AI 厂商把 frontier 级 Agent 能力开源给社区用"的姿态。

8 小时这个数字还有一层未被讨论的盲区：失败率和回滚成本。Anthropic 在 Opus 4.5 的技术报告里披露过 long-horizon 任务的中位失败步数和重启策略，智谱在 4 月 8 日的开源博客里只给了"成功案例"——1200 步跑通的 Linux 桌面任务是平均水平还是 best case，外人没法知道。

对 B 端决策者来说，这个盲区不致命。Agent 跑 8 小时的真实场景里，失败也有价值——失败的 trace 本身就是 debug 资产，重跑一次比让人工写一版便宜得多。

智谱半年涨 11 倍：当中国 AI 第一次同时拿到"会干 8 小时"和"每秒 200 字" 配图 4

三、5715 亿港元：港股稀缺性溢价，不是技术领先溢价

智谱 1 月 8 日以 116.1 港元/股招股价上市，市值约 528 亿港元。5 月 22 日收盘 1282 港元，市值 5715.7 亿港元。半年涨 11 倍。

但翻 2025 财报：营收 7.24 亿人民币（同比 +131.9%），净亏损 47.18 亿，调整后净亏损 31.82 亿。营收增速很猛，但绝对值很小——按 5715 亿港元市值（约 5260 亿人民币）算，PS（市销率）大约 700 倍。

对照组：

OpenAI：估值约 1500 亿美元，2025 年化营收约 100 亿美元，PS ≈ 15 倍
Anthropic：估值约 1830 亿美元，2025 年化营收约 50 亿美元，PS ≈ 36 倍
CoreWeave（美股 AI 算力第一股）：估值约 700 亿美元，2025 营收约 40 亿美元，PS ≈ 17 倍

智谱的 PS 比 OpenAI 高约一个数量级。这个 gap 不能用"GLM-5.1 在 SWE-Bench Pro 上超过 Claude Opus 4.6"解释——就算技术真的领先 2 倍，也撑不起 50 倍 PS 的差距。

真正的解释藏在两件事里：

第一，港股目前只有智谱一家一线大模型纯标。月之暗面（Kimi）、阶跃（StepFun）、MiniMax 还在港股 IPO 排队，DeepSeek 没上市，百度/阿里/腾讯的 AI 业务包在母公司里没法单独定价。买"中国 AI 大模型"这个 thesis，机构能买的港股只有智谱。这是稀缺性溢价。

第二，被动指数资金正在涌入。智谱已经被纳入恒生科技指数，下一步预期是港股通——一旦被纳入，南向资金的被动配置会自动买入，机构定价权进一步上移。1282 港元/股的部分溢价是在预期这件事。

那么会跌吗？大概率会，但不一定因为 GLM-5.1。当第二个一线大模型登陆港股（最可能是月之暗面或 MiniMax），智谱的稀缺性溢价会被分掉一部分。再往后如果智谱按当前节奏继续烧研发——2025 年 31.82 亿调整后亏损只是开始，下一代模型训练成本会更高——融资就要稀释每股盈利。

资本面的这两件事，跟 GLM-5.1 本身好不好关系不大。

智谱半年涨 11 倍：当中国 AI 第一次同时拿到"会干 8 小时"和"每秒 200 字" 配图 5

四、涨价权：中国 AI 第一次拿到对标 Claude 的定价

技术和资本可以分开看，定价权不能。这是判断中国 AI 厂商商业化是否真正落地的最硬指标。

GLM Coding Plan 海外版在 2026 年内涨了三次：

时间	事件	涨幅
2/12	GLM-5 发布	整体 30%+，海外 API 67%-100%
3/16	GLM-5 Turbo 上线	API 再 +20%
4/8	GLM-5.1 发布	OpenRouter +10%
4/12	Coding Plan 海外版	月费几乎翻倍

最终结果：Lite 从 $10 涨到 $18（+80%），Pro 从 $30 涨到 $72（+140%），Max 从 $80 涨到 $160（+100%）。Max 套餐 $160/月已经超过了 Anthropic 的 Claude Max（$100/月）。

更关键的是 API 单价。GLM-5.1 在 Agent 场景 + prompt caching 下，单价做到 $0.475/M tokens，逼近 Claude Opus 4.5 的 $0.50/M tokens。这意味着智谱在海外市场已经放弃"用低价换市场份额"的位置，开始和 Anthropic 在同一个价格带打。

海外用户社区有不少抱怨——"三个月涨了五倍简直贵的离谱"——但订阅数据没掉。这就是定价权的字面意义：你涨，用户骂，但用户不走。

对国内 AI 厂商来说，这是一个分水岭。过去两年大家的共识是"中国模型只能靠低价打开海外"，DeepSeek-V3 把 API 价格干到 $0.27/M 是这个共识的顶点。智谱在 2026 年用三轮涨价撕掉了这个共识——前提是 GLM-5.1 真的能干 8 小时长活，而且 highspeed 真的能 400 tokens/s 不掉智商。技术兑现是涨价权的前置条件。

如果未来六个月智谱继续涨价、海外订阅继续涨，"中国 AI 只能卖白菜价"的叙事就彻底翻篇。如果掉头降价，5715 亿港元市值的资本叙事也会跟着掉头。

五、对 AI 从业者意味着什么

如果你在中国企业做 AI 选型：GLM-5.1 highspeed 进入了一个新的可用场景——AI 编程的 IDE 内嵌 + 实时语音 Agent + 高并发 Coding Agent 集群。这些场景过去用 Claude 体验最好但延迟卡，用国内模型延迟好但能力不够。现在第一次有一个"两边都够"的国产选项。要去验的是：在你具体的代码栈和上下文长度下，400 tokens/s 能稳定保持多久。

如果你在做长程任务 Agent：把"模型能不能跑 8 小时"从必读项删掉，加入"模型在 4 小时这个区间的失败率是多少"。8 小时已经不是上限，是地板。真正分胜负的是失败重试机制、上下文外置存储、子任务可恢复性这些 Harness 层的事——参考 Anthropic 的 Managed Agents 架构（Session 外置 + Pets vs Cattle 容器）。

如果你在评估 AI 投资标的：智谱的 5715 亿港元市值不是 GLM-5.1 的估值，是"港股唯一一线 AI 大模型纯标"的估值。这个稀缺性溢价会随着月之暗面、MiniMax 上市被稀释。判断中国 AI 估值是不是泡沫，看的是 PS 收敛速度和营收增速能否撑过下一轮稀释，不是看 benchmark。

如果你在做出海 SaaS：智谱的涨价路径是教科书。从低价获客到对标 Claude 用了 6 个月。前置条件是产品力出现 step change（GLM-5.1 的长程能力）和分发渠道沉淀（Coding Plan 在 OpenRouter 站稳）。如果你的 SaaS 还在"低价等于核心竞争力"的阶段，看看智谱这套路径能不能复用。

本期关键词

长程任务（Long Horizon Task） -- 单次任务里模型自主完成"规划→执行→测试→修复→交付"全流程，需要管理几十万 token 的上下文、几百上千次工具调用、目标层级分解和错误重试。GLM-5.1 跑通 8 小时是中国开源模型第一次达到这个量级。判断模型是否真正具备长程能力的指标不是"最长跑多久"，是"在 4 小时这个常见区间的成功率"。

TileRT -- 智谱内部推理引擎团队。核心动作是抛弃 Runtime 层的动态调度，在编译期把整个计算图静态编排成一个常驻 GPU 的 persistent Engine Kernel。trade-off 是失去模型切换灵活性，换来极致延迟，适合"模型固定 + 请求形态稳定"的生产场景。这套思路和 vLLM/SGLang 的"动态 KV cache 调度"是两个方向。

Persistent Engine Kernel -- 把模型推理需要的所有算子在编译期融合成一个 GPU kernel，常驻显存执行，不再走 runtime 调度的 launch/sync。代价是模型一旦换就要重新编译，收益是消除 kernel launch overhead，把单 token 延迟压到极限。

SWE-Bench Pro -- SWE-Bench 的升级版本，包含更多真实仓库的复杂工程任务。GLM-5.1 在这个榜单上据二手报道刷出了全球最佳成绩（超过 GPT-5.4 和 Claude Opus 4.6），但具体数字（58.4%）仅在转述中出现，按"对标海外 frontier"读，不按"领先"读。

PS（Price-to-Sales Ratio） -- 市值除以营收的倍数，估值同业对比的核心指标之一。智谱当前 PS 约 700 倍，OpenAI 约 15 倍，Anthropic 约 36 倍。50 倍以上的差距无法用技术解释，主要来自港股稀缺性溢价（一线大模型纯标只有一家）和被动资金流入预期（即将纳入港股通）。

Coding Plan -- AI 编程订阅套餐的标准形态，按月计费、按调用量限速。GLM Coding Plan 海外版 2026 年三次涨价后，Max 套餐 $160/月已超过 Claude Max（$100/月）。涨价后订阅数据没掉，是中国 AI 厂商第一次拿到对标 Claude 的定价权。

引用

智谱推出GLM-5.1高速版API：400 tokens/s刷新全球速度上限 -- 量子位 2026-05-22 本期主要原文
智谱 GLM-5.1 高速版 AI 模型发布 -- 新浪科技 2026-05-22 二手验证
GLM-5.1 开源：独立工作 8 小时，探索长程任务上限 -- 智源社区 2026-04-08 长程任务原始数据
GLM-5.1 官方文档 -- 智谱 BigModel 一手 API 规格
AI 涨价潮：智谱海外版"直逼" Claude，阿里云取消基础套餐 -- 虎嗅 2026-04-11 Coding Plan 涨价时间线
智谱（02513.HK）港股行情 -- 雪球实时行情 + 招股价/历史走势
智谱港股上市首日报道 -- 21 经济网 2026-01-08 招股价 116.1 港元