智谱半年涨 11 倍:当中国 AI 第一次同时拿到"会干 8 小时"和"每秒 200 字"
原文:https://www.qbitai.com/2026/05/422511.html

5 月 22 日,智谱(02513.HK)盘中涨超 30%,收盘大涨近 27% 报 1282 港元/股,市值冲到 5715.7 亿港元——比 1 月 8 日上市当天的 528 亿港元翻了 10 倍多。同一天,智谱发布 GLM-5.1-highspeed,输出速度 400 tokens/s,刷新全球大模型 API 的速度上限。再往前一个月,GLM-5.1 旗舰版的长程任务能力已经能让一个 session 自主跑 8 小时——Linux 桌面任务连续 1200 多步,向量数据库优化跑了 655 轮迭代把吞吐拉了 6.9 倍。
把这三件事放在一张时间线上,会得到一个很危险的结论:中国 AI 厂商第一次在"模型能干长活"和"模型吐得快"两个 frontier 指标上同时压住了海外,资本市场也认了。
但仔细拆,这个结论一半是真的,一半是港股稀缺性溢价的滤镜。
TL;DR
- GLM-5.1-highspeed 的 400 tokens/s 是真的快,但它赢的不是绝对速度——Groq 和 Cerebras 用专用硬件早就破 500 了——而是"通用 API + 旗舰模型能力 + 不掉智商"这三件事第一次在同一个产品上做到
- 8 小时长程任务是真的硬,SWE-Bench Pro 跑分超过 GPT-5.4 和 Claude Opus 4.6 也是真的,但 Anthropic 在 Claude Opus 4.5(2026 Q1)就已经能 8 小时跑了——智谱赢的是"开源模型里第一个做到"
- 5715 亿港元市值不能用技术解释。智谱 2025 年营收 7.24 亿人民币,PS 接近 700 倍;同期 OpenAI PS 约 15 倍。这 50 倍鸿沟是港股没有第二个一线大模型纯标可买出来的稀缺性溢价
- 真正的商业化信号在涨价权:GLM Coding Plan 海外版三个月涨 80%-150%,Max 套餐 $160/月已经超过 Claude Max($100/月),用户骂但不走——这才是中国 AI 第一次把"定价权"从"低价跑量"切到"对标 Claude"
- B 端落地的容错带正在被重估:8 小时无人监督 + 跑废了再来一次的 Agent 模式,对中国企业的真意是"取代海外工程外包",而不是"取代正式员工"

一、技术:highspeed 真正的赢点不是 400 tokens/s
400 tokens/s 折成中文大约是每秒 200 个汉字——大概是人正常阅读速度的 3 倍。智谱官方对这个数字的措辞很克制:「刷新当前全球大模型厂商 API 的速度上限」。"全球大模型厂商 API"七个字是关键。
这个限定词刨掉了两类竞争对手。第一类是 Groq、Cerebras、SambaNova 这些专用硬件方案——Groq 跑 Llama 3 早就破 500 tokens/s,Cerebras 的 WSE-3 上 Llama 3.1-70B 能做到 2100 tokens/s。但这些是"用特殊硬件跑别人模型"的服务,不是"自家模型 + 自家 API"。第二类是 token/s 不公布的本地推理(如 llama.cpp + Apple Silicon)。
留下的对照组是:OpenAI gpt-4o 通常 50-80 tokens/s、Claude Sonnet 4.5 API 约 100-150 tokens/s、GLM-5.1 旗舰版自己也就 60-80 tokens/s。highspeed 在这条赛道上跳到了 400。
更值得拆的是它怎么做到的。智谱披露由 GLM 团队和 TileRT 团队联合打造,三层重写:
- 推理引擎层:TileRT 的核心动作是「彻底抛弃 Runtime 层的动态调度,在编译期将整个计算图静态编排为一个常驻 GPU 的 persistent Engine Kernel」
- 调度系统:动态批处理 + 请求合并 + KV cache 调度优化,目标是把高并发场景的尾延迟压下来
- 底层基础设施:集群和网络协同优化
这套思路其实和过去一年大家在做的"推理引擎换皮"(vLLM、SGLang、TensorRT-LLM)不一样。vLLM 这一代解决的是"动态分配 KV cache 不浪费显存",本质还是 runtime 调度。TileRT 的取舍是把动态调度的灵活性丢掉,换静态编排的极致延迟——这个 trade-off 适合"模型固定、请求形态相对稳定"的场景,不适合做需要频繁切换模型的 router。
技术上的潜台词是:智谱把推理基础设施和模型本身做了深度耦合。这是 Anthropic 在 Managed Agents 里用 Pets vs Cattle 模式想避开的耦合——只是这次耦合是为了榨速度,不是为了卖架构。

二、8 小时长程任务:开源世界的第一次
GLM-5.1 旗舰版 4 月 8 日开源的时候,智谱写了一句很大的话:「唯一达到 8 小时级持续工作的开源模型,除 Claude Opus 4.6 外少数具备这一能力」。这句话需要拆。
"8 小时"这个数字背后是三个具体场景:
- Linux 桌面任务:1200 多步、连续 8 小时,输出 4.8MB
- 向量数据库优化:655 轮迭代,把 QPS 从 3108 拉到 21472(6.9 倍提升)
- ML 模型优化:1000+ tool call,几何平均加速 3.6 倍
这是真正"长程"——上下文要管几十万 token,工具调用要管错误重试,规划要管目标拆解,每一步都不能崩。SWE-Bench Pro 上 GLM-5.1 据二手报道刷出了全球最佳(超过 GPT-5.4 和 Claude Opus 4.6),但这个具体数字(58.4%)只在 CSDN 等二手转述里出现,智源/智谱官博一手原文只说"刷新该榜单全球最佳"——存疑,按"对标"读,不按"领先"读。
更关键的对照:Anthropic 在 Claude Opus 4.5(2026 年 1 月)的 Managed Agents 发布上就展示过 8 小时级 session。智谱赢的不是"第一个会跑 8 小时的模型",而是"第一个开源出来给所有人跑 8 小时的模型"。这两件事的商业含义完全不同——前者是模型能力榜单的并列,后者是"中国 AI 厂商把 frontier 级 Agent 能力开源给社区用"的姿态。
8 小时这个数字还有一层未被讨论的盲区:失败率和回滚成本。Anthropic 在 Opus 4.5 的技术报告里披露过 long-horizon 任务的中位失败步数和重启策略,智谱在 4 月 8 日的开源博客里只给了"成功案例"——1200 步跑通的 Linux 桌面任务是平均水平还是 best case,外人没法知道。
对 B 端决策者来说,这个盲区不致命。Agent 跑 8 小时的真实场景里,失败也有价值——失败的 trace 本身就是 debug 资产,重跑一次比让人工写一版便宜得多。

三、5715 亿港元:港股稀缺性溢价,不是技术领先溢价
智谱 1 月 8 日以 116.1 港元/股招股价上市,市值约 528 亿港元。5 月 22 日收盘 1282 港元,市值 5715.7 亿港元。半年涨 11 倍。
但翻 2025 财报:营收 7.24 亿人民币(同比 +131.9%),净亏损 47.18 亿,调整后净亏损 31.82 亿。营收增速很猛,但绝对值很小——按 5715 亿港元市值(约 5260 亿人民币)算,PS(市销率)大约 700 倍。
对照组:
- OpenAI:估值约 1500 亿美元,2025 年化营收约 100 亿美元,PS ≈ 15 倍
- Anthropic:估值约 1830 亿美元,2025 年化营收约 50 亿美元,PS ≈ 36 倍
- CoreWeave(美股 AI 算力第一股):估值约 700 亿美元,2025 营收约 40 亿美元,PS ≈ 17 倍
智谱的 PS 比 OpenAI 高约一个数量级。这个 gap 不能用"GLM-5.1 在 SWE-Bench Pro 上超过 Claude Opus 4.6"解释——就算技术真的领先 2 倍,也撑不起 50 倍 PS 的差距。
真正的解释藏在两件事里:
第一,港股目前只有智谱一家一线大模型纯标。月之暗面(Kimi)、阶跃(StepFun)、MiniMax 还在港股 IPO 排队,DeepSeek 没上市,百度/阿里/腾讯的 AI 业务包在母公司里没法单独定价。买"中国 AI 大模型"这个 thesis,机构能买的港股只有智谱。这是稀缺性溢价。
第二,被动指数资金正在涌入。智谱已经被纳入恒生科技指数,下一步预期是港股通——一旦被纳入,南向资金的被动配置会自动买入,机构定价权进一步上移。1282 港元/股的部分溢价是在预期这件事。
那么会跌吗?大概率会,但不一定因为 GLM-5.1。当第二个一线大模型登陆港股(最可能是月之暗面或 MiniMax),智谱的稀缺性溢价会被分掉一部分。再往后如果智谱按当前节奏继续烧研发——2025 年 31.82 亿调整后亏损只是开始,下一代模型训练成本会更高——融资就要稀释每股盈利。
资本面的这两件事,跟 GLM-5.1 本身好不好关系不大。

四、涨价权:中国 AI 第一次拿到对标 Claude 的定价
技术和资本可以分开看,定价权不能。这是判断中国 AI 厂商商业化是否真正落地的最硬指标。
GLM Coding Plan 海外版在 2026 年内涨了三次:
| 时间 | 事件 | 涨幅 |
|---|---|---|
| 2/12 | GLM-5 发布 | 整体 30%+,海外 API 67%-100% |
| 3/16 | GLM-5 Turbo 上线 | API 再 +20% |
| 4/8 | GLM-5.1 发布 | OpenRouter +10% |
| 4/12 | Coding Plan 海外版 | 月费几乎翻倍 |
最终结果:Lite 从 $10 涨到 $18(+80%),Pro 从 $30 涨到 $72(+140%),Max 从 $80 涨到 $160(+100%)。Max 套餐 $160/月已经超过了 Anthropic 的 Claude Max($100/月)。
更关键的是 API 单价。GLM-5.1 在 Agent 场景 + prompt caching 下,单价做到 $0.475/M tokens,逼近 Claude Opus 4.5 的 $0.50/M tokens。这意味着智谱在海外市场已经放弃"用低价换市场份额"的位置,开始和 Anthropic 在同一个价格带打。
海外用户社区有不少抱怨——"三个月涨了五倍简直贵的离谱"——但订阅数据没掉。这就是定价权的字面意义:你涨,用户骂,但用户不走。
对国内 AI 厂商来说,这是一个分水岭。过去两年大家的共识是"中国模型只能靠低价打开海外",DeepSeek-V3 把 API 价格干到 $0.27/M 是这个共识的顶点。智谱在 2026 年用三轮涨价撕掉了这个共识——前提是 GLM-5.1 真的能干 8 小时长活,而且 highspeed 真的能 400 tokens/s 不掉智商。技术兑现是涨价权的前置条件。
如果未来六个月智谱继续涨价、海外订阅继续涨,"中国 AI 只能卖白菜价"的叙事就彻底翻篇。如果掉头降价,5715 亿港元市值的资本叙事也会跟着掉头。
五、对 AI 从业者意味着什么
如果你在中国企业做 AI 选型:GLM-5.1 highspeed 进入了一个新的可用场景——AI 编程的 IDE 内嵌 + 实时语音 Agent + 高并发 Coding Agent 集群。这些场景过去用 Claude 体验最好但延迟卡,用国内模型延迟好但能力不够。现在第一次有一个"两边都够"的国产选项。要去验的是:在你具体的代码栈和上下文长度下,400 tokens/s 能稳定保持多久。
如果你在做长程任务 Agent:把"模型能不能跑 8 小时"从必读项删掉,加入"模型在 4 小时这个区间的失败率是多少"。8 小时已经不是上限,是地板。真正分胜负的是失败重试机制、上下文外置存储、子任务可恢复性这些 Harness 层的事——参考 Anthropic 的 Managed Agents 架构(Session 外置 + Pets vs Cattle 容器)。
如果你在评估 AI 投资标的:智谱的 5715 亿港元市值不是 GLM-5.1 的估值,是"港股唯一一线 AI 大模型纯标"的估值。这个稀缺性溢价会随着月之暗面、MiniMax 上市被稀释。判断中国 AI 估值是不是泡沫,看的是 PS 收敛速度和营收增速能否撑过下一轮稀释,不是看 benchmark。
如果你在做出海 SaaS:智谱的涨价路径是教科书。从低价获客到对标 Claude 用了 6 个月。前置条件是产品力出现 step change(GLM-5.1 的长程能力)和分发渠道沉淀(Coding Plan 在 OpenRouter 站稳)。如果你的 SaaS 还在"低价等于核心竞争力"的阶段,看看智谱这套路径能不能复用。
本期关键词
长程任务(Long Horizon Task) -- 单次任务里模型自主完成"规划→执行→测试→修复→交付"全流程,需要管理几十万 token 的上下文、几百上千次工具调用、目标层级分解和错误重试。GLM-5.1 跑通 8 小时是中国开源模型第一次达到这个量级。判断模型是否真正具备长程能力的指标不是"最长跑多久",是"在 4 小时这个常见区间的成功率"。
TileRT -- 智谱内部推理引擎团队。核心动作是抛弃 Runtime 层的动态调度,在编译期把整个计算图静态编排成一个常驻 GPU 的 persistent Engine Kernel。trade-off 是失去模型切换灵活性,换来极致延迟,适合"模型固定 + 请求形态稳定"的生产场景。这套思路和 vLLM/SGLang 的"动态 KV cache 调度"是两个方向。
Persistent Engine Kernel -- 把模型推理需要的所有算子在编译期融合成一个 GPU kernel,常驻显存执行,不再走 runtime 调度的 launch/sync。代价是模型一旦换就要重新编译,收益是消除 kernel launch overhead,把单 token 延迟压到极限。
SWE-Bench Pro -- SWE-Bench 的升级版本,包含更多真实仓库的复杂工程任务。GLM-5.1 在这个榜单上据二手报道刷出了全球最佳成绩(超过 GPT-5.4 和 Claude Opus 4.6),但具体数字(58.4%)仅在转述中出现,按"对标海外 frontier"读,不按"领先"读。
PS(Price-to-Sales Ratio) -- 市值除以营收的倍数,估值同业对比的核心指标之一。智谱当前 PS 约 700 倍,OpenAI 约 15 倍,Anthropic 约 36 倍。50 倍以上的差距无法用技术解释,主要来自港股稀缺性溢价(一线大模型纯标只有一家)和被动资金流入预期(即将纳入港股通)。
Coding Plan -- AI 编程订阅套餐的标准形态,按月计费、按调用量限速。GLM Coding Plan 海外版 2026 年三次涨价后,Max 套餐 $160/月已超过 Claude Max($100/月)。涨价后订阅数据没掉,是中国 AI 厂商第一次拿到对标 Claude 的定价权。
引用
- 智谱推出GLM-5.1高速版API:400 tokens/s刷新全球速度上限 -- 量子位 2026-05-22 本期主要原文
- 智谱 GLM-5.1 高速版 AI 模型发布 -- 新浪科技 2026-05-22 二手验证
- GLM-5.1 开源:独立工作 8 小时,探索长程任务上限 -- 智源社区 2026-04-08 长程任务原始数据
- GLM-5.1 官方文档 -- 智谱 BigModel 一手 API 规格
- AI 涨价潮:智谱海外版"直逼" Claude,阿里云取消基础套餐 -- 虎嗅 2026-04-11 Coding Plan 涨价时间线
- 智谱(02513.HK)港股行情 -- 雪球实时行情 + 招股价/历史走势
- 智谱港股上市首日报道 -- 21 经济网 2026-01-08 招股价 116.1 港元