腾讯把 Agent 的记忆装上了货架

腾讯把 Agent 的记忆装上了货架
5 月 14 日,腾讯云丢出 TencentDB Agent Memory Pro。媒体口径是"开源 Agent 记忆方案,Token 直降 61%"。
这两句话都对,又都不对。
腾讯云开发者社区的官方文章给的是另一组数字:在 1540 道测试题里,Token 消耗降低 33% 到 64%,任务完成率提升 12% 到 35%。61% 是带宽里的一个点,不是均值,也不是中位数。"开源"两个字在官方原文里没有出现一次——能看到的是"上线 ClawPro 最新版本"和"企业级服务"。
这不是吹毛求疵。一个企业 SaaS 和一个 GitHub 仓库,对 B 端选型来说是两个完全不同的决策。
真正的信号藏在产品形态里,不在 61% 这个数字里
记忆这件事 Agent 圈不是没人做过。Mem0 在 GitHub 上 30k star,Letta(前 MemGPT)做了两年,LangMem 在 LangChain 主仓内置。社区方案的共性是:记忆是代码库的一部分,跟 Agent 的运行实例绑死。你部署一个 Agent,它的记忆就跟着这个进程走;进程挂了,记忆要么落盘恢复,要么丢。
腾讯这次抬上货架的关键一句话,是 Pro 版的新增能力里那行——"记忆资产与运行实例解耦"(出自腾讯云 dev 博客 2664811 原文)。
把这句话翻译成产品语言:记忆从此是一份可独立备份、可跨实例迁移、可单独计费的"数据资产"。Agent 这边升级换代、横向扩容、跨可用区迁移,记忆那边不动。这是把 Agent 记忆从"嵌入式状态"转成了"外挂数据库"。
这是云厂商最擅长的事,也是社区方案做不动的事。Mem0 可以让你的 Agent 跑得更聪明,但它不会替你扛 SLA、不会保证跨地域备份、不会按存储和读写次数给你出账单。腾讯把这套云数据库的产品逻辑——多副本、冷热分层、版本回滚——平移到了 Agent 的记忆上。

61% 怎么来的:符号化压缩 + 三层水位
技术层面,Token 降耗的核心是两个动作。
第一个叫符号化压缩(Symbolic Compaction)。腾讯云原文里有个具体例子:一次搜索返回 2000 字原文,真正有信息量的可能只是一句话。系统把它提炼为一行结构化摘要——25:1 的压缩比。这不是简单的 LLM 总结,而是用结构化字段(who/when/what/result)替代连续文本。结构化的好处是:下次需要时不用再做语义检索,按字段精确取回。
第二个叫结构化图压缩。任务流程用 Mermaid Flowchart 来组织,节点之间的"空间关系"本身就是语义——A 在 B 之前、B 触发 C 失败、C 走了回退路径——这些关系用图表达比用自然语言节省至少 5 倍 token。
两层压缩叠加,进入了一个更巧的设计:三层水位触发(L1/L2/L3)。
- L1 实时层:上下文占用到 60% 容量,触发一次轻量摘要。
- L2 异步层:后台生成 Mermaid 任务图,不阻塞主流程。
- L3 同步层:占用超过 80%,执行激进清理,把冷记忆迁出。
这套设计的工程含义:Token 节省不靠一次性大压缩,靠的是"持续维持低水位"。Agent 跑长任务不会突然撞墙,因为系统在它撞墙之前就一直在偷偷做清理。这是云厂商做了二十年的活儿——只不过以前清理的是数据库连接池,现在清理的是 LLM 上下文。
PersonaMem 这个公开 benchmark 上,腾讯给的对比数字是从 47.85% 准确率提到 76.10%。这个跳跃不全归功于压缩——其中很大一部分来自 Pro 版增加的"Embedding + 关键词双路检索"。意思是检索阶段同时跑向量召回和倒排索引,结果归并。这个组合在搜索领域用了十年,腾讯只是把它搬进了 Agent 记忆栈。

但要注意:开源吗?开源什么?
"开源"两个字在多家媒体的标题里出现,linux.do 上的转载帖标题直接写"腾讯开源 Agent Memory"。
但腾讯云官方原文里只说了"发布"和"上线 ClawPro"。截至本文发稿,公开搜索找不到对应的 GitHub 仓库地址,也没有可下载的 SDK 安装包,更没有许可证文件。
这个差别对企业选型至关重要:
- 如果是纯 SaaS:你必须把上下文数据送到腾讯云。对金融、医疗、政企客户来说,这是合规死线。
- 如果是部分开源 + 企业版(行业里 LangChain / Weaviate / Milvus 都是这套打法):开源版本你可以自部署,Pro 版交钱拿托管。这是大部分用户能接受的形态。
- 如果是完全开源:那就是真的把核心算法和数据结构丢出来。Mem0 是这样做的。
按目前公开信源能看到的证据,腾讯这次更接近"部分开源 + 企业版"的可能性最大——参考腾讯云之前 Hippocampus / 元宝向量库的释放节奏。但在 GitHub 链接和许可证明确放出来之前,叫"开源"是冒进的。
这跟 61% 的数字一样,需要回到一手材料看清楚边界。

学术界正在用完全不同的路径解决同一个问题
值得放在一起看的是Memory-R1——这是慕尼黑大学、慕尼黑工业大学、剑桥大学和港大今年发布的论文,名字像是和腾讯产品同一个东西,实际上完全不相关。
Memory-R1 的路径是:用 152 个问答对做强化学习训练,让 LLM 自己学会决定"什么时候 ADD / UPDATE / DELETE / NOOP 一条记忆"。在 LOCOMO 数据集上,Memory-R1-GRPO 拿到了 F1 50.3%,比 Mem0 这个最强基线高了 48.3%。
把腾讯和 Memory-R1 放在一起看,正好是 Agent 记忆这件事的两条主线:
腾讯的路径——基础设施派:核心创新在产品形态。压缩算法不新(摘要、Mermaid 图、双路检索都是成熟技术),但把它们组合成"记忆即服务"是新的。卖点是工程化、稳定性、SLA。
Memory-R1 的路径——算法派:核心创新在用 RL 把记忆操作变成可学习的策略。152 样本就够用,因为奖励信号是"最终答案对不对",不需要标注每一步是否该记。卖点是少标注、可泛化、跟模型一起进化。
这两条路并不互斥。腾讯的产品里完全可以套一个 Memory-R1 风格的策略学习层——决定什么进 L1、什么直接进 L3。但目前看,两边都还在各自的赛道上跑:腾讯做基础设施、做企业落地;学术界做算法、做 benchmark。
对从业者,这两条路意味着两类不同的事情:
- 如果你在做 toB Agent 产品、需要稳定记忆服务,腾讯这套(或它的对手——阿里 PAI Memory、AWS Bedrock Memory)会是必选项之一。算法可以不是 SOTA,但工程必须能扛流量。
- 如果你在做 Agent 算法研究、追求极致 benchmark,盯 Memory-R1、Mem0 这些社区/学术工作。腾讯的方案对你意义不大——它不会公开训练细节。

盲区:1540 题、ClawPro、还有"龙虾"
腾讯放出的数字里有几个盲区值得标。
1540 道测试题不是公开 benchmark。覆盖了代码生成、长难任务、网页搜索、文章分析四个场景——但题库本身没公开。33%-64% 这个区间的下限是 33%,最差场景大概率是"上下文短的简单任务"——本来就不需要复杂记忆,压缩省下的是边际收益。真正值得关心的是 64% 那个上限场景,但官方没拆开。
ClawPro 是什么没说清。从命名看像是腾讯内部某个 Agent 平台("虾马"在搜索结果里也出现,是同一个产品线的别称)。一个企业 SaaS 服务上线在一个不公开的内部产品里,对外部开发者来说,入口在哪里、怎么试用、什么时候开放 API,目前都没有标准答案。
和 Mem0 在公开 benchmark 上没硬对比。腾讯给的对照是它自己的 Pro 版前后差异——47.85% → 76.10%。但 Pro 版和 Mem0、Letta、LangMem 谁更好?没说。1540 题的厂商内部 benchmark 永远是厂商赢,这是行业常识,不是腾讯独有的问题。
对 AI 从业者意味着什么
把这次的信号收敛成可执行的三件事:
第一,Agent 记忆正式进入云厂商货架阶段。这意味着选型决策从"用哪个开源库"变成了"用哪家云的托管服务"。如果你做 toB 产品,要开始把"记忆"这个变量列进 SLA 表格——存储成本、读写延迟、跨地域延迟、数据驻留——和其他云服务一起评估。
第二,"压缩"是表象,"解耦"才是终局。短期看大家比 token 节省百分比,长期看比的是记忆能不能跨实例、跨版本、跨模型迁移。一个能从 GPT-4 时代延续到 Claude 4.7、再延续到下一代模型的"记忆资产",才是真正的护城河。
第三,社区方案不会被取代,但定位会变。Mem0、Letta 会沿着算法路线走得更远,承接学术界的成果;云厂商方案承接稳定性需求。两者会形成"前店后厂"的关系——研究院做新算法,云厂商把验证过的算法搬上货架。
61% 这个数字会很快被超越。但**"记忆即服务"这个产品类目,今天起就有了第一个明确入口**。
本期关键词
符号化压缩(Symbolic Compaction) —— 把自然语言压成结构化字段或符号表达。例子:2000 字搜索结果压成一行 {event: A 发布 B, when: 5/14, source: 腾讯云}。压缩比能到 25:1。下次需要时按字段精确取回,不用再做语义检索。
记忆资产解耦 —— 把 Agent 的记忆从运行实例里剥出来,变成独立可备份、可迁移的数据库对象。Agent 升级换代,记忆不动。这是云厂商最擅长的事。
三层水位触发(L1/L2/L3) —— 上下文容量到 60% 触发轻量摘要,80% 触发激进清理。中间有异步的图压缩。核心理念:不靠一次大压缩,靠持续维持低水位。
LOCOMO —— Agent 长对话记忆领域的公开 benchmark,1307 个问题分布在 8 个对话里。Memory-R1 在这个数据集上拿到 F1 50.3%。
PersonaMem —— 另一个 Agent 记忆 benchmark,腾讯用它对比 Pro 版前后效果(47.85% → 76.10%)。
Mem0 / Letta / LangMem —— Agent 记忆的三个主流开源方案。Mem0 偏轻量,Letta(前 MemGPT)偏完整框架,LangMem 集成在 LangChain。腾讯的产品定位是云托管,跟这三家是合作而非完全对立。
引用
- 腾讯云发布企业级 Agent Memory 服务,长任务场景 Token 消耗最高降超 60% — 本文核心一手资料
- 2026 年 Agent 记忆系统方案横评与选型指南 — 腾讯云自家横评(带选型视角)
- "让 Token 消耗降低 61%":腾讯开源 Agent Memory(linux.do 转载) — 媒体口径"开源"的源头
- Memory-R1 论文解读:仅需 152 个样本,性能提升 48% — 学术界另一条路径(慕尼黑+剑桥+港大)
- 腾讯云 Agent Memory 登顶 2026 主流方案首选榜 — 腾讯自家口径(厂商视角,作为对照)