2026 年 05 月 14 日· 腾讯云开发者社区 + 量子位转载decode

腾讯把 Agent 的记忆装上了货架

原文：https://developer.cloud.tencent.com/article/2664811

播客版

腾讯把 Agent 的记忆装上了货架

5 月 14 日，腾讯云丢出 TencentDB Agent Memory Pro。媒体口径是"开源 Agent 记忆方案，Token 直降 61%"。

这两句话都对，又都不对。

腾讯云开发者社区的官方文章给的是另一组数字：在 1540 道测试题里，Token 消耗降低 33% 到 64%，任务完成率提升 12% 到 35%。61% 是带宽里的一个点，不是均值，也不是中位数。"开源"两个字在官方原文里没有出现一次——能看到的是"上线 ClawPro 最新版本"和"企业级服务"。

这不是吹毛求疵。一个企业 SaaS 和一个 GitHub 仓库，对 B 端选型来说是两个完全不同的决策。

真正的信号藏在产品形态里，不在 61% 这个数字里

记忆这件事 Agent 圈不是没人做过。Mem0 在 GitHub 上 30k star，Letta（前 MemGPT）做了两年，LangMem 在 LangChain 主仓内置。社区方案的共性是：记忆是代码库的一部分，跟 Agent 的运行实例绑死。你部署一个 Agent，它的记忆就跟着这个进程走；进程挂了，记忆要么落盘恢复，要么丢。

腾讯这次抬上货架的关键一句话，是 Pro 版的新增能力里那行——"记忆资产与运行实例解耦"（出自腾讯云 dev 博客 2664811 原文）。

把这句话翻译成产品语言：记忆从此是一份可独立备份、可跨实例迁移、可单独计费的"数据资产"。Agent 这边升级换代、横向扩容、跨可用区迁移，记忆那边不动。这是把 Agent 记忆从"嵌入式状态"转成了"外挂数据库"。

这是云厂商最擅长的事，也是社区方案做不动的事。Mem0 可以让你的 Agent 跑得更聪明，但它不会替你扛 SLA、不会保证跨地域备份、不会按存储和读写次数给你出账单。腾讯把这套云数据库的产品逻辑——多副本、冷热分层、版本回滚——平移到了 Agent 的记忆上。

61% 怎么来的：符号化压缩 + 三层水位

技术层面，Token 降耗的核心是两个动作。

第一个叫符号化压缩（Symbolic Compaction）。腾讯云原文里有个具体例子：一次搜索返回 2000 字原文，真正有信息量的可能只是一句话。系统把它提炼为一行结构化摘要——25:1 的压缩比。这不是简单的 LLM 总结，而是用结构化字段（who/when/what/result）替代连续文本。结构化的好处是：下次需要时不用再做语义检索，按字段精确取回。

第二个叫结构化图压缩。任务流程用 Mermaid Flowchart 来组织，节点之间的"空间关系"本身就是语义——A 在 B 之前、B 触发 C 失败、C 走了回退路径——这些关系用图表达比用自然语言节省至少 5 倍 token。

两层压缩叠加，进入了一个更巧的设计：三层水位触发（L1/L2/L3）。

L1 实时层：上下文占用到 60% 容量，触发一次轻量摘要。
L2 异步层：后台生成 Mermaid 任务图，不阻塞主流程。
L3 同步层：占用超过 80%，执行激进清理，把冷记忆迁出。

这套设计的工程含义：Token 节省不靠一次性大压缩，靠的是"持续维持低水位"。Agent 跑长任务不会突然撞墙，因为系统在它撞墙之前就一直在偷偷做清理。这是云厂商做了二十年的活儿——只不过以前清理的是数据库连接池，现在清理的是 LLM 上下文。

PersonaMem 这个公开 benchmark 上，腾讯给的对比数字是从 47.85% 准确率提到 76.10%。这个跳跃不全归功于压缩——其中很大一部分来自 Pro 版增加的"Embedding + 关键词双路检索"。意思是检索阶段同时跑向量召回和倒排索引，结果归并。这个组合在搜索领域用了十年，腾讯只是把它搬进了 Agent 记忆栈。

但要注意：开源吗？开源什么？

"开源"两个字在多家媒体的标题里出现，linux.do 上的转载帖标题直接写"腾讯开源 Agent Memory"。

但腾讯云官方原文里只说了"发布"和"上线 ClawPro"。截至本文发稿，公开搜索找不到对应的 GitHub 仓库地址，也没有可下载的 SDK 安装包，更没有许可证文件。

这个差别对企业选型至关重要：

如果是纯 SaaS：你必须把上下文数据送到腾讯云。对金融、医疗、政企客户来说，这是合规死线。
如果是部分开源 + 企业版（行业里 LangChain / Weaviate / Milvus 都是这套打法）：开源版本你可以自部署，Pro 版交钱拿托管。这是大部分用户能接受的形态。
如果是完全开源：那就是真的把核心算法和数据结构丢出来。Mem0 是这样做的。

按目前公开信源能看到的证据，腾讯这次更接近"部分开源 + 企业版"的可能性最大——参考腾讯云之前 Hippocampus / 元宝向量库的释放节奏。但在 GitHub 链接和许可证明确放出来之前，叫"开源"是冒进的。

这跟 61% 的数字一样，需要回到一手材料看清楚边界。

学术界正在用完全不同的路径解决同一个问题

值得放在一起看的是Memory-R1——这是慕尼黑大学、慕尼黑工业大学、剑桥大学和港大今年发布的论文，名字像是和腾讯产品同一个东西，实际上完全不相关。

Memory-R1 的路径是：用 152 个问答对做强化学习训练，让 LLM 自己学会决定"什么时候 ADD / UPDATE / DELETE / NOOP 一条记忆"。在 LOCOMO 数据集上，Memory-R1-GRPO 拿到了 F1 50.3%，比 Mem0 这个最强基线高了 48.3%。

把腾讯和 Memory-R1 放在一起看，正好是 Agent 记忆这件事的两条主线：

腾讯的路径——基础设施派：核心创新在产品形态。压缩算法不新（摘要、Mermaid 图、双路检索都是成熟技术），但把它们组合成"记忆即服务"是新的。卖点是工程化、稳定性、SLA。

Memory-R1 的路径——算法派：核心创新在用 RL 把记忆操作变成可学习的策略。152 样本就够用，因为奖励信号是"最终答案对不对"，不需要标注每一步是否该记。卖点是少标注、可泛化、跟模型一起进化。

这两条路并不互斥。腾讯的产品里完全可以套一个 Memory-R1 风格的策略学习层——决定什么进 L1、什么直接进 L3。但目前看，两边都还在各自的赛道上跑：腾讯做基础设施、做企业落地；学术界做算法、做 benchmark。

对从业者，这两条路意味着两类不同的事情：

如果你在做 toB Agent 产品、需要稳定记忆服务，腾讯这套（或它的对手——阿里 PAI Memory、AWS Bedrock Memory）会是必选项之一。算法可以不是 SOTA，但工程必须能扛流量。
如果你在做 Agent 算法研究、追求极致 benchmark，盯 Memory-R1、Mem0 这些社区/学术工作。腾讯的方案对你意义不大——它不会公开训练细节。

盲区：1540 题、ClawPro、还有"龙虾"

腾讯放出的数字里有几个盲区值得标。

1540 道测试题不是公开 benchmark。覆盖了代码生成、长难任务、网页搜索、文章分析四个场景——但题库本身没公开。33%-64% 这个区间的下限是 33%，最差场景大概率是"上下文短的简单任务"——本来就不需要复杂记忆，压缩省下的是边际收益。真正值得关心的是 64% 那个上限场景，但官方没拆开。

ClawPro 是什么没说清。从命名看像是腾讯内部某个 Agent 平台（"虾马"在搜索结果里也出现，是同一个产品线的别称）。一个企业 SaaS 服务上线在一个不公开的内部产品里，对外部开发者来说，入口在哪里、怎么试用、什么时候开放 API，目前都没有标准答案。

和 Mem0 在公开 benchmark 上没硬对比。腾讯给的对照是它自己的 Pro 版前后差异——47.85% → 76.10%。但 Pro 版和 Mem0、Letta、LangMem 谁更好？没说。1540 题的厂商内部 benchmark 永远是厂商赢，这是行业常识，不是腾讯独有的问题。

对 AI 从业者意味着什么

把这次的信号收敛成可执行的三件事：

第一，Agent 记忆正式进入云厂商货架阶段。这意味着选型决策从"用哪个开源库"变成了"用哪家云的托管服务"。如果你做 toB 产品，要开始把"记忆"这个变量列进 SLA 表格——存储成本、读写延迟、跨地域延迟、数据驻留——和其他云服务一起评估。

第二，"压缩"是表象，"解耦"才是终局。短期看大家比 token 节省百分比，长期看比的是记忆能不能跨实例、跨版本、跨模型迁移。一个能从 GPT-4 时代延续到 Claude 4.7、再延续到下一代模型的"记忆资产"，才是真正的护城河。

第三，社区方案不会被取代，但定位会变。Mem0、Letta 会沿着算法路线走得更远，承接学术界的成果；云厂商方案承接稳定性需求。两者会形成"前店后厂"的关系——研究院做新算法，云厂商把验证过的算法搬上货架。

61% 这个数字会很快被超越。但**"记忆即服务"这个产品类目，今天起就有了第一个明确入口**。

本期关键词

符号化压缩（Symbolic Compaction） —— 把自然语言压成结构化字段或符号表达。例子：2000 字搜索结果压成一行 {event: A 发布 B, when: 5/14, source: 腾讯云}。压缩比能到 25:1。下次需要时按字段精确取回，不用再做语义检索。

记忆资产解耦 —— 把 Agent 的记忆从运行实例里剥出来，变成独立可备份、可迁移的数据库对象。Agent 升级换代，记忆不动。这是云厂商最擅长的事。

三层水位触发（L1/L2/L3） —— 上下文容量到 60% 触发轻量摘要，80% 触发激进清理。中间有异步的图压缩。核心理念：不靠一次大压缩，靠持续维持低水位。

LOCOMO —— Agent 长对话记忆领域的公开 benchmark，1307 个问题分布在 8 个对话里。Memory-R1 在这个数据集上拿到 F1 50.3%。

PersonaMem —— 另一个 Agent 记忆 benchmark，腾讯用它对比 Pro 版前后效果（47.85% → 76.10%）。

Mem0 / Letta / LangMem —— Agent 记忆的三个主流开源方案。Mem0 偏轻量，Letta（前 MemGPT）偏完整框架，LangMem 集成在 LangChain。腾讯的产品定位是云托管，跟这三家是合作而非完全对立。

引用

腾讯云发布企业级 Agent Memory 服务，长任务场景 Token 消耗最高降超 60% — 本文核心一手资料
2026 年 Agent 记忆系统方案横评与选型指南 — 腾讯云自家横评（带选型视角）
"让 Token 消耗降低 61%"：腾讯开源 Agent Memory（linux.do 转载） — 媒体口径"开源"的源头
Memory-R1 论文解读：仅需 152 个样本，性能提升 48% — 学术界另一条路径（慕尼黑+剑桥+港大）
腾讯云 Agent Memory 登顶 2026 主流方案首选榜 — 腾讯自家口径（厂商视角，作为对照）