记忆越改越坏:自进化 Agent 的压缩陷阱
原文:https://arxiv.org/abs/2605.12978

给一个 Agent 19 道题,它在没有任何记忆的情况下全做对,100%。然后把这 19 道题连同标准答案,一题一题喂进它的记忆系统,让它把每次经历总结成可复用的教训。第十轮再考同样 19 道题,正确率 52.6%。
数据没变,题没变,答案是对的。变的只有一件事:它建立了记忆。
一个被当成免费午餐的配方
过去一年,"自进化 Agent"是 Agent 领域最被看好的方向之一。配方很简单,也很诱人:Agent 解完一道题,把这次的完整操作轨迹蒸馏成一段文字教训,存进一个文本记忆库;遇到类似问题时检索出来用;用得越多,记忆越精炼。CLIN、Agent Workflow Memory(AWM)、Dynamic Cheatsheet、ACE 这些 2024 到 2026 年被反复引用的记忆系统,走的都是这条路。
这个配方诱人,是因为它绕开了最贵的环节。让模型变聪明的标准做法是改参数——微调、蒸馏、强化学习,每一步都烧算力和数据。而文本记忆承诺的是:不碰一个参数,光靠把经历写成文字、再不断重写,Agent 就能自我提升。Anthropic 的 Memory Store、各家厂商的 memory layer 产品,底层都押注同一个假设——记忆会越用越好。
伊利诺伊大学香槟分校(UIUC)与清华大学交叉信息研究院(IIIS)的一篇论文,2026 年 5 月 13 日挂上 arXiv,标题直接:《Useful Memories Become Faulty When Continuously Updated by LLMs》(有用的记忆在被 LLM 持续更新后会变坏)。通讯作者 Dylan Zhang 是 UIUC 在读博士,工作在 UIUC 完成。这篇论文做的事,是把这个免费午餐拿到显微镜下,证明它不仅不免费,还可能让 Agent 越用越笨。

记忆效用是一条抛物线,不是上升曲线
第一个发现,是记忆的效用曲线不是大家默认的那条单调上升线。
论文在 ScienceWorld 这个模拟科学实验环境里,每 4 条轨迹做一批记忆更新。得分在第 20 步左右见顶,然后一路下滑到第 100 步——所有记忆容量配置下都跌破了"完全不用记忆"的基线。前 20 步攒的经验确实有用,但继续攒,记忆开始反噬,攒到后面还不如一开始什么都不记。
WebShop 这个模拟网购环境里,用 AWM 方法的曲线更刺眼:8 个示例时成功率 0.64,128 个示例时掉到 0.20——而完全不用记忆的基线就是 0.20。喂了 128 条经验,记忆把自己积累的全部优势精确地抵消干净。
这条抛物线意味着,"用得越多记忆越好"这句产品宣传语,在数据面前是反的。记忆有一个甜区,过了甜区,每多喂一条经验都在做减法。问题是没人知道甜区在哪——它取决于任务、模型、更新调度,而生产环境里的 Agent 是不会自己停在第 20 步的。

错的不是经历,是重写这个动作
抛物线还能用"经验里混入了噪声"来解释——也许是 Agent 自己解错的题污染了记忆。论文把这个借口彻底堵死了。
它设计了一个最干净的对照:19 道 ARC-AGI 题(ARC-AGI 是一组考抽象推理的网格谜题,被广泛用来测"会不会举一反三"),GPT-5.4 在没有记忆时 100% 解对。然后每一步都把这些题的标准答案喂进记忆压缩流程——输入全是对的,没有任何噪声可言。
结果分叉了。Static 模式(把全部经历一次性压缩成记忆)在第 10 轮、第 50 轮都保持在 94.7%,基本贴着天花板。Stream 模式(每解一题就更新一次记忆,这正是真实 Agent 的工作方式)第 10 轮掉到 52.6%。论文据此说:在它原本就能解的题上,失败了约一半。
同样的轨迹池,喂进去的顺序和分批方式不同,产出的记忆质量天差地别——Stream 比一次性压缩低 17 到 38 个百分点。这个对照排除了"经历有问题"的所有可能。错的不是经历,是把对的答案反复重写压缩这个动作本身。论文的原话是:
"Each consolidation step is a lossy rewrite of the memory store: useful details are dropped, spurious rules are introduced, and once-helpful abstractions drift away from the underlying task structure." (每一次压缩都是对记忆库的有损重写:有用的细节被丢掉,伪规则被引入,曾经有用的抽象偏离了底层任务结构。)
为什么 Stream 比 Static 差这么多?因为流式更新里,早期的抽象会变成后续重写的输入。第一步的小偏差被当成上下文喂给第二步,第二步在偏差上再加偏差。每次重写都在重写上一次重写的产物,误差按复利滚大。
更值得工程师注意的是另一个对照:把原始轨迹原封不动当作上下文示例直接塞给模型(论文叫 episodic-only,不做任何跨轨迹抽象),在 ALFWorld、AppWorld、WebShop 上,这个"什么都不压缩"的笨办法已经能打平甚至超过 ACE、AWM、Dynamic Cheatsheet 这些精心设计的压缩器。被压缩掉的细节里,本来就藏着模型能直接用的信号。

三种坏法:分错组、管太宽、记死板
论文把记忆变坏的机理拆成三个,每个都有具体的记忆残片为证。
第一种是错分组。要从一组经历里抽出一条教训,前提是先把同类的经历归到一起。论文发现这个能力其实是有的——给 Agent 自主权,让它自己决定怎么管记忆,它在 71 步后能干净地把 6 类问题分开。但一旦强制它每一步都压缩,它就频繁地把不相干的问题类合并进同一条记忆。瓶颈不是认不出类别结构,是强制压缩这个动作压过了它本来能做对的分组。论文里有一条被污染的记忆条目,把"找围栏内的物体"和"按形状匹配做颜色标记"这两个根本不会同时出现的操作硬塞进了一条规则。
第二种是干扰。每次抽象都在把已有条目往更平滑、更概括的方向磨。磨过头,一条教训的适用前提就被磨没了,读起来像放之四海而皆准,其实不是。在 ALFWorld 里,一条给"拿了直接放"任务的教训,过泛化之后去误导"拿了要先清洗再放"的任务。在 ScienceWorld 的 15 任务切换序列里,每来一个新任务就并进同一个记忆库的做法(Cumulative),最终比每个任务单独记的做法(Fresh)落后 203 分;用 LLM 做裁判去标记每条记忆,Cumulative 累积过泛化记忆的速率约是 Fresh 的 5 倍,纯垃圾记忆约 20 倍,而且这两个差距随任务数单调拉大。
第三种是过拟合。前两种发生在输入变宽时,这种发生在输入变窄时。对同一道题反复重写记忆 50 轮,第 1 轮的记忆还写着"max size(最大尺寸)"——这是解题真正要算的那个具体属性。到第 50 轮,同一条记忆的措辞退化成"找出一个派生的逐物体数值属性的最大值"——属性的名字没了。它不再记得该最大化的到底是尺寸还是别的什么了。具体的、可计算的特征,被磨成了正确但没用的废话。这样的记忆在精确重复的题上还稳,碰到同一策略族里的简单变体就崩。
这三种坏法共同的根,是模型在自己生成抽象、又自己监控这个抽象的对错——既当运动员又当裁判,而这个裁判并不可靠。

盲区:这篇论文没说的
论文作者把边界写得很清楚,照搬过来比替他们辩护诚实。
测的全是文本类 Agent benchmark(ALFWorld、ScienceWorld、WebShop、AppWorld、Mind2Web)加一个自建的合成环境 ARC-AGI Stream。多模态、具身、工具密集的真实生产环境会不会出现同样的侵蚀,没测。
压缩器和解题器都是当前的 LLM(GPT-5.4 家族、Qwen3.5 家族)。所以这里的"压缩不可靠"反映的是这一代模型的能力,换更强的压缩器、或者专门为压缩做微调,结论可能松动。论文否定的是"每一步都强制重写"这个机制,不是抽象本身没价值。
因为 API 成本,论文报的是少量重复的点估计,没有正式误差棒。
还有一个论文自己点破的两难:纯靠保留原始经历(episodic-only)虽然在实验里稳,但不是长期答案——经历会无界增长,最终还是要压缩才能复用和迁移。这篇论文证明了现在的压缩方式是坏的,但没给出一个被验证过的、能长期跑的好压缩方式。它指了路,没修路。
对从业者意味着什么
这篇论文不是又一篇"记忆很重要"的综述,它是一个反例,反的恰好是现在被写进无数架构图的那个默认假设。
如果你在做 Agent 平台 / memory layer 选型:本周回去看你的记忆模块是不是"每次交互后自动更新"。论文里被点名的失败设计(CLIN、AWM、Dynamic Cheatsheet、ACE)共同点就是 update-after-every-interaction。这个开关该改成"默认保留原始经历,压缩显式触发并设闸"。论文在 ARC-AGI Stream 里给 Agent 加了保留 / 删除 / 压缩三个动作,让它自己决定要不要压——结果它本能地把原始经历缓冲填满、把抽象库保持稀疏,跑 400 步的累计成功率比强制每步压缩高出近一倍。
如果你是 Agent 产品经理:把"记忆越用越聪明"从产品话术里删掉,至少别当默认承诺。记忆有甜区,甜区之后是负收益,而你的用户不会停在甜区。给记忆加一个可观测的"质量是否还在涨"的监控,比加一个"已学习 N 条经验"的进度条有用得多。
如果你是 CTO 在做技术押注:评估任何靠"蒸馏经历"的记忆方案时,强制要求一个对照——把没压缩的原始 rollout 直接当上下文塞进去的笨基线。论文反复证明这个笨基线打平甚至超过精心设计的压缩器。如果一个记忆方案跑不赢它自己要压缩的原始数据,这个方案的价值是负的。
如果你是一线工程师:本周读这篇论文的 §5 和 Table 2。可落地的设计原则是 Complementary Learning Systems(互补学习系统,认知科学里大脑用快慢两套记忆的经典框架)——一个快速的原始经历存储 + 一个慢速的、按"是否真的契合已有结构"来 gate 的抽象存储,两者架构上分开,绝不塌进同一个重写循环。论文的决定性结论是:致命的不是抽象,是"每步强制重写"。
记忆是 Agent 长期能力的护城河,这个判断没错。错的是把"持续重写文本"当成挖这条护城河的免费铲子。论文最后一句说得直白:
"continuously updated textual memory should be treated not as a reliable engine of self-improvement, but as a fragile mechanism that can make more experience produce worse memory." (持续更新的文本记忆,不该被当作可靠的自我提升引擎,而该被当作一个会让"更多经历产出更差记忆"的脆弱机制。)
更多经历,更差记忆。这六个字,值得每个在架构图里画"记忆会自动变好"那个箭头的人,重新画一遍。
本期关键词
记忆压缩(Memory Consolidation) —— Agent 解完任务后,把完整操作轨迹蒸馏成一段可复用文字教训、存进记忆库、之后随新经历不断重写更新的机制。它的卖点是不改模型参数就能自我提升。这篇论文的核心发现是:这个"重写"动作每执行一次就是一次有损操作,重复执行会让记忆质量先升后降,最终跌破完全不用记忆的水平。
原始经历记忆(Episodic Memory) —— 直接保留 Agent 做过的事的原始轨迹(看到什么、做了什么、哪步失败、环境反馈),不做任何跨经历的抽象概括。与"压缩记忆"相对。论文的反直觉发现是:把原始轨迹原封不动当上下文示例喂给模型这个"笨办法",性能已经能打平甚至超过精心设计的压缩方法,因为被压掉的细节里本来就有可用信号。
ARC-AGI —— 一组用网格变换考抽象推理的谜题集,被广泛用来测模型"看几个例子能不能举一反三"的能力。论文用它做最干净的对照:GPT-5.4 无记忆时 100% 解对的 19 道题,喂标准答案做流式记忆压缩后正确率掉到 52.6%,由此证明问题出在压缩动作而非经历质量。
流式更新(Streaming Update) —— Agent 每解一道题就立刻更新一次记忆,而不是攒一批再一次性处理。这是真实 Agent 的工作方式。论文发现它比一次性压缩(Static)差 17 到 38 个百分点,原因是早期抽象会成为后续重写的输入,小误差按复利累积。
灾难性干扰(Catastrophic Interference) —— 学习新东西时把旧知识冲掉的现象,源自连接主义神经网络研究。这里的表现是:一条过度概括的教训会污染相邻任务,给"拿了直接放"的教训去误导"拿了要先洗"的任务。论文测得,累积式记忆积累过泛化条目的速率约是单任务记忆的 5 倍。
过拟合(Overfitting) —— 模型记住了训练样本的表面特征而非底层规律,碰到新样本就失效。在记忆语境里的具体形态是:对同一题反复重写 50 轮,"max size"这种可计算的具体属性被磨成"一个数值属性"这种正确但没用的废话,记忆在精确重复题上还行、同族变体上崩。
互补学习系统(Complementary Learning Systems, CLS) —— 认知科学解释大脑记忆的经典框架:一个快速的海马体系统存具体经历,一个慢速的新皮层系统抽取跨经历的模式,两套系统架构上分开,慢系统的抽取由"新证据是否契合已有结构"来 gate,而非每来一个事件就触发。论文把它作为修复方案的设计原则——快慢两个存储绝不塌进同一个重写循环。
update-after-every-interaction —— 每次交互后就自动更新记忆的设计模式。论文点名 CLIN、Agent Workflow Memory、Dynamic Cheatsheet、ACE 都采用这个设计,并把它判定为本文测得的决定性失败模式:致命的不是抽象本身,是把抽象强制绑在每一步上。
引用
- Useful Memories Become Faulty When Continuously Updated by LLMs —— 本期拆解原文(arXiv 2605.12978v1,UIUC + 清华 IIIS,2026-05-13)
- 论文项目页 —— 作者主页与图表交互版
- PDF 全文 —— 含 §5 缓解方案、Table 2、附录 D 案例研究
- AIHOT 转发源(Rohan Paul) —— 本期选题来源
引用关键英文原文与翻译: "even when consolidating from ground-truth solutions, GPT-5.4 fails on 54% of a set of ARC-AGI problems it had previously solved without memory."(即使从标准答案做压缩,GPT-5.4 在一组它原本无记忆就能解的 ARC-AGI 题上也失败了 54%。) "robust agent memory should treat raw episodes as first-class evidence and gate consolidation explicitly rather than firing it after every interaction."(稳健的 Agent 记忆应把原始经历当作一等证据,显式地为压缩设闸,而不是每次交互后就触发它。)