2026 年 05 月 13 日· Dylan Zhang, Hao Peng et al. (UIUC / 清华 IIIS)decode

记忆越改越坏：自进化 Agent 的压缩陷阱

Agent记忆LLM研究memory-consolidationARC-AGI自进化Agent

播客版

给一个 Agent 19 道题，它在没有任何记忆的情况下全做对，100%。然后把这 19 道题连同标准答案，一题一题喂进它的记忆系统，让它把每次经历总结成可复用的教训。第十轮再考同样 19 道题，正确率 52.6%。

数据没变，题没变，答案是对的。变的只有一件事：它建立了记忆。

一个被当成免费午餐的配方

过去一年，"自进化 Agent"是 Agent 领域最被看好的方向之一。配方很简单，也很诱人：Agent 解完一道题，把这次的完整操作轨迹蒸馏成一段文字教训，存进一个文本记忆库；遇到类似问题时检索出来用；用得越多，记忆越精炼。CLIN、Agent Workflow Memory（AWM）、Dynamic Cheatsheet、ACE 这些 2024 到 2026 年被反复引用的记忆系统，走的都是这条路。

这个配方诱人，是因为它绕开了最贵的环节。让模型变聪明的标准做法是改参数——微调、蒸馏、强化学习，每一步都烧算力和数据。而文本记忆承诺的是：不碰一个参数，光靠把经历写成文字、再不断重写，Agent 就能自我提升。Anthropic 的 Memory Store、各家厂商的 memory layer 产品，底层都押注同一个假设——记忆会越用越好。

伊利诺伊大学香槟分校（UIUC）与清华大学交叉信息研究院（IIIS）的一篇论文，2026 年 5 月 13 日挂上 arXiv，标题直接：《Useful Memories Become Faulty When Continuously Updated by LLMs》（有用的记忆在被 LLM 持续更新后会变坏）。通讯作者 Dylan Zhang 是 UIUC 在读博士，工作在 UIUC 完成。这篇论文做的事，是把这个免费午餐拿到显微镜下，证明它不仅不免费，还可能让 Agent 越用越笨。

记忆效用是一条抛物线，不是上升曲线

第一个发现，是记忆的效用曲线不是大家默认的那条单调上升线。

论文在 ScienceWorld 这个模拟科学实验环境里，每 4 条轨迹做一批记忆更新。得分在第 20 步左右见顶，然后一路下滑到第 100 步——所有记忆容量配置下都跌破了"完全不用记忆"的基线。前 20 步攒的经验确实有用，但继续攒，记忆开始反噬，攒到后面还不如一开始什么都不记。

WebShop 这个模拟网购环境里，用 AWM 方法的曲线更刺眼：8 个示例时成功率 0.64，128 个示例时掉到 0.20——而完全不用记忆的基线就是 0.20。喂了 128 条经验，记忆把自己积累的全部优势精确地抵消干净。

这条抛物线意味着，"用得越多记忆越好"这句产品宣传语，在数据面前是反的。记忆有一个甜区，过了甜区，每多喂一条经验都在做减法。问题是没人知道甜区在哪——它取决于任务、模型、更新调度，而生产环境里的 Agent 是不会自己停在第 20 步的。

错的不是经历，是重写这个动作

抛物线还能用"经验里混入了噪声"来解释——也许是 Agent 自己解错的题污染了记忆。论文把这个借口彻底堵死了。

它设计了一个最干净的对照：19 道 ARC-AGI 题（ARC-AGI 是一组考抽象推理的网格谜题，被广泛用来测"会不会举一反三"），GPT-5.4 在没有记忆时 100% 解对。然后每一步都把这些题的标准答案喂进记忆压缩流程——输入全是对的，没有任何噪声可言。

结果分叉了。Static 模式（把全部经历一次性压缩成记忆）在第 10 轮、第 50 轮都保持在 94.7%，基本贴着天花板。Stream 模式（每解一题就更新一次记忆，这正是真实 Agent 的工作方式）第 10 轮掉到 52.6%。论文据此说：在它原本就能解的题上，失败了约一半。

同样的轨迹池，喂进去的顺序和分批方式不同，产出的记忆质量天差地别——Stream 比一次性压缩低 17 到 38 个百分点。这个对照排除了"经历有问题"的所有可能。错的不是经历，是把对的答案反复重写压缩这个动作本身。论文的原话是：

"Each consolidation step is a lossy rewrite of the memory store: useful details are dropped, spurious rules are introduced, and once-helpful abstractions drift away from the underlying task structure." （每一次压缩都是对记忆库的有损重写：有用的细节被丢掉，伪规则被引入，曾经有用的抽象偏离了底层任务结构。）

为什么 Stream 比 Static 差这么多？因为流式更新里，早期的抽象会变成后续重写的输入。第一步的小偏差被当成上下文喂给第二步，第二步在偏差上再加偏差。每次重写都在重写上一次重写的产物，误差按复利滚大。

更值得工程师注意的是另一个对照：把原始轨迹原封不动当作上下文示例直接塞给模型（论文叫 episodic-only，不做任何跨轨迹抽象），在 ALFWorld、AppWorld、WebShop 上，这个"什么都不压缩"的笨办法已经能打平甚至超过 ACE、AWM、Dynamic Cheatsheet 这些精心设计的压缩器。被压缩掉的细节里，本来就藏着模型能直接用的信号。

三种坏法：分错组、管太宽、记死板

论文把记忆变坏的机理拆成三个，每个都有具体的记忆残片为证。

第一种是错分组。要从一组经历里抽出一条教训，前提是先把同类的经历归到一起。论文发现这个能力其实是有的——给 Agent 自主权，让它自己决定怎么管记忆，它在 71 步后能干净地把 6 类问题分开。但一旦强制它每一步都压缩，它就频繁地把不相干的问题类合并进同一条记忆。瓶颈不是认不出类别结构，是强制压缩这个动作压过了它本来能做对的分组。论文里有一条被污染的记忆条目，把"找围栏内的物体"和"按形状匹配做颜色标记"这两个根本不会同时出现的操作硬塞进了一条规则。

第二种是干扰。每次抽象都在把已有条目往更平滑、更概括的方向磨。磨过头，一条教训的适用前提就被磨没了，读起来像放之四海而皆准，其实不是。在 ALFWorld 里，一条给"拿了直接放"任务的教训，过泛化之后去误导"拿了要先清洗再放"的任务。在 ScienceWorld 的 15 任务切换序列里，每来一个新任务就并进同一个记忆库的做法（Cumulative），最终比每个任务单独记的做法（Fresh）落后 203 分；用 LLM 做裁判去标记每条记忆，Cumulative 累积过泛化记忆的速率约是 Fresh 的 5 倍，纯垃圾记忆约 20 倍，而且这两个差距随任务数单调拉大。

第三种是过拟合。前两种发生在输入变宽时，这种发生在输入变窄时。对同一道题反复重写记忆 50 轮，第 1 轮的记忆还写着"max size（最大尺寸）"——这是解题真正要算的那个具体属性。到第 50 轮，同一条记忆的措辞退化成"找出一个派生的逐物体数值属性的最大值"——属性的名字没了。它不再记得该最大化的到底是尺寸还是别的什么了。具体的、可计算的特征，被磨成了正确但没用的废话。这样的记忆在精确重复的题上还稳，碰到同一策略族里的简单变体就崩。

这三种坏法共同的根，是模型在自己生成抽象、又自己监控这个抽象的对错——既当运动员又当裁判，而这个裁判并不可靠。

盲区：这篇论文没说的

论文作者把边界写得很清楚，照搬过来比替他们辩护诚实。

测的全是文本类 Agent benchmark（ALFWorld、ScienceWorld、WebShop、AppWorld、Mind2Web）加一个自建的合成环境 ARC-AGI Stream。多模态、具身、工具密集的真实生产环境会不会出现同样的侵蚀，没测。

压缩器和解题器都是当前的 LLM（GPT-5.4 家族、Qwen3.5 家族）。所以这里的"压缩不可靠"反映的是这一代模型的能力，换更强的压缩器、或者专门为压缩做微调，结论可能松动。论文否定的是"每一步都强制重写"这个机制，不是抽象本身没价值。

因为 API 成本，论文报的是少量重复的点估计，没有正式误差棒。

还有一个论文自己点破的两难：纯靠保留原始经历（episodic-only）虽然在实验里稳，但不是长期答案——经历会无界增长，最终还是要压缩才能复用和迁移。这篇论文证明了现在的压缩方式是坏的，但没给出一个被验证过的、能长期跑的好压缩方式。它指了路，没修路。

对从业者意味着什么

这篇论文不是又一篇"记忆很重要"的综述，它是一个反例，反的恰好是现在被写进无数架构图的那个默认假设。

如果你在做 Agent 平台 / memory layer 选型：本周回去看你的记忆模块是不是"每次交互后自动更新"。论文里被点名的失败设计（CLIN、AWM、Dynamic Cheatsheet、ACE）共同点就是 update-after-every-interaction。这个开关该改成"默认保留原始经历，压缩显式触发并设闸"。论文在 ARC-AGI Stream 里给 Agent 加了保留 / 删除 / 压缩三个动作，让它自己决定要不要压——结果它本能地把原始经历缓冲填满、把抽象库保持稀疏，跑 400 步的累计成功率比强制每步压缩高出近一倍。

如果你是 Agent 产品经理：把"记忆越用越聪明"从产品话术里删掉，至少别当默认承诺。记忆有甜区，甜区之后是负收益，而你的用户不会停在甜区。给记忆加一个可观测的"质量是否还在涨"的监控，比加一个"已学习 N 条经验"的进度条有用得多。

如果你是 CTO 在做技术押注：评估任何靠"蒸馏经历"的记忆方案时，强制要求一个对照——把没压缩的原始 rollout 直接当上下文塞进去的笨基线。论文反复证明这个笨基线打平甚至超过精心设计的压缩器。如果一个记忆方案跑不赢它自己要压缩的原始数据，这个方案的价值是负的。

如果你是一线工程师：本周读这篇论文的 §5 和 Table 2。可落地的设计原则是 Complementary Learning Systems（互补学习系统，认知科学里大脑用快慢两套记忆的经典框架）——一个快速的原始经历存储 + 一个慢速的、按"是否真的契合已有结构"来 gate 的抽象存储，两者架构上分开，绝不塌进同一个重写循环。论文的决定性结论是：致命的不是抽象，是"每步强制重写"。

记忆是 Agent 长期能力的护城河，这个判断没错。错的是把"持续重写文本"当成挖这条护城河的免费铲子。论文最后一句说得直白：

"continuously updated textual memory should be treated not as a reliable engine of self-improvement, but as a fragile mechanism that can make more experience produce worse memory." （持续更新的文本记忆，不该被当作可靠的自我提升引擎，而该被当作一个会让"更多经历产出更差记忆"的脆弱机制。）

更多经历，更差记忆。这六个字，值得每个在架构图里画"记忆会自动变好"那个箭头的人，重新画一遍。

本期关键词

记忆压缩（Memory Consolidation） —— Agent 解完任务后，把完整操作轨迹蒸馏成一段可复用文字教训、存进记忆库、之后随新经历不断重写更新的机制。它的卖点是不改模型参数就能自我提升。这篇论文的核心发现是：这个"重写"动作每执行一次就是一次有损操作，重复执行会让记忆质量先升后降，最终跌破完全不用记忆的水平。

原始经历记忆（Episodic Memory） —— 直接保留 Agent 做过的事的原始轨迹（看到什么、做了什么、哪步失败、环境反馈），不做任何跨经历的抽象概括。与"压缩记忆"相对。论文的反直觉发现是：把原始轨迹原封不动当上下文示例喂给模型这个"笨办法"，性能已经能打平甚至超过精心设计的压缩方法，因为被压掉的细节里本来就有可用信号。

ARC-AGI —— 一组用网格变换考抽象推理的谜题集，被广泛用来测模型"看几个例子能不能举一反三"的能力。论文用它做最干净的对照：GPT-5.4 无记忆时 100% 解对的 19 道题，喂标准答案做流式记忆压缩后正确率掉到 52.6%，由此证明问题出在压缩动作而非经历质量。

流式更新（Streaming Update） —— Agent 每解一道题就立刻更新一次记忆，而不是攒一批再一次性处理。这是真实 Agent 的工作方式。论文发现它比一次性压缩（Static）差 17 到 38 个百分点，原因是早期抽象会成为后续重写的输入，小误差按复利累积。

灾难性干扰（Catastrophic Interference） —— 学习新东西时把旧知识冲掉的现象，源自连接主义神经网络研究。这里的表现是：一条过度概括的教训会污染相邻任务，给"拿了直接放"的教训去误导"拿了要先洗"的任务。论文测得，累积式记忆积累过泛化条目的速率约是单任务记忆的 5 倍。

过拟合（Overfitting） —— 模型记住了训练样本的表面特征而非底层规律，碰到新样本就失效。在记忆语境里的具体形态是：对同一题反复重写 50 轮，"max size"这种可计算的具体属性被磨成"一个数值属性"这种正确但没用的废话，记忆在精确重复题上还行、同族变体上崩。

互补学习系统（Complementary Learning Systems, CLS） —— 认知科学解释大脑记忆的经典框架：一个快速的海马体系统存具体经历，一个慢速的新皮层系统抽取跨经历的模式，两套系统架构上分开，慢系统的抽取由"新证据是否契合已有结构"来 gate，而非每来一个事件就触发。论文把它作为修复方案的设计原则——快慢两个存储绝不塌进同一个重写循环。

update-after-every-interaction —— 每次交互后就自动更新记忆的设计模式。论文点名 CLIN、Agent Workflow Memory、Dynamic Cheatsheet、ACE 都采用这个设计，并把它判定为本文测得的决定性失败模式：致命的不是抽象本身，是把抽象强制绑在每一步上。

引用

Useful Memories Become Faulty When Continuously Updated by LLMs —— 本期拆解原文（arXiv 2605.12978v1，UIUC + 清华 IIIS，2026-05-13）
论文项目页 —— 作者主页与图表交互版
PDF 全文 —— 含 §5 缓解方案、Table 2、附录 D 案例研究
AIHOT 转发源（Rohan Paul） —— 本期选题来源

引用关键英文原文与翻译： "even when consolidating from ground-truth solutions, GPT-5.4 fails on 54% of a set of ARC-AGI problems it had previously solved without memory."（即使从标准答案做压缩，GPT-5.4 在一组它原本无记忆就能解的 ARC-AGI 题上也失败了 54%。） "robust agent memory should treat raw episodes as first-class evidence and gate consolidation explicitly rather than firing it after every interaction."（稳健的 Agent 记忆应把原始经历当作一等证据，显式地为压缩设闸，而不是每次交互后就触发它。）