牛津大学等提出Memo：Transformer强化学习记忆效率提升10倍，具身智能体泛化能力更强！-人工智能技术与咨询

牛津大学等提出Memo：Transformer强化学习记忆效率提升10倍，具身智能体泛化能力更强！

2025-11-14 18:02:3787浏览

源自：我爱计算机视觉

论文标题: Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning
作者: Gunshi Gupta, Karmesh Yadav, Zsolt Kira, Yarin Gal, Rahaf Aljundi
机构: 牛津大学（University of Oxford）；佐治亚理工学院（Georgia Tech University）；丰田欧洲（Toyota Europe）
会议/期刊: Accepted for Spotlight Presentation at NeurIPS 2025
论文地址: https://arxiv.org/abs/2510.19732

研究背景与动机

在具身智能体领域，让智能体在长时间内有效运行，并能形成和访问记忆以保持对环境的上下文理解，是至关重要的。想象一下，一个机器人需要在复杂的环境中完成一系列任务，它需要记住之前看到的东西、做过的事情，才能更好地规划下一步。然而，当前基于Transformer的策略在处理具身序列决策任务时，面临一个巨大的挑战：视觉输入往往会迅速超出Transformer的上下文限制。人类可以压缩并利用一生的经验作为记忆，而Transformer却难以处理海量的原始输入。

现有的方法大多集中在固定大小记忆的循环模型，或者完全依赖完整上下文的Transformer。这些方法在处理长时序任务时，往往会遇到计算和存储效率低下的问题，尤其是在推理阶段，需要截断历史上下文以适应计算约束。因此，如何让Transformer在保持其强大建模能力的同时，也能高效地处理和利用长期记忆，成为了一个亟待解决的问题。

Memo：记忆高效的Transformer强化学习架构

为了解决上述挑战，研究团队提出了 Memo，一个专为记忆密集型、长时序任务设计的Transformer强化学习架构和训练方案。 Memo 的核心思想是通过在训练过程中，周期性地在模型输入中插入摘要令牌（summarization tokens），从而实现记忆的创建和检索。

核心方法：记忆的创建与检索

Memo 的工作原理可以概括为：将连续的输入序列分割成多个段（segments），并在每个段的末尾生成一个摘要令牌。这个摘要令牌会捕获当前段的关键信息，并作为下一个段的“记忆”输入。这样，Transformer在处理后续输入时，就不需要回顾整个历史上下文，而只需要关注当前的输入和前一个摘要令牌所代表的记忆。

图1展示了 Memo 的架构图。我们可以看到，输入观测（O1-3lseg）被分成多个段，每个段结束后会生成一个摘要令牌，这个令牌将信息从一个输入块传递到下一个输入块，形成一个信息瓶颈，从而实现记忆的压缩。

这种机制使得 Memo 能够在保持上下文理解的同时，显著降低对计算和存储资源的需求。它有效地将大量原始输入压缩成更紧凑的记忆表示，从而让Transformer能够处理更长的任务序列。

实验设计与结果分析

研究团队在多个基准任务上验证了 Memo 的有效性，包括网格世界元强化学习基准（gridworld meta-RL benchmark）和在逼真室内环境中的多对象导航任务（multi-object navigation task）。

多对象导航任务表现优异

在Habitat模拟器中的多对象导航任务（EXTOBJNAV）中，智能体需要在房屋周围放置多个物体，并在每次达到目标后采样一个新的目标物体。

图2展示了在EXTOBJNAV任务中，不同方法在32k上下文学习步骤中的成功率和SPL曲线。我们可以清楚地看到，Memo 在性能上显著优于朴素的长上下文Transformer基线（FCT）、不关注前一回合的FCT变体（no IEA）、循环记忆Transformer（RMT）以及Autocompressors（AC）变体。这表明 Memo 不仅能够有效地处理长时序任务，而且在复杂环境中表现出更强的泛化能力。

记忆效率显著提升

Memo 在计算和存储效率方面也展现出显著优势。

表1对比了 Memo 和全上下文Transformer（FCT）在EXTOBJNAV任务评估结束时（32k步）的GPU内存使用情况。结果显示，FCT的KV缓存内存需求是 Memo 的 10倍 之高，这与 Memo 的上下文压缩比（约8倍）相符。这意味着 Memo 能够以更少的资源实现更好的性能，这对于实际部署具身智能体具有重要意义。

泛化能力与流式推理鲁棒性

Memo 在推理时对更长上下文的泛化能力更强，并且在流式设置中保持鲁棒性，即使历史上下文需要截断以适应推理约束。

图3 (a) 展示了在Dark-Key-To-Door任务上的结果，Memo 同样表现出色。图3 (b) 则进一步比较了 Memo 和AC变体在EXTOBJNAV上的表现。

图4 (a) 对比了 Memo 和Transformer的流式评估，Memo 在这种场景下展现出更强的鲁棒性。

消融实验

研究团队还进行了详细的消融实验，以理解 Memo 各个组件的作用。

图5 (左) 探讨了不同数量记忆令牌（16/32/64）对性能的影响，结果显示32个令牌的表现优于16个，而16个又优于64个。这表明记忆令牌的数量需要仔细权衡。图5 (右) 则比较了随机和固定段长度的摘要生成方式，结果表明随机段长度在数据效率上显著更高。

图8进一步展示了 Memo 中摘要生成过程的消融研究。

图9展示了 Memo 消融实验在EXTOBJNAV上的训练-验证差距。

总结

通过引入周期性摘要令牌，它巧妙地平衡了Transformer的强大建模能力和记忆效率的需求。这种方法不仅在性能上超越了现有基线，更在计算和存储资源上实现了显著优化，这对于未来具身智能体的实际部署具有重要的推动作用。尤其是在流式推理场景下的鲁棒性，更是让 Memo 在现实世界应用中充满了潜力。