- 论文标题: Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning
- 作者: Gunshi Gupta, Karmesh Yadav, Zsolt Kira, Yarin Gal, Rahaf Aljundi
- 机构: 牛津大学(University of Oxford);佐治亚理工学院(Georgia Tech University);丰田欧洲(Toyota Europe)
- 会议/期刊: Accepted for Spotlight Presentation at NeurIPS 2025
- 论文地址: https://arxiv.org/abs/2510.19732
研究背景与动机
在具身智能体领域,让智能体在长时间内有效运行,并能形成和访问记忆以保持对环境的上下文理解,是至关重要的。想象一下,一个机器人需要在复杂的环境中完成一系列任务,它需要记住之前看到的东西、做过的事情,才能更好地规划下一步。然而,当前基于Transformer的策略在处理具身序列决策任务时,面临一个巨大的挑战:视觉输入往往会迅速超出Transformer的上下文限制。人类可以压缩并利用一生的经验作为记忆,而Transformer却难以处理海量的原始输入。
现有的方法大多集中在固定大小记忆的循环模型,或者完全依赖完整上下文的Transformer。这些方法在处理长时序任务时,往往会遇到计算和存储效率低下的问题,尤其是在推理阶段,需要截断历史上下文以适应计算约束。因此,如何让Transformer在保持其强大建模能力的同时,也能高效地处理和利用长期记忆,成为了一个亟待解决的问题。
Memo:记忆高效的Transformer强化学习架构
为了解决上述挑战,研究团队提出了 Memo,一个专为记忆密集型、长时序任务设计的Transformer强化学习架构和训练方案。 Memo 的核心思想是通过在训练过程中,周期性地在模型输入中插入摘要令牌(summarization tokens),从而实现记忆的创建和检索。
核心方法:记忆的创建与检索
Memo 的工作原理可以概括为:将连续的输入序列分割成多个段(segments),并在每个段的末尾生成一个摘要令牌。这个摘要令牌会捕获当前段的关键信息,并作为下一个段的“记忆”输入。这样,Transformer在处理后续输入时,就不需要回顾整个历史上下文,而只需要关注当前的输入和前一个摘要令牌所代表的记忆。
图1展示了 Memo 的架构图。我们可以看到,输入观测(O1-3lseg)被分成多个段,每个段结束后会生成一个摘要令牌,这个令牌将信息从一个输入块传递到下一个输入块,形成一个信息瓶颈,从而实现记忆的压缩。
这种机制使得 Memo 能够在保持上下文理解的同时,显著降低对计算和存储资源的需求。它有效地将大量原始输入压缩成更紧凑的记忆表示,从而让Transformer能够处理更长的任务序列。
实验设计与结果分析
研究团队在多个基准任务上验证了 Memo 的有效性,包括网格世界元强化学习基准(gridworld meta-RL benchmark)和在逼真室内环境中的多对象导航任务(multi-object navigation task)。
多对象导航任务表现优异
在Habitat模拟器中的多对象导航任务(EXTOBJNAV)中,智能体需要在房屋周围放置多个物体,并在每次达到目标后采样一个新的目标物体。
图2展示了在EXTOBJNAV任务中,不同方法在32k上下文学习步骤中的成功率和SPL曲线。我们可以清楚地看到,Memo 在性能上显著优于朴素的长上下文Transformer基线(FCT)、不关注前一回合的FCT变体(no IEA)、循环记忆Transformer(RMT)以及Autocompressors(AC)变体。这表明 Memo 不仅能够有效地处理长时序任务,而且在复杂环境中表现出更强的泛化能力。
记忆效率显著提升
Memo 在计算和存储效率方面也展现出显著优势。
表1对比了 Memo 和全上下文Transformer(FCT)在EXTOBJNAV任务评估结束时(32k步)的GPU内存使用情况。结果显示,FCT的KV缓存内存需求是 Memo 的 10倍 之高,这与 Memo 的上下文压缩比(约8倍)相符。这意味着 Memo 能够以更少的资源实现更好的性能,这对于实际部署具身智能体具有重要意义。
泛化能力与流式推理鲁棒性
Memo 在推理时对更长上下文的泛化能力更强,并且在流式设置中保持鲁棒性,即使历史上下文需要截断以适应推理约束。
图3 (a) 展示了在Dark-Key-To-Door任务上的结果,Memo 同样表现出色。图3 (b) 则进一步比较了 Memo 和AC变体在EXTOBJNAV上的表现。
图4 (a) 对比了 Memo 和Transformer的流式评估,Memo 在这种场景下展现出更强的鲁棒性。
消融实验
研究团队还进行了详细的消融实验,以理解 Memo 各个组件的作用。
图5 (左) 探讨了不同数量记忆令牌(16/32/64)对性能的影响,结果显示32个令牌的表现优于16个,而16个又优于64个。这表明记忆令牌的数量需要仔细权衡。图5 (右) 则比较了随机和固定段长度的摘要生成方式,结果表明随机段长度在数据效率上显著更高。
图8进一步展示了 Memo 中摘要生成过程的消融研究。
图9展示了 Memo 消融实验在EXTOBJNAV上的训练-验证差距。
总结
通过引入周期性摘要令牌,它巧妙地平衡了Transformer的强大建模能力和记忆效率的需求。这种方法不仅在性能上超越了现有基线,更在计算和存储资源上实现了显著优化,这对于未来具身智能体的实际部署具有重要的推动作用。尤其是在流式推理场景下的鲁棒性,更是让 Memo 在现实世界应用中充满了潜力。