经典之作！Agent无需奖励也能学习：通过“早期经验”的Agent Learning-人工智能技术与咨询

经典之作！Agent无需奖励也能学习：通过“早期经验”的Agent Learning

2025-11-20 17:31:4678浏览

源自：深度学习自然语言处理

近年来，语言智能体（Language Agents）已成为人工智能领域的热点，它们能够通过自然语言与复杂环境交互，完成网页导航、工具使用、科学实验等任务。然而，如何高效训练这些智能体仍是一个巨大挑战。当前主流方法有两种：一是模仿学习（Imitation Learning），通过模仿专家示范数据来训练，但这种方式依赖高质量数据，且智能体无法从自身错误中学习；二是强化学习（Reinforcement Learning），通过环境奖励信号优化行为，但许多真实环境缺乏明确奖励，或任务周期过长导致训练低效。

论文：Agent Learning via Early Experience
链接：https://arxiv.org/pdf/2510.08558

这篇论文提出了一种名为“早期经验”（Early Experience）的新范式，旨在填补模仿学习与强化学习之间的空白。其核心思想是：智能体通过执行自身动作并观察结果状态，从中学习，无需外部奖励信号。这不仅降低了数据依赖，还提升了智能体的泛化能力和鲁棒性。论文通过八种不同环境的实验证明，早期经验能显著提高任务成功率、领域外泛化能力，并为后续强化学习提供更好的初始化模型。

研究动机与核心问题

模仿学习的缺陷
模仿学习依赖于专家提供的示范数据，智能体通过模仿这些数据来学习行动策略。但这种方式存在明显问题：

专家数据覆盖范围有限，无法涵盖所有可能的环境状态。
智能体在遇到陌生状态时容易出错，且无法从错误中恢复，因为它从未见过非专家动作的后果。
高质量专家数据获取成本高，难以规模化。

强化学习的瓶颈
强化学习通过奖励信号引导智能体学习，但在许多现实环境中：

奖励信号可能完全缺失（例如在开放式的网页导航中）。
奖励可能稀疏或延迟，导致训练效率低下（例如在多步工具使用任务中）。
强化学习训练不稳定，需要复杂的奖励设计和大量计算资源。

早期经验作为中间路径
早期经验范式让智能体在专家数据的基础上，自主探索环境，执行非专家动作，并观察结果状态。这些状态变化本身成为监督信号，帮助智能体理解环境动态和自身行为的后果。这种方法既不需要奖励信号，又能突破专家数据的局限性，为智能体提供更丰富的学习经验。

早期经验范式详解

基本概念与数据收集流程
早期经验的核心是让智能体在专家轨迹的每个状态上，采样多个替代动作（即“分支”），执行这些动作并记录结果状态。例如，在预订机票的任务中，智能体不仅学习专家如何正确填写表单，还会尝试错误操作（如输入无效日期），并观察系统返回的错误信息。这些经验被组织成以下数据集：

专家数据集 : 包含状态-专家动作对。
滚动数据集 : 包含状态-替代动作-结果状态三元组。

隐式世界建模（Implicit World Modeling）
隐式世界建模将结果状态预测作为辅助任务，训练智能体理解环境动态。具体来说，模型输入当前状态和动作，学习预测下一个状态。例如，在网页导航中，模型学习预测点击某个按钮后页面会如何变化。

训练目标通过以下损失函数实现：

其中，是语言模型的输出分布，是模型参数。这个公式的本质是让模型学会根据当前状态和动作，预测环境的下一个状态。通过这种方式，模型内部形成了对环境动态的“隐式理解”，从而在决策时能更好地预见后果。

自我反思（Self-Reflection）
自我反思方法要求智能体对比专家动作与替代动作，并生成自然语言解释，说明为什么专家动作更优。例如，在购物任务中，若专家动作是选择低价商品，而替代动作选择了高价商品，模型会生成反思：“高价商品超出预算约束，而低价商品满足要求。”

训练目标通过以下损失函数实现：

其中，是针对替代动作生成的反思文本。模型同时学习生成反思和专家动作，从而内化决策逻辑。

两种方法共享同一原则：将智能体自身行动的结果转化为监督信号，无需外部奖励。

实验设置与评估

多样化环境与任务介绍
论文在八种不同环境中评估早期经验，涵盖三大类任务：

实体导航与科学模拟：如ALFWorld（家庭任务）、ScienceWorld（科学实验）。
多步工具使用：如BFCLv3（函数调用）、Tau-Bench（客户服务）。
网页导航：如WebShop（在线购物）、WebArena（多网站任务）。

这些环境在动作空间和观察复杂度上差异显著，充分测试了方法的通用性。

模型与数据集配置
实验使用三种不同规模的模型：Llama-3.2-3B、Qwen-2.5-7B 和 Llama-3.1-8B。专家数据来自人类标注或高性能模型生成的轨迹。训练时，早期经验方法与模仿学习使用相同的优化步数，确保公平比较。

主要实验结果
早期经验在几乎所有环境和模型规模上均优于纯模仿学习：

任务效果提升：平均绝对成功率提升 +9.6% 。例如，在WebShop任务中，隐式世界建模将成功率从47.3%提升至58.6%。
领域外泛化：平均绝对提升 +9.4% 。在ALFWorld和SearchQA等任务中，早期经验能有效应对未见过状态。
强化学习预热：在后续强化学习阶段，以早期经验模型为起点，最终性能提升高达 +6.4% 。

以下图表展示了部分关键结果：

该表对比了八种环境中不同方法的成功率，显示早期经验方法（IWM和SR）在多数任务中显著优于模仿学习。

该图展示了在强化学习阶段，以早期经验模型为起点的性能优势，表明早期经验为后续强化学习提供了更优的初始化。

深入分析与讨论

与基线方法对比
论文对比了早期经验与两种替代方法：

长链推理（Long CoT）：在推理时强制模型生成更长推理链，但效果有限，且容易产生无效动作。
STaR风格数据：通过模型生成推理文本，但未与环境交互，导致反思缺乏真实性。

实验表明，早期经验通过真实环境交互提供的“接地气”监督，显著优于这些方法。

数据量与分支因子的影响

数据量缩放：即使仅使用1/8的专家数据，早期经验也能达到或超过纯模仿学习使用全量数据的性能。
分支因子（K）：隐式世界建模受益于更大的K（更多替代动作），而自我反思在K=2~4时效果最佳，过大的K可能导致反思质量下降。

该图展示了数据量和分支因子对性能的影响，验证了早期经验的高效性和鲁棒性。

模型缩放
早期经验在不同规模模型（从3B到70B）上均有效，表明其是一种与模型规模无关的通用方法。

该图显示，即使在70B参数模型上，早期经验仍能持续提升性能，证明其监督信号与模型能力互补。

局限性及未来方向

当前方法侧重于短视距任务，长视距信用分配问题尚未解决。
未来可探索跨环境迁移、与奖励微调结合，以及更丰富的自监督目标。

结论

论文提出了“早期经验”这一创新范式，通过将智能体自身行动的结果转化为监督信号，实现了无奖励学习。隐式世界建模和自我反思两种方法在八种多样化环境中均表现出色，显著提升了任务效果、泛化能力和强化学习预热性能。这一研究不仅为语言智能体的训练提供了实用桥梁，也为迈向“经验驱动”的智能体时代奠定了坚实基础。