近年来,语言智能体(Language Agents)已成为人工智能领域的热点,它们能够通过自然语言与复杂环境交互,完成网页导航、工具使用、科学实验等任务。然而,如何高效训练这些智能体仍是一个巨大挑战。当前主流方法有两种:一是模仿学习(Imitation Learning),通过模仿专家示范数据来训练,但这种方式依赖高质量数据,且智能体无法从自身错误中学习;二是强化学习(Reinforcement Learning),通过环境奖励信号优化行为,但许多真实环境缺乏明确奖励,或任务周期过长导致训练低效。
- 论文:Agent Learning via Early Experience
- 链接:https://arxiv.org/pdf/2510.08558
这篇论文提出了一种名为“早期经验”(Early Experience)的新范式,旨在填补模仿学习与强化学习之间的空白。其核心思想是:智能体通过执行自身动作并观察结果状态,从中学习,无需外部奖励信号。这不仅降低了数据依赖,还提升了智能体的泛化能力和鲁棒性。论文通过八种不同环境的实验证明,早期经验能显著提高任务成功率、领域外泛化能力,并为后续强化学习提供更好的初始化模型。
研究动机与核心问题
模仿学习的缺陷
模仿学习依赖于专家提供的示范数据,智能体通过模仿这些数据来学习行动策略。但这种方式存在明显问题:
- 专家数据覆盖范围有限,无法涵盖所有可能的环境状态。
- 智能体在遇到陌生状态时容易出错,且无法从错误中恢复,因为它从未见过非专家动作的后果。
- 高质量专家数据获取成本高,难以规模化。
强化学习的瓶颈
强化学习通过奖励信号引导智能体学习,但在许多现实环境中:
- 奖励信号可能完全缺失(例如在开放式的网页导航中)。
- 奖励可能稀疏或延迟,导致训练效率低下(例如在多步工具使用任务中)。
- 强化学习训练不稳定,需要复杂的奖励设计和大量计算资源。
早期经验作为中间路径
早期经验范式让智能体在专家数据的基础上,自主探索环境,执行非专家动作,并观察结果状态。这些状态变化本身成为监督信号,帮助智能体理解环境动态和自身行为的后果。这种方法既不需要奖励信号,又能突破专家数据的局限性,为智能体提供更丰富的学习经验。
早期经验范式详解
基本概念与数据收集流程
早期经验的核心是让智能体在专家轨迹的每个状态上,采样多个替代动作(即“分支”),执行这些动作并记录结果状态。例如,在预订机票的任务中,智能体不仅学习专家如何正确填写表单,还会尝试错误操作(如输入无效日期),并观察系统返回的错误信息。这些经验被组织成以下数据集:
- 专家数据集 : 包含状态-专家动作对 。
- 滚动数据集 : 包含状态-替代动作-结果状态三元组 。
隐式世界建模(Implicit World Modeling)
隐式世界建模将结果状态预测作为辅助任务,训练智能体理解环境动态。具体来说,模型输入当前状态和动作,学习预测下一个状态。例如,在网页导航中,模型学习预测点击某个按钮后页面会如何变化。
训练目标通过以下损失函数实现:
其中, 是语言模型的输出分布, 是模型参数。这个公式的本质是让模型学会根据当前状态和动作,预测环境的下一个状态。通过这种方式,模型内部形成了对环境动态的“隐式理解”,从而在决策时能更好地预见后果。
自我反思(Self-Reflection)
自我反思方法要求智能体对比专家动作与替代动作,并生成自然语言解释,说明为什么专家动作更优。例如,在购物任务中,若专家动作是选择低价商品,而替代动作选择了高价商品,模型会生成反思:“高价商品超出预算约束,而低价商品满足要求。”
训练目标通过以下损失函数实现:
其中, 是针对替代动作 生成的反思文本。模型同时学习生成反思和专家动作,从而内化决策逻辑。
两种方法共享同一原则:将智能体自身行动的结果转化为监督信号,无需外部奖励。
实验设置与评估
多样化环境与任务介绍
论文在八种不同环境中评估早期经验,涵盖三大类任务:
- 实体导航与科学模拟:如ALFWorld(家庭任务)、ScienceWorld(科学实验)。
- 多步工具使用:如BFCLv3(函数调用)、Tau-Bench(客户服务)。
- 网页导航:如WebShop(在线购物)、WebArena(多网站任务)。
这些环境在动作空间和观察复杂度上差异显著,充分测试了方法的通用性。
模型与数据集配置
实验使用三种不同规模的模型:Llama-3.2-3B、Qwen-2.5-7B 和 Llama-3.1-8B。专家数据来自人类标注或高性能模型生成的轨迹。训练时,早期经验方法与模仿学习使用相同的优化步数,确保公平比较。
主要实验结果
早期经验在几乎所有环境和模型规模上均优于纯模仿学习:
- 任务效果提升:平均绝对成功率提升 +9.6% 。例如,在WebShop任务中,隐式世界建模将成功率从47.3%提升至58.6%。
- 领域外泛化:平均绝对提升 +9.4% 。在ALFWorld和SearchQA等任务中,早期经验能有效应对未见过状态。
- 强化学习预热:在后续强化学习阶段,以早期经验模型为起点,最终性能提升高达 +6.4% 。
以下图表展示了部分关键结果:
该表对比了八种环境中不同方法的成功率,显示早期经验方法(IWM和SR)在多数任务中显著优于模仿学习。
该图展示了在强化学习阶段,以早期经验模型为起点的性能优势,表明早期经验为后续强化学习提供了更优的初始化。
深入分析与讨论
与基线方法对比
论文对比了早期经验与两种替代方法:
- 长链推理(Long CoT):在推理时强制模型生成更长推理链,但效果有限,且容易产生无效动作。
- STaR风格数据:通过模型生成推理文本,但未与环境交互,导致反思缺乏真实性。
实验表明,早期经验通过真实环境交互提供的“接地气”监督,显著优于这些方法。
数据量与分支因子的影响
- 数据量缩放:即使仅使用1/8的专家数据,早期经验也能达到或超过纯模仿学习使用全量数据的性能。
- 分支因子(K):隐式世界建模受益于更大的K(更多替代动作),而自我反思在K=2~4时效果最佳,过大的K可能导致反思质量下降。
该图展示了数据量和分支因子对性能的影响,验证了早期经验的高效性和鲁棒性。
模型缩放
早期经验在不同规模模型(从3B到70B)上均有效,表明其是一种与模型规模无关的通用方法。
该图显示,即使在70B参数模型上,早期经验仍能持续提升性能,证明其监督信号与模型能力互补。
局限性及未来方向
- 当前方法侧重于短视距任务,长视距信用分配问题尚未解决。
- 未来可探索跨环境迁移、与奖励微调结合,以及更丰富的自监督目标。
结论
论文提出了“早期经验”这一创新范式,通过将智能体自身行动的结果转化为监督信号,实现了无奖励学习。隐式世界建模和自我反思两种方法在八种多样化环境中均表现出色,显著提升了任务效果、泛化能力和强化学习预热性能。这一研究不仅为语言智能体的训练提供了实用桥梁,也为迈向“经验驱动”的智能体时代奠定了坚实基础。