EnvGen：通过大语言模型生成和自适应环境，用于训练具身智能体-人工智能技术与咨询

EnvGen：通过大语言模型生成和自适应环境，用于训练具身智能体

2025-11-04 17:52:11264浏览

源自：人工智能与最优化

01介绍

近年来，具身智能（embodied AI）受到了越来越多的关注，其中智能体通过与环境交互来学习，而不是依赖静态数据集。像 Minecraft (Mojang Studios, 2009) 和 Crafter (Hafner, 2022) 这样的开放世界游戏，已经被广泛用作具身智能体的研究环境。在这些环境中，智能体需要通过视觉感知周围环境，探索大规模地形，并学习解锁各种成就（例如收集资源、制作工具、打败怪物等）。一些成就可以在几个步骤内轻松达成，而另一些则更具挑战性，因为它们只有在智能体完成一系列前置成就后才可达成，需要数百个步骤（即长时任务）。

如图 1 (a) 所示，传统的具身智能体主要基于强化学习（RL）。然而，这些 RL 智能体在学习长时任务时通常表现不佳，因为奖励只有在连续执行正确动作后才会稀疏地出现，自动发现大量能通向奖励的动作序列代价极高 (Aytar et al., 2018; Li et al., 2022a; Yuan et al., 2023)，即便在经历了基于好奇心驱动的内在奖励的长期预训练之后 (Walker et al., 2023)，依然如此。

与此同时，大语言模型（LLM） 在需要复杂推理的各类任务上展现了显著进展 (Brown et al., 2020; OpenAI, 2023a; Touvron et al., 2023a;b; Chowdhery et al., 2023; Anil et al., 2023)，因此近期研究开始探索基于 LLM 的具身智能体。如图 1 (b) 所示，这些方法利用 LLM 的世界知识和链式思维推理（chain-of-thought reasoning），在整个回合中进行动作规划、提供反馈并获得奖励。尽管这些基于 LLM 的智能体通过语言化的推理步骤在性能上超过了以往的方法，但在整个回合中反复调用 LLM 的代价过于高昂且运行缓慢。例如，SPRING (Wu et al., 2023) 在执行每一步动作时需要调用 GPT-4 (OpenAI, 2023a) 9 次，这导致完成一个回合的费用高达 270 美元。Du et al. (2023) 的方法尝试利用 LLM 来生成奖励以训练小型智能体，但该训练依然代价高昂，因为它需要大量 LLM 与学生智能体的交互。

由此产生了一个问题：与其直接使用 LLM 作为具身智能体，能否利用 LLM 的推理能力自适应地生成训练环境，帮助较小的 RL 具身智能体学习它们不擅长的有用技能？

为解决这一问题，我们提出了 EnvGen，一个新颖的框架，在其中 LLM 能够自适应地生成训练环境，用来教授较小的 RL 具身智能体。我们的目标是生成能够提供多种条件的环境（例如，不同的地形，或部分子目标已提前完成），从而使智能体能够并行学习不同的技能，并且在解决原始环境中那些具有挑战性的长时任务时更频繁地获得奖励。

如图 1 (c) 所示，EnvGen 迭代进行多个训练周期，每个周期包含以下四个步骤：

步骤 1：我们向 LLM 提供一个提示，其中包含任务描述、可控的模拟器设置以及模拟器的约束条件（见图 2 和第 2 节的详细说明），以此生成自定义训练环境的配置（即专门为训练 RL 智能体某些技能而创建的环境）。然后，我们利用这些生成的配置来创建不同的自定义环境（例如，不同的地形、智能体初始获得的物品、找到特定物体的概率等），从而能够并行教授多种技能。

步骤 2：我们首先在多个由 LLM 生成的环境（即 LLM 环境）中训练 RL 智能体，使其能够并行学习不同的有用技能。

步骤 3：随后，我们在原始环境中训练 RL 智能体，以减轻其对 LLM 环境的过拟合。之后，我们在原始环境中测量当前 RL 智能体在不同任务中的表现，以检查智能体在哪些技能或任务上仍然较为薄弱。

步骤 4：我们将 RL 智能体在不同任务中的成功/失败情况（来自步骤 3）作为反馈提供给 LLM，以便 LLM 能够自适应地调整自定义训练环境，逐步强化智能体所薄弱的技能。

需要注意的是，EnvGen 在整个 RL 智能体的训练过程中，仅需进行少量的 LLM 调用（例如 4 次）来生成或更新环境；而其他基于 LLM 智能体的方法则在每一步都会调用一次或多次 LLM（这会导致单个回合就需要数千次 LLM 调用）。

我们在不同的游戏环境中研究了 EnvGen 的有效性：Crafter 和 Heist。在 Crafter 环境中，一个基于 PPO的轻量级 RL 智能体（参数量 < 500 万），在使用我们生成的 LLM 环境进行训练后，其表现超过了多个强大的基线方法，包括：一个在每一步都多次调用 LLM 的基于 GPT-4 的智能体，以及那些依赖大规模预训练的 RL 智能体（例如 1.5 亿步的预训练 vs. 我们的不到 100 万步）。与仅在原始 Crafter 环境中延长训练时间、以及基于课程学习的方法（例如由易到难或对抗环境）相比，使用 EnvGen 训练的 RL 智能体在总体得分和长时任务上都取得了显著提升。在 Heist 环境中，我们同样展示了由 LLM 生成的环境能够提升智能体的整体性能和训练稳定性。我们还进行了定性研究，展示了 LLM 如何随着时间推移不断调整训练环境，以帮助 RL 智能体逐步改进其薄弱技能。最后，我们对 EnvGen 的设计选择进行了全面的分析和消融实验，包括：动态更新 LLM 环境（即使用自适应环境）与课程学习方法的对比、环境更新的频率、EnvGen 与在原始环境中延长训练的比较、用于生成环境的不同 LLM、LLM 生成环境的数量，以及训练过程中原始环境与 LLM 环境的混合比例。

02EnvGen：通过大语言模型生成与自适应环境，用于训练具身智能体

我们提出了 EnvGen，一个新颖的框架，其中 LLM 能够自适应地生成训练环境，用于训练较小的具身 RL 智能体，从而使它们能够在环境中完成各种任务，尤其是长时任务。在训练过程中，LLM 会根据反馈（即智能体的表现）自适应地更新训练环境，从而逐步聚焦于提升智能体薄弱的任务能力。

接下来，我们将首先解释为什么在开放世界游戏中探索长时任务具有挑战性（第 2.1 节）。随后，我们将详细介绍我们的方法，包括如何生成环境以及智能体如何在 EnvGen 中进行训练（第 2.2 节）。

2.1 预备知识：长时任务的探索是困难的

在强化学习（RL）框架中，智能体会在一条轨迹上探索不同的状态，并根据这些轨迹中获得的奖励来优化策略。然而，对于长时任务的探索既缓慢又计算代价高昂，因为此类任务的奖励非常稀疏，只有在一系列成功动作之后才会出现，而这些动作往往涉及多个子目标的达成。

例如，在 Crafter (Hafner, 2022) 中，目标是解锁22 项成就，其中一些成就可以通过几个简单动作快速完成，而另一些则需要长链式的前置条件（例如，收集铁矿需要先制作石镐，而制作石镐又必须以收集石头为前提，……等）；详见第 3.1 节。正如 Hafner (2022) 所示，现有的 Crafter 智能体在探索过程中，大多数步骤都花在学习低层次的成就上，但却无法解锁那些具有众多前置条件的高阶成就。

2.2 EnvGen方法细节

我们提出了 EnvGen，在该框架中，我们在多个由 LLM 生成的环境中（在本文中称为“LLM 环境”）训练具身 RL 智能体，这些环境会逐步自适应地调整，以提升智能体在多种技能上的表现。生成的环境能够提供多样化的条件（例如，不同的地形，或部分子目标已被预先完成），从而使智能体能够并行学习不同的技能，并在长时任务中更频繁地获得奖励。

如图 2 所示，EnvGen 迭代执行 NCycle个训练周期，每个周期包含以下四个步骤：

步骤 1：使用 LLM 生成训练环境。
如图 2 的步骤 1 所示，我们使用一个 LLM（例如 GPT-4 (OpenAI, 2023a)）来生成 NLLM-Env个自定义训练环境配置，这些配置能够涵盖原始环境中所需的各种目标和技能。以下是用于创建环境配置的 LLM 输入提示（prompt）组件说明：

任务描述：我们向 LLM 提供环境的简要描述，以及它应该执行的操作（例如：“生成一组训练环境……”）。
游戏/模拟器细节：我们提供环境中需要完成的目标列表（例如在 Crafter 中：“收集煤炭、收集铁矿等”）；可控的模拟器设置列表（例如地形、智能体的初始物品栏）；以及模拟器所具有的约束/规则列表（例如在 Crafter 中：“骷髅只会在山地生成”）。
输出环境配置模板：我们向 LLM 提供一个空的输出配置模板（即一个环境设置为空的 JSON 对象），并要求其填写相应的数值，从而生成 NLLM-Env个环境配置。除了填写模板外，我们还要求 LLM 用文字解释每个环境的目的（例如，该环境会训练智能体什么技能）；这有助于用户更好地理解环境生成过程。
基于 RL 智能体表现的自适应反馈：我们将 RL 智能体在原始环境中的表现（在步骤 3 测量，并在步骤 4 总结）提供给 LLM，作为反馈，用于调整 LLM 环境，使其重点关注 RL 智能体的薄弱技能。该反馈在每个训练周期结束时提供，因此从第二个周期开始才会传递给 LLM。

生成的环境配置随后会在游戏模拟器中渲染。图 2 展示了 GPT-4 模型的输入提示与输出环境的总结。更多提示细节可见附录 F。

步骤 2：在 LLM 生成的环境中训练小型 RL 智能体。
如图 2 的步骤 2 所示，我们在 LLM 生成的环境中训练小型 RL 智能体。具体而言，我们让智能体在 NLLM-Env个 LLM 环境中并行训练，总共进行 TLLM-Env步。

步骤 3：在原始环境中训练并评估 RL 智能体的表现。
需要特别注意的是，EnvGen 的目标是提升智能体在原始环境中的表现，而不仅仅是在 LLM 环境中的表现。为了帮助智能体有效适应原始环境，并将其当前表现作为反馈提供给 LLM，我们会在原始环境中对智能体进行训练和评估（如图 2 的步骤 3 所示）。首先，为了缓解智能体对 LLM 环境的过拟合，我们会在原始环境中对其训练 TOrig-Env步。接着，为了找出智能体需要改进的技能，我们会在原始环境中对其进行测试，但不进行参数更新。具体而言，我们会分别测量智能体在每个环境任务（例如 Crafter 的各项成就）中的成功率。智能体的表现会在步骤 4 中被总结，并在下一周期的步骤 1 中作为反馈提供给 LLM，用于调整训练环境。此外，为了获得更为可靠的智能体表现估计，我们会在多个随机种子（即 12 个）下对智能体进行测试，并计算任务相关分数的平均值和方差。

步骤 4：将反馈发送给 LLM，以调整环境（聚焦于薄弱技能）。
我们将智能体在原始环境中的表现（在步骤 3 中测量）作为反馈提供给 LLM，用于更新 LLM 环境。具体来说，我们会列出智能体在每个任务上的平均成功率及其标准差（例如：“…… 收集煤炭：38% ± 6%，击败骷髅：10% ± 4% ……”），如图 2 的步骤 4 所示。在下一周期的步骤 1 中，LLM 会利用这些反馈自适应地生成新的环境，以更好地帮助智能体学习其薄弱的技能（例如“击败骷髅”）。EnvGen 将重复这一四步训练循环 NCycle次。

03实验设置

在接下来的小节中，我们将介绍用于评估 EnvGen 框架 的基准测试（第 3.1 节）以及实验中所使用的智能体架构（第 3.2 节）。

3.1 评估基准与训练细节

Crafter Crafter是一个开放世界的 2D 生存游戏，主要用于评估智能体的广泛能力（见图 3）。Crafter 中包含 22 个成就，智能体在一次游戏过程中可以解锁这些成就。部分成就可以通过几个动作完成（如收集木材、收集树苗等），但其他成就（如制作铁镐或收集钻石）则需要大量的训练/探索步骤，并且依赖多个前置成就的解锁（见图 3b）。例如，要制作一把铁镐，智能体必须先收集足够的木材来制作工作台和木镐，然后收集石头并返回工作台（或者收集更多木材来制作新的工作台），再制作石镐。接着，智能体还需要制作熔炉、收集煤炭、收集铁矿，之后才有可能制作铁镐。

在 EnvGen 的设置中，我们在智能体训练过程中使用 NCycle = 4 个训练循环（不同循环数的消融实验见表 3）。每个循环包含 0.12M 的 LLM 生成环境步骤（即 CrafterEnvGen 步骤，见图 2 的步骤 2）和 0.12M 的 Crafter 步骤（图 2 的步骤 3），之后我们在 Crafter 中训练 1M 步。总共训练步数为 1.96M：

(0.12M+0.12M)×4+1M

需要注意的是，为了保持与基线的公平分数对比，我们在训练循环中不计入任何成就用于得分计算，因为 LLM 环境和原始环境中的训练分数并不直接可比。相反，我们只计算在 Crafter 中最后 1M 训练步 所完成的成就。我们还额外实验了给基线模型增加相同数量的原始环境步骤（即额外的 0.96M 步），以确保 EnvGen 的优势不是仅仅来自于更多的训练步数。

Crafter 的得分计算方式是：对每个成就的成功率取对数平均值并几何平均，定义为：

其中 si表示第i个成就的平均成功率（在所有训练过程中完成该成就的 episode 中统计）。

我们报告了30次运行的平均表现（即 = 3 个不同的初始 LLM 生成 CrafterEnvGen 环境 × 10 个不同随机种子）。

Heist Heist 是 OpenAI Procgen (Cobbe et al., 2020) 基准的一部分。在这个环境中，智能体必须在通过迷宫并打开所有锁之后，成功“偷取”宝石。更多细节见附录 C.2。

3.2 智能体结构

我们的基础 RL 智能体在 Crafter 和 Heist 两个环境中，我们使用了一个来自 Moon 等人（2023）的简单（CNN + 线性层）、轻量级（<5M 参数）智能体来测试 EnvGen 框架，该智能体在 IMPALA (Espeholt 等人, 2018) 的架构基础上做了轻微修改。按照 Moon 等人（2023）的方法，我们使用 PPO (Schulman 等人, 2017) 目标来训练智能体。在每一步，智能体接收一张 RGB 图像作为输入（Crafter 中为周围环境，Heist 中为整个迷宫），并输出 价值估计和策略（动作概率分布）。图 3(a) 给出了智能体视觉输入的示例。更多模型细节见附录 E。

基线方法在 Crafter 环境中，我们将方法与两类近期基线进行比较：

在训练或推理过程中频繁调用 LLM（即超过数千次调用）的方法：

SPRING (Wu 等, 2023)，基于 GPT-4
ELLM (Du 等, 2023)，基于 Codex (Chen 等, 2021)

不使用 LLM 的方法：

DreamerV3 (Hafner 等, 2023)
MuZero+SPR (Walker 等, 2023)
LSTM-SPCNN (Stanić 等, 2023)
PPO (Schulman 等, 2017)
Achievement Distillation (AD) (Moon 等, 2023)

在 Heist 环境中，我们将方法与 PPO 智能体进行比较。对于 PPO 和 AD 智能体，我们遵循 Moon 等人（2023）的实现。更多 PPO/AD 智能体的细节见附录 E。

04结果和分析

我们通过全面的实验和分析展示了EnvGen方法 的有效性。首先，我们将使用 EnvGen 训练的 RL 智能体与不同基线方法在 Crafter（一个具有 22 个分层成就的开放世界游戏）上的表现进行比较（第 4.1 节）。接着，我们对在 EnvGen 环境中训练的 RL 智能体在 长时任务 上的性能提升进行详细分析（第 4.2 节）。然后，我们分析基于 LLM 的环境自适应如何帮助 RL 智能体逐步提升其薄弱技能（第 4.3 节）。最后，我们展示了各种附加分析，包括在 Heist（迷宫导航游戏）上的实验以及对 EnvGen 设计选择的消融研究（第 4.4 节及附录 C）。

4.1 在 Crafter 环境中与最先进方法的对比

使用 EnvGen 训练的小型 RL 智能体优于最先进基线方法 在 Crafter 环境中（见第 3.1 节），我们将使用 CrafterEnvGen（即通过 EnvGen 生成的 Crafter 环境）训练的小型 PPO 智能体与最先进的基线方法进行比较。正如表 1 所示，一个小型（4M 参数）的 PPO 智能体在 EnvGen 环境中训练后，平均得分为 32.2%，显著优于各类基线方法（在平均奖励上也表现更好）。

需要注意的是，一些基线智能体拥有更多参数或更多预训练步骤，例如 SPRING（基于 GPT-4，平均得分 27.3%）和 MuZero + SPR（150M 训练步骤，平均得分 16.4%）。而我们的方法 仅使用极少量的 LLM 调用（仅 4 次），相比 SPRING（平均 2.7K 次）和 ELLM（5M 次）显著降低了成本和提高了效率。

此外，EnvGen 也可与其他 RL 智能体结合使用，例如 Achievement Distillation (AD)（Moon 等, 2023），从而取得更高的得分（35.3%）。

4.2 Crafter 环境中的成就详细分析

接下来，我们通过检查各个成就的成功率，分析 EnvGen 如何提升整体得分。为此，我们比较了相同 PPO 智能体架构在不同训练设置下的表现：1）在 Crafter 上训练1.96M步的智能体；2）在 CrafterEnvGen 上训练 0.96M 步（0.24M 步 × 4 个训练循环，见第 2.2 节），然后在 Crafter 上训练1M 步的智能体。我们测量了每个成就的成功率（图 4）以及在最后 1M 训练步中铁制工具的解锁速度（图 5）。

结果显示，EnvGen 有助于 RL 智能体完成具有挑战性的 长时任务成就。图 4 表明，在 CrafterEnvGen 中训练可提升多个成就的得分，尤其是具有许多前置成就的长时任务成就（见图 3），例如石制和铁制工具。图 5 显示，在解锁石镐之后，在 CrafterEnvGen 中训练的 RL 智能体解锁铁制工具的速度明显更快。

在附录 C.1 中，我们还比较了两个 AD 智能体，并展示了 CrafterEnvGen 提升了最具挑战性的成就——“收集钻石”的成功率。

4.3 训练环境的自适应有助于智能体提升薄弱技能

图 6 展示了 LLM 如何根据我们基于 PPO 的 RL 智能体的中间表现，自适应地生成新的训练环境。在中间表现图中，我们比较了仅在 Crafter 中训练的基线智能体与在 CrafterEnvGen 中训练的 RL 智能体。

在第 2 个训练循环中，收到智能体在 收集煤炭 方面表现不足的反馈后，LLM 生成了一个帮助智能体专注于该技能的环境，从而提升了智能体在该技能上的表现。类似地，在第 3 个训练循环中，收到智能体在 制作石镐 方面表现薄弱的反馈后，LLM 生成了一个环境，使智能体更容易制作石镐，从而提升了该技能的成功率。

借助 EnvGen 的 自适应 LLM 环境生成机制，我们的智能体能够比基线智能体更快地解锁这两个成就。

4.4 附加分析与消融研究

接下来，我们展示了对 EnvGen 方法 的全面设计分析和消融研究，包括：动态更新 LLM 环境（即使用自适应环境）与课程学习方法的对比，以及不同环境更新频率的影响。

在附录 C 中，我们提供了更详细的分析和消融实验，包括：

使用 EnvGen 环境 vs. 在原始环境中进行更长时间训练
不同 LLM 用于生成环境的效果
LLM 生成环境的数量
在训练中 LLM 环境与原始环境的步数比例
此外，我们还在 Heist 环境（见第 3.1 节）中进行了实验（附录 C.2）。

关于不同环境课程设置的对比：固定、由易到难、对抗性 vs. 自适应。表 2 显示，相比于在整个训练过程中仅使用初始 LLM 环境（得分 29.9%），基于中间智能体表现自适应更新 LLM 环境以提升薄弱技能（最后一行）可获得更高的整体得分（32.2%）。

这些结果表明了智能体反馈与环境更新（第 2 节第 4 步）的有效性。表 2 还将通过 EnvGen 训练的智能体与使用课程学习方法训练的同一智能体进行了比较，例如：

由易到难课程（easy-to-hard curriculum），类似于 Ammanabrolu 等人（2022），即根据环境难度预先定义训练环境顺序；
对抗性课程（adversarial curriculum），类似于 Parker-Holder 等人（2022），即更新为智能体表现较差的训练环境。
两种基线方法的详细设置见附录。结果显示，使用 EnvGen 训练的智能体能够达到更高的性能（32.2% vs. 两种课程方法均为 26.8%），这表明 EnvGen 通过自适应生成训练环境以提升智能体薄弱技能的方法是有效的。同时，这一结果也表明，仅仅创建更高难度的环境并不一定能帮助智能体随时间学习新技能。

LLM 反馈/环境更新的频率表3显示，每 0.12M 步更新一次 LLM 环境 可获得最佳的智能体性能。虽然将环境反馈的训练循环次数增加到超过 4 次并未进一步提升性能，但我们发现 使用反馈更新环境始终有助于提升 RL 智能体的表现，相比之下，仅在原始 Crafter 环境中训练的智能体（表 1，26.4%）或使用固定 LLM 环境训练的智能体（表 2，29.9%）的表现均不如使用 EnvGen 的智能体。

05相关工作

LLM 作为开放世界游戏智能体近期研究探索了利用 LLM 为开放世界游戏（如 Minecraft 和 Crafter）中的具身智能体创建动作计划（即要完成的子目标或技能列表）（Hafner, 2022）。大多数方法需要频繁调用 LLM（例如每一步都调用）来规划下一步动作使用 LLM 创建或调整奖励以训练智能体。尽管这些工作利用 LLM 的世界知识在长时任务上显示出初步的良好效果，但在整个任务中 反复调用 LLM 极其慢且成本高（例如，在 Crafter 环境中运行单次 SPRING（Wu et al., 2023）需要约 270 美元，因为平均有 2.7K 次 LLM 调用）。相比之下，EnvGen 仅调用 LLM 少量次数（例如总共 4 次）来生成训练环境，使 RL 智能体逐步提升薄弱技能。

基于深度学习的游戏/模拟器内容生成游戏的程序化内容生成（PCG）旨在自动生成关卡、地形、道具、规则、任务或其他游戏内容（Shaker et al., 2016）。传统 PCG 方法多基于搜索、求解器、规则或语法，而近期工作则采用深度学习方法进行 PCG。已有研究尝试使用 LLM 生成游戏内容，例如难度等级和场景/环境。这些工作旨在帮助开发者创造新内容，而我们的目标是提升 RL 智能体在原始环境中的表现。一类工作提出了 无监督环境设计（UED），通过调整环境难度使其对 RL 智能体更具挑战性。这些方法通常使用学习型环境操纵器或进化算法来最大化“遗憾”（当前策略与最优策略期望收益的差值），多应用于 MiniGrid 等简单游戏。与之不同，我们利用 LLM 的世界知识 生成并自适应训练环境，根据 RL 智能体提供的技能反馈改进薄弱技能，适用于具有许多挑战性长时任务的开放世界游戏。

为帮助智能体在文本对话类游戏中泛化到未见任务，Ammanabrolu et al. (2022) 使用 LMs 增强新任务，并采用人工设计的固定课程。与此不同，我们通过 LLM 的世界知识自适应生成训练环境，并基于 RL 智能体的反馈自动学习动态课程，从而提升智能体在视觉输入的开放世界游戏中的薄弱技能。此外，在游戏内容生成之外，还有研究使用图像生成模型对视觉-语言导航（VLN）模拟器进行视觉增强（例如以不同风格渲染环境。这些方法可以补充我们的 LLM 环境，例如通过丰富颜色和纹理来增强环境多样性。

06结论

我们提出了EnvGen，一个利用 LLM 世界知识自适应生成训练环境，以提升具身 RL 智能体性能的新框架。在 EnvGen 中，我们向 LLM 提供描述游戏或模拟器的提示（prompt），并让 LLM 生成配置以创建能够教授不同技能的新环境。接着，我们在这些 LLM 生成的环境中训练智能体，通过在原始环境中测试智能体表现将反馈提供给 LLM，然后让 LLM 更新环境，以训练智能体在薄弱技能上的能力。

在两个具有挑战性的游戏环境 Crafter 和 Heist 中，我们的实验表明：

EnvGen 能显著提升智能体性能；
使用 LLM 生成的环境训练比在原始环境中单纯延长训练更有效；
通过动态适应环境，LLM 能够超越传统课程学习方法，并随着时间帮助 RL 智能体改进薄弱技能；
使用 LLM 生成环境训练的轻量级模型（<5M 参数）甚至可以 超越需要大量 LLM 调用的 LLM 智能体。