清华世界模型与具身智能融合全面综述！具身智能：从LLMs到世界模型上-人工智能技术与咨询

清华世界模型与具身智能融合全面综述！具身智能：从LLMs到世界模型上

2025-11-03 18:07:34584浏览

源自：视觉语言导航

主要贡献

系统性综述与分析：全面地探索了从基础到前沿的具身智能（Embodied AI）相关文献，涵盖了由LLMs（大语言模型）驱动和WMs（世界模型）驱动的研究工作，为读者提供了一个清晰的具身AI研究全景。
提出联合架构：基于对LLMs和WMs在具身AI中作用的深入分析，提出了联合MLLM（多模态LLMs）-WM驱动的具身AI架构，强调了这种联合架构在使能物理世界中复杂任务执行方面的深远意义，为未来具身AI系统的设计提供了新的思路和方向。
应用与趋势探讨：总结了具身AI在服务机器人、救援无人机、工业机器人等多个领域的代表性应用，展示了其在现实世界场景中的广泛适用性，同时也指出了具身AI未来值得进一步研究的方向，为后续研究和实践提供了指引。

介绍

研究背景

具身智能（Embodied AI）起源于1950年图灵提出的具身图灵测试，旨在探索智能体是否能模仿人类智能以实现通用人工智能（Artificial General Intelligence, AGI）。具身AI基于认知科学和神经科学的见解，认为智能是从感知、认知和交互的动态耦合中涌现出来的。具身AI包括三个关键组成部分：主动感知（通过传感器驱动的环境观察）、具身认知（基于历史经验驱动的认知更新）和动态交互（通过执行器介导的动作控制）。此外，硬件实体化也至关重要，因为具身AI系统在真实世界部署时面临着计算和能量需求不断增长的挑战，尤其是在设备的延迟和功耗限制下。
具身AI的发展经历了从单模态到多模态的转变。早期的具身AI主要关注单个模态，如视觉、语言或动作，每个模块由单一的感官输入驱动。然而，单模态方法存在信息范围有限和跨模块模态间存在固有差距的局限性。因此，具身AI逐渐向多模态融合的方向发展，以创建更具适应性、灵活性和鲁棒性的智能体，使其能够在动态环境中执行复杂任务。

LLMs和WMs的作用

LLMs（大语言模型）：LLMs通过语义推理和任务分解为具身AI提供了强大的认知能力，能够将自然语言指令和动作转化为具身认知。例如，SayCan通过提供一个预训练的自然语言动作库，限制LLMs提出不可行和不适当的动作；使用LLMs将自然语言指令转换为自然语言动作序列；并通过价值函数验证特定物理环境中自然语言动作序列的可行性。然而，LLMs在物理约束和实时适应性方面存在局限性。
WMs（世界模型）：WMs通过构建外部世界的内部表示和未来预测，为具身AI提供了物理规律合规的交互能力。内部表示将丰富的感官输入压缩成结构化的潜在空间，捕捉物体动态、物理定律和空间结构，使智能体能够推理其周围环境中“存在什么”以及“事物如何行为”。未来预测则通过模拟符合物理定律的序列动作的潜在奖励，从而预防风险或低效行为。然而，WMs在开放性语义推理和泛化任务分解方面存在不足。

研究动机

尽管LLMs和WMs在具身AI中各自发挥了重要作用，但它们也存在各自的局限性。LLMs在语义推理和任务分解方面表现出色，但在物理约束和实时适应性方面表现不佳。WMs在物理模拟和未来预测方面表现出色，但在语义推理和泛化任务分解方面存在不足。
因此，论文提出了联合MLLM-WM驱动的具身AI架构，旨在将语义智能与基于物理的交互相结合，弥补LLMs和WMs单独使用时的不足，推动具身AI从专用智能体向通用物理智能的发展。

研究内容和结构

本文全面介绍了具身AI的基础知识和最新进展，涵盖了LLMs和WMs在具身AI中的应用。具体来说，本文首先介绍了具身AI的历史、关键技术、关键组件和硬件系统，并从单模态到多模态的角度讨论了其发展。
接着，本文详细探讨了LLMs和MLLMs在具身AI中的应用，以及WMs在具身AI中的应用。基于这些进展，本文进一步提出了联合MLLM-WM驱动的具身AI架构，并讨论了其在使能物理世界中复杂任务执行方面的深远意义。
此外，本文还总结了具身AI在服务机器人、救援无人机、工业机器人等领域的代表性应用，并指出了具身AI未来值得进一步研究的方向。

具身智能

历史视角

具身AI的理论根源可以追溯到1950年图灵提出的具身图灵测试，强调智能与身体体验的紧密联系。1980年代，认知科学进一步发展了这一观点，认为人类认知源于身体体验。随后，机器人技术的进步将这些理论付诸实践，如Brooks提出的分层反应式控制架构，以及Cog项目中的人形机器人开发。
近年来，深度学习的发展推动了具身AI从机器人运动控制向适应性交互的转变，使机器人能够从原始传感器数据中学习复杂的非线性映射，显著提升了导航和操作任务的性能。然而，具身AI在动态不确定环境中实现自我反思智能仍然是一个关键挑战。

关键技术与组件

主动感知

主动感知是指智能体有选择地从环境观察中获取信息。现有方法大致可分为视觉SLAM、3D场景理解和主动环境探索三类。

视觉SLAM：通过视觉输入实现自我定位和环境地图构建，如ORB-SLAM和TwistSLAM等方法，通过结合几何优化和语义信息提高了在动态环境中的鲁棒性。
3D场景理解：使智能体能够以结构化和语义化的方式感知、分割和推理复杂环境。例如，Clip2Scene和OpenScene利用视觉语言嵌入促进3D理解，而GraphDreamer通过场景图或语义词典等结构化表示增强对3D空间中对象关系的理解。
主动环境探索：使智能体能够通过与环境的交互自主获取信息。例如，APT和DBMF-BPI等方法通过直接与环境交互进行探索，而ActiveRIR进一步通过多模态感知和语义推理增强探索能力。

具身认知

具身认知是指智能体在与环境交互过程中，通过自我反思形成内部表示和推理能力。具身认知的研究主要集中在任务驱动的自我规划、记忆驱动的自我反思和具身多模态基础模型三个方面。

任务驱动的自我规划：智能体根据任务目标、环境上下文和内部知识自主生成结构化计划。例如，LLM-Planner和AutoAct将LLMs集成到规划中，通过语言引导的推理实现任务规划。
记忆驱动的自我反思：智能体利用过去的经验进行长期推理、错误纠正和自我改进。例如，Reflexion和Reflect使智能体能够通过自我反馈迭代修正行为，而Optimus-1和REMAC则通过多模态或多智能体记忆支持长期协作。
具身多模态基础模型：在MLLMs时代，具身多模态基础模型成为统一规划、推理和其他具身认知能力的有前景的解决方案。例如，SayCan和GATO等模型将语言理解与具身动作空间对齐，而EmbodiedGPT和Kosmos-2则通过视觉语言预训练促进可扩展的具身推理。

动态交互

动态交互是指智能体通过动作或行为影响环境，基于其感知和认知进行交互。研究涵盖动作控制、行为交互和协作决策。

动作控制：生成具身交互的电机命令。例如，PaLM-E、RT-2和OpenVLA等视觉语言动作（VLA）模型将语言引导的推理整合到灵活的控制中，而CrossFormer和HPT等方法则通过跨体现学习统一不同机器人的策略学习。
行为交互：强调通过有意义的动作模式进行高级控制，使智能体能够以灵活和目标导向的方式进行交互。例如，GAIL和MGAIL等模仿学习方法使智能体能够高效地获取和模拟复杂行为，而AgentLens和ECL等方法则通过行为感知增强策略的鲁棒性和可解释性。
协作决策：协调多个智能体实现共享目标，对多智能体系统和人机协作至关重要。例如，QTRAN、QPLEX和Qatten等多智能体强化学习方法通过集中训练和分散执行解决合作问题，而MetaGPT、CoELA和AgentVerse等方法则通过LLMs和WMs增强多智能体协作。

硬件

随着具身AI的发展，模型复杂性和规模不断增加，对计算和能源需求也日益增长。具身系统通常在动态的真实世界环境中运行，面临着严格的延迟和功耗限制。因此，开发硬件友好的方向，同时保持性能并优化效率，对于实现响应迅速、节能的具身智能体至关重要。硬件优化在具身AI中通常包括硬件感知模型压缩、编译器级优化、特定领域加速器和硬件软件协同设计。

硬件感知模型压缩：通过量化和剪枝等技术减少模型大小和计算成本。例如，量化将权重和激活映射到较低的比特宽度，而剪枝则去除冗余参数。为了支持真实世界的具身任务，如机器人控制或视觉导航，硬件效率指标（如功耗、性能和面积）可以指导比特宽度分配或剪枝比率，实现任务特定的准确性与部署效率之间的权衡。
编译器级优化：编译器作为连接高级具身AI模型和硬件执行的桥梁，在实时具身系统中，编译器工具链对于传感器数据的高效处理和决策制定至关重要。例如，TVM基于LLVM和CUDA生成跨平台的优化代码。这些编译器通过操作融合和消除冗余计算来转换计算图，从而实现响应式行为。循环重新排序和分块等映射策略增强了数据局部性、并行性和内存访问，这对于维持具身AI系统中的低延迟推理至关重要。
特定领域加速器：随着计算需求的增长，特定领域加速器（DSAs）成为具身AI的一个有前景的解决方案。例如，谷歌的TPU通常通过PCIe与CPU和GPU集成，加速矩阵乘法等关键操作。FPGA加速器允许重新配置，以适应新任务或变化的工作负载；CGRA加速器改进了结构化、数据流密集的计算，这些计算在感知或控制中很常见；而ASIC加速器则提供了高吞吐量和能源效率，非常适合在真实环境中部署高性能的具身AI模型。
硬件软件协同设计：将算法和硬件设计分开可能会降低运行时效率。硬件软件协同设计通过算法系统和算法硬件的协同优化来解决这个问题。算法系统协同优化侧重于如何充分利用GPU资源，如张量核心和CUDA核心，以更好地支持算法。算法硬件协同优化旨在通过调整模型和硬件架构来提高部署效率。例如，可以根据网络中的操作类型和硬件的配置参数进行多目标优化。还可以设计不同的数值量化方案以及匹配的硬件加速器，以更好地支持具身AI任务。

基准和评估指标

广泛采用的测试平台包括：

Habitat（提供逼真的3D室内环境，用于导航和交互任务）、ManiSkill（提供基于物理的操纵场景和多样化对象集）、MuJoCo（在连续状态空间中实现精确控制评估）以及EmbodiedBench（支持视觉驱动智能体在感知、认知和交互方面的全面评估）。对于无人机应用，AirSim、U2UData和U2USim提供了具有动态障碍的高保真空中环境。
这些测试平台在复杂性上各有不同：Habitat在视觉逼真度方面表现出色，ManiSkill在对象多样性方面表现出色，MuJoCo在物理准确性方面表现出色，而EmbodiedBench在多模态集成方面表现出色。
领域特定的基准，如BEHAVIOR-1K，进一步使我们能够在现实世界条件下对1000种日常活动进行细致评估。

关键评估指标涵盖三个关键维度：

任务成功率衡量目标导向目标的完成准确性（例如，对象操纵或导航）；
实时响应性量化决策延迟和对环境变化的适应速度；
能源效率评估部署期间的计算成本（FLOPS）和功耗（瓦特）。
其他指标包括导航效率的路径长度、未见场景的泛化分数以及物理合规性的安全违规次数。
对于多智能体系统，协调效率和通信开销提供了关键见解。
标准化评估协议，如MFE-ETP中的那些，确保了跨模态比较的公平性，尽管在从模拟到现实的转移验证方面仍存在挑战。

从单模态到多模态

具身AI的发展经历了从单模态到多模态的演变。最初，具身AI主要关注单个模态，如视觉、语言或动作，每个模块由单一的感官输入驱动。然而，随着研究的深入，单模态具身AI的局限性逐渐显现，促使研究者转向多模态融合的方向。

单模态具身AI的局限性：单模态方法在处理具身AI的特定模块时表现出色，但存在信息范围有限和跨模块模态间存在固有差距的局限性。例如，仅依赖视觉的系统在动态或模糊环境中难以理解环境，而仅依赖听觉的系统则面临现实世界中的噪声和信号处理挑战。
多模态具身AI的优势：多模态具身AI通过整合来自多个感知模态（如视觉、听觉和触觉反馈）的数据，提供对环境更全面和精确的理解。更重要的是，多模态具身AI能够促进感知、认知和交互之间的更深层次整合。例如，MLLMs和WMs的最新进展使智能体能够更有效地处理多模态数据，有望提升具身AI在动态、不确定环境中的能力。

基于LMS/MLLMS的具身智能

LLMs增强具身AI

LLMs通过语义推理和任务分解为具身AI提供了强大的认知能力，能够将自然语言指令和动作转化为具身认知。

语义推理

LLMs通过分析语言指令中的语言模式、上下文关系和隐含知识来解释语义。通过Transformer架构，LLMs将输入标记映射到潜在表示中，实现从语法到语用层面的层次化语义抽象。
LLMs利用注意力机制，对相关的语义线索进行加权，同时抑制噪声，支持逻辑推理和类比推理。通过将预训练语料库中的世界知识与任务特定提示相结合，LLMs动态构建概念图，将文本输入与预期结果对齐。
例如，SayCan通过预训练的自然语言动作库，限制LLMs提出不可行和不适当的动作，然后将自然语言指令转换为自然语言动作序列，并通过价值函数验证这些动作序列在特定物理环境中的可行性。

任务分解

LLMs利用其序列逻辑，将复杂目标分解为子任务，通过层次化分析上下文依赖关系和目标对齐来实现。通过链式思考提示，LLMs迭代解析指令，生成可操作的步骤，同时通过语义一致性解决歧义。
例如，SayCan使用LLMs将自然语言指令转换为自然语言动作序列，并通过价值函数验证这些动作序列在特定物理环境中的可行性。这种方法使机器人能够根据自然语言指令执行复杂的任务。

MLLMs增强具身AI

MLLMs能够处理整个具身AI系统，通过桥接高级多模态输入和低级电机动作序列，实现端到端的具身应用。与LLMs相比，MLLMs在多模态输入的语义推理和任务分解方面表现出色，能够动态适应基于传感器反馈的计划。

视觉语言模型在具身AI中的应用

VLMs将视觉和语言指令理解相结合，使物理或虚拟智能体能够在目标驱动的任务中感知环境。例如，PaLM-E首先训练视觉和语言编码，然后将这些编码与预训练的LLMs结合，实现多任务完成。
例如，ShapeNet通过微调对比嵌入，实现3D空间推理，显著减少路径规划误差。这些工作表明，VLMs能够将感知和推理结合起来，解决具身AI中的许多任务。

视觉语言动作模型在具身AI中的应用

VLAs将多模态输入与低级动作控制通过可微分的管道整合在一起。例如，RT-2将机器人的当前图像、语言指令和机器人动作编码为文本标记，然后使用LLMs进行语义推理和任务分解，最后将生成的标记解码为最终动作。
例如，Octo在10万个机器人演示和语言注释上进行预训练，实现跨体现工具使用。PerAct利用3D体素表示实现毫米级抓取精度。这些工作表明，VLAs能够处理整个具身AI系统，并在新机器人和环境中实现适应性扩展。

具身AI中MLLMs的分类

MLLMs可以增强具身AI的主动感知、具身认知和动态交互。

MLLMs在主动感知中的应用

MLLMs可以增强3D SLAM，通过将视觉观察与语义表示相结合，为传统SLAM管道增添高级上下文信息，如对象类别、空间关系和场景语义。例如，SEO-SLAM利用MLLMs为对象生成更具体和描述性的标签，同时动态更新多类混淆矩阵，以减少对象检测中的偏差。
MLLMs还可以增强3D场景理解，将2D视觉输入映射到与语言目标对齐的语义丰富特征中。例如，EmbodiedGPT利用相机输入与视觉语言预训练的协同作用，将2D视觉输入映射到语义丰富的特征中。
MLLMs还可以增强主动环境探索，通过结构化运动级反馈，将碰撞检测等信号纳入规划循环，使模型能够迭代修订符号动作序列。例如，LLM3专注于结构化运动级反馈，而MART则利用交互反馈提高检索质量。

MLLMs在具身认知中的应用

MLLMs可以增强任务驱动的自我规划，具身智能体可以直接将高级目标映射到结构化动作序列，或者采用中间规划策略，通过与环境的持续交互来细化计划。例如，CoT-VLA预测中间子目标图像，这些图像描绘了子任务的期望结果，帮助智能体可视化并推理复杂任务的每一步。
MLLMs还可以增强记忆驱动的自我反思，使智能体能够通过其固有的记忆模块从经验中学习。例如，Reflexion通过自我生成的语言反馈增强智能体的性能，这种反馈存储在情节记忆缓冲区中，并用于指导未来的规划。
MLLMs还可以增强具身多模态基础模型，通过在具身环境中持续预训练或微调，使MLLMs适应物理世界。例如，QwenVL和InternVL等模型支持更广泛的模态对齐，如多模态语言模型。

MLLMs在动态交互中的应用

MLLMs能够将复杂任务分解为可操作的子任务，然后通过自回归方式生成每个子任务的连续控制信号，或者使用辅助策略头进一步处理其内部表示。例如，π-0结合视觉语言骨干和流匹配解码器，生成平滑、时间延长的行为轨迹。
MLLMs还可以增强协作决策，使多智能体系统能够实现人类水平的协调，并迅速适应不可预见的挑战。例如，Combo引入了一种新框架，通过去中心化的智能体之间的协作，仅使用以自我为中心的视觉观察来增强协作。
MLLMs还可以增强人机协作，通过将人类口头命令与视觉上下文对齐，实现流畅和对话式的人机交互。例如，VLAS通过语音编码器和LLaVA风格的MLLM，将人类口头命令与视觉上下文对齐，实现可解释和适应性强的控制策略。

基于世界模型的具身智能

世界模型增强具身AI

世界模型通过构建外部世界的内部表示和未来预测，显著增强了具身AI的物理交互能力。这些模型使智能体能够在动态环境中进行物理规律合规的交互。

外部世界的内部表示

内部表示将丰富的感官输入压缩成结构化的潜在空间，捕捉物体动态、物理定律和空间结构。这些表示使智能体能够推理其周围环境中“存在什么”以及“事物如何行为”。
这些潜在嵌入保留了实体和环境之间的层次关系，反映了现实世界的组合性质。结构化的表示有助于跨环境的泛化，因为抽象的原理（如重力或物体恒存性）超越了具体实例。例如，通过编码时间和空间的连续性，这些模型在规划过程中自然地强制执行一致性约束，过滤掉不符合物理规律的动作，从而提高样本效率。

外部世界的未来预测

未来预测通过模拟符合物理定律的序列动作的潜在奖励，从而预防风险或低效行为。这种预测能力将短期动作与长期目标联系起来，过滤掉违反物理规律（如穿墙）或战略连贯性（如过早耗尽资源）的轨迹。
长期预测允许智能体在探索和利用之间进行自适应平衡，通过模拟远期结果来避免局部最优，同时保持对短期可行步骤的关注。例如，连续的预测误差最小化驱动模型的迭代细化，使系统能够自我纠正，使其内部的物理模拟器与观察到的现实对齐，从而提高样本效率。

具身AI中世界模型的分类

具身AI中的世界模型可以主要分为三类：基于循环状态空间模型（RSSM-based）的世界模型、基于联合嵌入预测架构（JEPA-based）的世界模型和基于Transformer的世界模型（Transformer-based WMs）。此外，还有基于层次结构的模型和基于扩散的模型。

基于RSSM的世界模型

RSSM是Dreamer算法家族的基础架构，通过视觉输入获取环境的时间动态，并在潜在表示中进行预测，从而实现基于潜在轨迹优化的动作选择。
RSSM通过正交分解隐藏状态为概率和确定性成分，明确考虑系统模式和环境不确定性。这种架构在机器人运动控制应用中表现出色，启发了许多后续研究。

基于JEPA的世界模型

JEPA提供了一种开发自主机器智能系统的方法，通过表示学习建立输入数据和预期结果之间的映射关系。
与传统的生成方法不同，JEPA在抽象的潜在空间中操作，而不是生成像素级的重建，优先考虑语义特征提取而不是低级信号合成。
JEPA通过自监督训练范式，使神经网络能够推断出被遮挡或未观察到的数据片段。这种预训练方法使模型能够跨下游应用进行迁移学习，表现出更强的泛化能力。

基于Transformer的世界模型

Transformer结构最初用于自然语言处理研究，依赖于注意力机制来处理输入序列，通过并行上下文加权来克服循环神经网络（RNNs）的顺序处理限制。
Transformer在需要持久记忆保留和显式记忆寻址的认知推理领域表现出色，自2020年以来在强化学习研究中得到广泛应用。
例如，Google的Genie框架使用空间-时间Transformer（ST-Transformer）通过大规模自监督视频预训练创建合成交互环境，为世界模型的发展提供了新的范式。