基于LMS/MLLMS的具身智能
LLMs增强具身AI
LLMs通过语义推理和任务分解为具身AI提供了强大的认知能力,能够将自然语言指令和动作转化为具身认知。
语义推理
- LLMs通过分析语言指令中的语言模式、上下文关系和隐含知识来解释语义。通过Transformer架构,LLMs将输入标记映射到潜在表示中,实现从语法到语用层面的层次化语义抽象。
 - LLMs利用注意力机制,对相关的语义线索进行加权,同时抑制噪声,支持逻辑推理和类比推理。通过将预训练语料库中的世界知识与任务特定提示相结合,LLMs动态构建概念图,将文本输入与预期结果对齐。
 - 例如,SayCan通过预训练的自然语言动作库,限制LLMs提出不可行和不适当的动作,然后将自然语言指令转换为自然语言动作序列,并通过价值函数验证这些动作序列在特定物理环境中的可行性。
 
任务分解
- LLMs利用其序列逻辑,将复杂目标分解为子任务,通过层次化分析上下文依赖关系和目标对齐来实现。通过链式思考提示,LLMs迭代解析指令,生成可操作的步骤,同时通过语义一致性解决歧义。
 - 例如,SayCan使用LLMs将自然语言指令转换为自然语言动作序列,并通过价值函数验证这些动作序列在特定物理环境中的可行性。这种方法使机器人能够根据自然语言指令执行复杂的任务。
 
MLLMs增强具身AI
MLLMs能够处理整个具身AI系统,通过桥接高级多模态输入和低级电机动作序列,实现端到端的具身应用。与LLMs相比,MLLMs在多模态输入的语义推理和任务分解方面表现出色,能够动态适应基于传感器反馈的计划。
视觉语言模型在具身AI中的应用
- VLMs将视觉和语言指令理解相结合,使物理或虚拟智能体能够在目标驱动的任务中感知环境。例如,PaLM-E首先训练视觉和语言编码,然后将这些编码与预训练的LLMs结合,实现多任务完成。
 - 例如,ShapeNet通过微调对比嵌入,实现3D空间推理,显著减少路径规划误差。这些工作表明,VLMs能够将感知和推理结合起来,解决具身AI中的许多任务。
 
视觉语言动作模型在具身AI中的应用
- VLAs将多模态输入与低级动作控制通过可微分的管道整合在一起。例如,RT-2将机器人的当前图像、语言指令和机器人动作编码为文本标记,然后使用LLMs进行语义推理和任务分解,最后将生成的标记解码为最终动作。
 - 例如,Octo在10万个机器人演示和语言注释上进行预训练,实现跨体现工具使用。PerAct利用3D体素表示实现毫米级抓取精度。这些工作表明,VLAs能够处理整个具身AI系统,并在新机器人和环境中实现适应性扩展。
 
具身AI中MLLMs的分类
MLLMs可以增强具身AI的主动感知、具身认知和动态交互。
MLLMs在主动感知中的应用
- MLLMs可以增强3D SLAM,通过将视觉观察与语义表示相结合,为传统SLAM管道增添高级上下文信息,如对象类别、空间关系和场景语义。例如,SEO-SLAM利用MLLMs为对象生成更具体和描述性的标签,同时动态更新多类混淆矩阵,以减少对象检测中的偏差。
 - MLLMs还可以增强3D场景理解,将2D视觉输入映射到与语言目标对齐的语义丰富特征中。例如,EmbodiedGPT利用相机输入与视觉语言预训练的协同作用,将2D视觉输入映射到语义丰富的特征中。
 - MLLMs还可以增强主动环境探索,通过结构化运动级反馈,将碰撞检测等信号纳入规划循环,使模型能够迭代修订符号动作序列。例如,LLM3专注于结构化运动级反馈,而MART则利用交互反馈提高检索质量。
 
MLLMs在具身认知中的应用
- MLLMs可以增强任务驱动的自我规划,具身智能体可以直接将高级目标映射到结构化动作序列,或者采用中间规划策略,通过与环境的持续交互来细化计划。例如,CoT-VLA预测中间子目标图像,这些图像描绘了子任务的期望结果,帮助智能体可视化并推理复杂任务的每一步。
 - MLLMs还可以增强记忆驱动的自我反思,使智能体能够通过其固有的记忆模块从经验中学习。例如,Reflexion通过自我生成的语言反馈增强智能体的性能,这种反馈存储在情节记忆缓冲区中,并用于指导未来的规划。
 - MLLMs还可以增强具身多模态基础模型,通过在具身环境中持续预训练或微调,使MLLMs适应物理世界。例如,QwenVL和InternVL等模型支持更广泛的模态对齐,如多模态语言模型。
 
MLLMs在动态交互中的应用
- MLLMs能够将复杂任务分解为可操作的子任务,然后通过自回归方式生成每个子任务的连续控制信号,或者使用辅助策略头进一步处理其内部表示。例如,π-0结合视觉语言骨干和流匹配解码器,生成平滑、时间延长的行为轨迹。
 - MLLMs还可以增强协作决策,使多智能体系统能够实现人类水平的协调,并迅速适应不可预见的挑战。例如,Combo引入了一种新框架,通过去中心化的智能体之间的协作,仅使用以自我为中心的视觉观察来增强协作。
 - MLLMs还可以增强人机协作,通过将人类口头命令与视觉上下文对齐,实现流畅和对话式的人机交互。例如,VLAS通过语音编码器和LLaVA风格的MLLM,将人类口头命令与视觉上下文对齐,实现可解释和适应性强的控制策略。
 
基于世界模型的具身智能
世界模型增强具身AI
世界模型通过构建外部世界的内部表示和未来预测,显著增强了具身AI的物理交互能力。这些模型使智能体能够在动态环境中进行物理规律合规的交互。
外部世界的内部表示
- 内部表示将丰富的感官输入压缩成结构化的潜在空间,捕捉物体动态、物理定律和空间结构。这些表示使智能体能够推理其周围环境中“存在什么”以及“事物如何行为”。
 - 这些潜在嵌入保留了实体和环境之间的层次关系,反映了现实世界的组合性质。结构化的表示有助于跨环境的泛化,因为抽象的原理(如重力或物体恒存性)超越了具体实例。例如,通过编码时间和空间的连续性,这些模型在规划过程中自然地强制执行一致性约束,过滤掉不符合物理规律的动作,从而提高样本效率。
 
外部世界的未来预测
- 未来预测通过模拟符合物理定律的序列动作的潜在奖励,从而预防风险或低效行为。这种预测能力将短期动作与长期目标联系起来,过滤掉违反物理规律(如穿墙)或战略连贯性(如过早耗尽资源)的轨迹。
 - 长期预测允许智能体在探索和利用之间进行自适应平衡,通过模拟远期结果来避免局部最优,同时保持对短期可行步骤的关注。例如,连续的预测误差最小化驱动模型的迭代细化,使系统能够自我纠正,使其内部的物理模拟器与观察到的现实对齐,从而提高样本效率。
 
具身AI中世界模型的分类
具身AI中的世界模型可以主要分为三类:基于循环状态空间模型(RSSM-based)的世界模型、基于联合嵌入预测架构(JEPA-based)的世界模型和基于Transformer的世界模型(Transformer-based WMs)。此外,还有基于层次结构的模型和基于扩散的模型。
基于RSSM的世界模型
- RSSM是Dreamer算法家族的基础架构,通过视觉输入获取环境的时间动态,并在潜在表示中进行预测,从而实现基于潜在轨迹优化的动作选择。
 - RSSM通过正交分解隐藏状态为概率和确定性成分,明确考虑系统模式和环境不确定性。这种架构在机器人运动控制应用中表现出色,启发了许多后续研究。
 
基于JEPA的世界模型
- JEPA提供了一种开发自主机器智能系统的方法,通过表示学习建立输入数据和预期结果之间的映射关系。
 - 与传统的生成方法不同,JEPA在抽象的潜在空间中操作,而不是生成像素级的重建,优先考虑语义特征提取而不是低级信号合成。
 - JEPA通过自监督训练范式,使神经网络能够推断出被遮挡或未观察到的数据片段。这种预训练方法使模型能够跨下游应用进行迁移学习,表现出更强的泛化能力。
 
基于Transformer的世界模型
- Transformer结构最初用于自然语言处理研究,依赖于注意力机制来处理输入序列,通过并行上下文加权来克服循环神经网络(RNNs)的顺序处理限制。
 - Transformer在需要持久记忆保留和显式记忆寻址的认知推理领域表现出色,自2020年以来在强化学习研究中得到广泛应用。
 - 例如,Google的Genie框架使用空间-时间Transformer(ST-Transformer)通过大规模自监督视频预训练创建合成交互环境,为世界模型的发展提供了新的范式。
 
基于MLLMS和WMS具身智能
MLLMs和WMs的局限性及协同作用
- MLLMs的局限性:MLLMs在具身AI中存在两大局限性。首先,它们往往无法将预测结果与物理动态规律相结合,导致计划不切实际。例如,在操纵物体时忽略摩擦力或材料属性,可能会导致物体滑落或任务失败。其次,MLLMs对环境反馈的实时适应性较差,限制了其响应能力。尽管MLLMs在语义任务分解方面表现出色,但它们在环境发生显著变化时难以自适应调整动作。这些局限性源于它们依赖于静态的预训练知识,而非持续的物理交互。
 - WMs的局限性:WMs在抽象推理和泛化方面存在挑战。它们在处理开放性语义任务时表现不佳,因为它们更侧重于物理模拟而非上下文理解。此外,WMs缺乏在没有明确先验知识的情况下进行泛化任务分解的能力。例如,一个在刚体操纵上训练的WM模型可能无法适应可变形材料,除非进行大量重新训练。其预测精度高度依赖于特定领域的交互记录,限制了其在多样化环境中的可扩展性。
 - MLLMs增强WMs的推理能力:MLLMs可以通过跨模态对齐和语义锚定来增强WMs的推理能力。例如,基于CLIP的架构能够使智能体将视觉场景与语言线索对齐,减少目标识别中的歧义。此外,MLLMs可以增强WMs的任务分解能力,将高级目标分解为可执行的子任务。例如,GPT-4V等模型可以利用存储在WMs中的环境上下文生成逐步计划。MLLMs还可以通过人类反馈来优化WMs的内部表示,例如通过强化学习与人类反馈(RLHF)技术,使智能体能够根据纠正性输入更新WMs的先验知识。
 - WMs增强MLLMs的交互能力:WMs可以通过提供物理定律、时空关系和闭环交互体验来优化MLLMs。例如,Physion++等模型可以将WMs中存储的生物力学模型整合进来,过滤掉违反扭矩限制的MLLMs生成的机器人动作。WMs还可以通过在多模态处理过程中维持时空上下文来稳定MLLMs的推理过程。例如,MemPrompt等模型可以利用WMs缓冲区对齐视觉目标轨迹与语言描述,解决复杂环境中的歧义问题。WMs还可以通过闭环交互使MLLMs的输出得到迭代细化。例如,Reflexion等模型可以将任务执行历史存储在WMs中,使MLLMs能够利用失败模式纠正运动学错误。
 
联合MLLM-WM驱动的具身AI架构
本节提出了联合MLLM-WM驱动的具身AI架构,展示了其在使能物理世界中复杂任务执行方面的深远意义。具体工作流程如下:
- 机器人→自身状态输入→MLLMs/WMs→硬件实体化→机器人:流程从自身状态输入开始,追踪机器人的自由度、传感器数量等自身状态信息。这些信息输入到WMs和MLLMs中:WMs利用这些信息构建智能体的物理状态内部表示,而MLLMs则将这些状态信息与任务目标对齐。硬件实体化环节则将WMs和MLLMs集成到物理设备中,解决从仿真到现实的问题。这种双向数据流确保了动作既符合机械限制,又与高级任务目标一致。
 - MLLMs→任务规划→WMs→记忆更新→MLLMs:MLLMs将抽象指令分解为子任务,并将规划结果传递给WMs。WMs根据现有的环境模型预测执行结果,并将结果记录在记忆中。记忆更新模块将这些记录结构化为经验,包括遗忘过去的任务记忆、更新当前任务记忆以及预测未来任务记忆。这些更新后的记忆反馈给MLLMs,丰富其知识库,从而实现终身学习,使过去的失败经验能够直接指导未来的任务规划。
 - 环境→主动感知→MLLMs/WMs→动态交互→环境:WMs首先通过预测环境的关键变化来驱动主动感知。然后,多模态输入被用来通过WMs构建外部世界的内部表示,以及通过MLLMs进行语义推理。MLLMs的任务分解和WMs的未来预测共同使能动作选择和与环境的交互。通过持续的感知和交互,智能体能够适应动态环境中的变化。
 
讨论
- 联合MLLM-WM架构为具身AI提供了一种有前景的解决方案。如上表所示,MLLMs在语义理解方面表现出色,能够进行高级任务分解、上下文理解和自适应规划,利用多模态输入。而WMs则提供了基于物理的环境模拟,确保动作符合现实世界的物理约束。
 - 这种协同作用使智能体能够在动态环境中平衡抽象推理和实时物理交互,从而增强决策能力。例如,MLLMs可以生成任务计划,而WMs可以验证其可行性,从而实现迭代优化。此外,联合架构支持跨模态泛化,通过桥接符号知识和传感器运动技能,提高在部分可观测或新场景中的鲁棒性。
 
然而,联合MLLM-WM驱动的具身AI架构也面临一些挑战:
- MLLMs的高延迟语义处理与WMs基于物理的表示之间需要实时同步,这常常导致动态环境中的响应延迟。
 - 语义与物理之间的不一致性可能导致MLLMs生成的计划违反未被建模的物理约束。
 - WMs内部状态的持续更新可能会使MLLMs被无关上下文信息淹没,从而需要有效的记忆管理。
 - 此外,训练这样的系统需要大量涵盖罕见边缘情况的多模态数据集,同时确保在传感器噪声和部分可观测性存在的情况下系统的鲁棒性仍然是一个未解决的问题。
 - 这些挑战需要轻量级的MLLMs推理、更紧密的反馈循环以及动态上下文过滤机制,以最小化延迟并提高系统性能。
 
具身智能应用
服务机器人
具身AI在服务领域变得越来越重要,它使服务机器人能够超越固定规则,使用不同类型的信息灵活地执行任务。例如:
- 家庭环境:系统如RT-2和SayCan结合语言指令与机器人控制,使机器人能够执行堆叠盘子或烹饪等任务。少样本学习方法如AED可以从有限的演示中获取新技能。
 - 医疗保健:具备多种输入类型的机器人可以帮助提醒、康复和陪伴。
 - 公共环境:平台如Habitat和RTX支持导航和物品递送,即使在不断变化的环境中,也无需对每个任务进行特殊训练,使系统更加通用和实用。
 
然而,当前的方法在处理长期任务方面仍然存在限制。联合WMs和MLLMs作为一种关键策略,正在兴起,以增强服务机器人的自主性和长期推理能力。WM维护不断演变的环境模型以支持规划和模拟,而MLLM将类似“清理客厅”这样的命令分解为适应性子任务。这种协作支持灵活推理、目标适应和在现实世界中的稳健性。
救援无人机
具身AI技术正在改变无人机在灾难情况下的使用方式。传统无人机要么手动控制,要么依赖预先构建的地图,这导致它们无法独立适应环境。然而,具身无人机可以实时感知环境并对突发变化做出响应,这使它们在地震区域、森林火灾或洪水等危险地带非常有用。例如:
- 语言指令理解:借助语言模型,无人机能够理解和遵循人类语音指令,帮助无人机迅速改变行动,增强其在紧急情况下的响应能力,例如“在倒塌的桥梁附近搜索”。
 - 危险环境模拟:一些工作使用世界模型来模拟危险环境,帮助它们避免危险并规划更安全的路径。
 - 多无人机协作:其他研究探索了如何让多架无人机协同工作,以寻找幸存者并绘制受损区域的地图。
 
尽管取得了这些进展,但当前的方法在处理长期推理和在不确定性下的自主决策方面仍然存在限制。联合WMs和MLLMs已成为进一步增强无人机自主性的关键策略。WM维护连续演变的时空环境表示,支持即使在GPS受限条件下的规划和风险预测。MLLM根据无人机的信念状态将命令分解为结构化子任务。这种协调提高了任务关键场景中的泛化能力、长期推理能力和高级自主性。
工业机器人
具身AI正在改变工厂中机器人的工作方式。借助具身AI,工业机器人可以根据周围环境做出更智能的决策。传统工业机器人通常固定在一个位置,使用特殊的传感器和工具,并且需要以非常高的精度完成重复性的任务。然而,借助具身AI,这些机器人可以做到更多,例如:
- 调整抓取力度:机器人可以根据物体的性质调整抓取脆弱物体的力度。
 - 路径规划:机器人在遇到障碍物时可以找到新的路径。
 - 实际应用:例如,特斯拉工厂的机器人可以自行找到并修复未对齐的部件,无需人工干预。JD的机器人使用不同类型的传感器根据大小和地址对包裹进行分类。在天猫仓库中,机器人使用热像仪、激光雷达和RGB传感器检查库存问题,并在发现问题时发出警报。
 
其他应用
除了在家庭、医疗保健和救援任务中的应用外,具身AI还被应用于教育、虚拟和太空环境等领域。例如:
- 智能制造:支持能够与人类协作的机器人,执行精确的装配任务,并根据工作空间或人类行为的变化调整动作。
 - 教育:具身AI被用于社交机器人,它们可以根据学生的注意力和情绪调整语言、目光和手势,从而创造更加个性化的学习体验,并建立学生与机器人之间的长期信任。
 - 虚拟环境:具身智能体学习移动、与物体交互以及完成需要多个步骤的任务。它们还随着时间的推移发展记忆,以提高性能。
 - 太空探索:在条件未知且与地球通信延迟的情况下,具身AI允许机器人自主做出决策并适应新环境。
 
未来方向
自主具身AI
自主具身AI的目标是使智能体能够在动态开放环境中长期独立运行。未来的研究预计将在以下几个关键方向上发展:
- 自适应感知:使系统能够自主选择输入数据,通过动态选择和整合来自不同感官模态的信息来实现。
 - 环境意识:帮助智能体快速适应变化,预测其行动的后果,并将其行为转移到新环境中。这需要能够捕捉时空模式并建模因果关系的记忆架构。
 - 实时物理交互:结合MLLMs与实时物理交互,使智能体能够将高级语言指令与低级控制相结合,并准确地模拟现实物理世界。
 
具身AI硬件
具身AI硬件的未来研究预计将在以下四个方向上发展:
- 硬件感知模型压缩:继续将量化和剪枝等技术与硬件性能指标相结合,实现模型精度与部署效率之间的精确权衡。
 - 图级编译优化:在连接高级具身模型和低级硬件执行之间发挥关键作用,重点是更有效的操作融合、调度策略和内存访问效率,以减少执行开销。
 - 特定领域加速器:将越来越多地针对具身任务的计算特性进行定制。可重构架构(如FPGA和CGRA)提供灵活性和适应性,而ASIC设计则提供高效率和性能。
 - 硬件软件协同设计:对于消除算法行为和硬件架构之间的不匹配至关重要。模型结构和硬件架构的联合优化对于实现具身AI系统中的实时、节能执行至关重要。
 
群体具身AI
群体具身AI指的是多个智能体之间的协作感知和决策。由于多个智能体在协作时比单个智能体表现出更强的能力,这种“集体智能”引起了众多研究人员的兴趣,并被视为智能体接近人类的重要一步。未来的研究需要在以下几个方面取得进展:
- 协作世界模型:开发能够基于每个智能体的观察建立共享且动态的环境表示的模型,形成集体理解的基础。
 - 多智能体表示学习:帮助智能体理解自身状态以及理解其他智能体的情况,这是智能体之间通信和协作的基础。
 - 社会行为建模:对智能体之间的社会行为进行建模至关重要。通过行为建模,可以更好地实现角色分配和群体决策。
 - 人-群体交互界面:为了无缝集成到实际应用中,还需要设计自然的人-群体交互界面。这可能包括基于多模态语言基础的控制方法,使人类更容易指导和引导整个智能体群体。
 
可解释性和可信度具身AI
可解释性和可信度是具身AI的关键前沿领域,对于其在安全、伦理和广泛现实世界部署中至关重要,因为智能体越来越多地与人类和动态环境进行物理交互。未来的研究必须解决以下几个关键挑战:
- 实时可解释性基准:设计能够为智能体行动提供实时、人类可理解的解释的基准,特别是在意外情况或失败期间,这对于建立用户信任和调试至关重要。
 - 伦理决策机制:建立强大的机制,确保智能体在自主决策过程中遵守伦理原则和人类价值观,特别是在救援或医疗保健等常见道德模糊场景中。
 - 可验证的安全保证:为在非结构化物理环境中运行的智能体创建可验证的安全保证和认证标准,减轻与不可预测交互相关的风险。
 - 鲁棒性增强:增强对对抗性攻击、传感器噪声和分布偏移的鲁棒性,确保即使在现实世界中固有的不确定性下也能可靠运行。
 
其他方向
一些新的方向可能会影响具身AI的未来发展:
- 终身学习:智能体需要持续学习新技能,同时不遗忘已经学到的内容。只有这样,它们才能适应动态环境并保持之前完成任务的准确性。
 - 人机交互学习:人类反馈是非常重要的监督信息。少量反馈可以显著提高智能体的性能并使其更具人性化。为此,我们需要更好的方法来使智能体能够理解人类的目标和偏好。
 - 道德决策:随着智能体变得越来越自主,道德决策变得越来越重要。未来的系统应该学会谨慎识别道德风险并遵循人类价值观。这将有助于确保嵌入式人工智能既安全又可靠。
 
总结
- 具身AI的发展历程:从单模态到多模态的演变,具身AI在主动感知、具身认知和动态交互方面不断进步,LLMs和WMs的出现为其发展带来了新的机遇。
 - LLMs和WMs的作用:LLMs通过语义推理和任务分解增强了具身AI的认知能力,而WMs则通过构建外部世界的内部表示和未来预测,提升了具身AI的物理交互能力。
 - 联合MLLM-WM架构:提出了联合多模态LLMs(MLLMs)和世界模型(WMs)驱动的具身AI架构,该架构能够将语义智能与基于物理的交互相结合,显著提升了智能体在复杂物理世界中的任务执行能力。
 - 具身AI的应用:具身AI在服务机器人、救援无人机、工业机器人等多个领域展现了广泛的应用前景,为解决现实世界中的复杂任务提供了有效的解决方案。
 - 未来研究方向:未来具身AI的研究将聚焦于自主具身AI、具身AI硬件、群体具身AI、可解释性和可信度具身AI等领域,以推动具身AI从专用智能体向通用物理智能的发展。