2025-10-31 14:57:2017浏览
源自:colahub
总结
该综述聚焦大模型赋能的具身智能,系统梳理其在自主决策与具身学习两大核心方向的进展:自主决策涵盖分层决策(大模型增强高层规划、低层执行与反馈优化)与端到端决策(基于视觉-语言-动作(VLA)模型,大模型提升感知、动作生成与部署效率);具身学习重点阐述大模型对模仿学习(扩散模型、Transformer构建策略网络)与强化学习(优化奖励函数设计与策略网络)的增强作用,首次将世界模型纳入具身智能研究,分析其设计方法及对决策与学习的关键支撑,最后指出当前面临的具身数据稀缺、持续学习、计算部署效率及仿真到现实差距等挑战,为通用人工智能(AGI)方向提供理论框架与实践指导。
论文全览
详细总结
引言:研究背景与综述定位
具身智能核心定义:旨在开发具备物理形态的智能系统,能在现实环境中实现感知、决策、行动与学习,是通往通用人工智能(AGI) 的关键路径(参考Turing 1950年提出的智能定义)。
研究瓶颈:传统具身智能依赖预编程规则(如早期符号推理系统),适应性有限;深度学习虽降低环境建模依赖,但模型多为任务特定,泛化性与迁移性差。
大模型的突破:以LLM(如GPT系列)、LVLM(如CLIP)、MLM(如Gemini)、VLA(如RT-2)为代表的大模型,凭借强大的感知、推理、交互能力,革新具身智能研究。
综述价值:
- 填补空白:现有综述多聚焦大模型本身或具身智能单一组件(如规划、模拟器),本文首次系统整合大模型与具身智能的协同机制。
 - 核心聚焦:围绕自主决策与具身学习两大核心,同时首次将世界模型纳入具身智能研究框架。
 - 分析方法:采用“水平对比+垂直追溯”双维度分析,既对比不同方法(如分层vs端到端决策),又追溯技术演进(如VLA模型从RT-2到Octo的发展)。
 
基础概念:具身智能与大模型基础
具身智能(Embodied AI)
- 组成结构:包含物理实体(如人形机器人、四足机器人、智能车)与智能体(认知核心,负责决策与学习)。
 - 核心流程:模仿人类问题解决范式——通过模仿学习从演示/视频获取技能,面对新场景时分析环境、分解任务、规划策略,结合强化学习与反馈优化(见图2)。
 - 核心能力:自主决策(分层/端到端两种范式)与具身学习(通过交互持续优化技能)。
 
主流大模型类型及演进

大模型通用能力增强技术
- In-Context Learning(ICL):通过设计提示词实现零样本泛化,无需额外训练。
 - X of Thoughts(XoT):含CoT(链式推理)、ToT(树状推理)、GoT(图状推理),提升复杂问题解决能力。
 - Retrieval Augmented Generation(RAG):从外部知识库检索信息,缓解大模型知识过时问题。
 - Reinforcement Learning from Human Feedback(RLHF):结合人类偏好训练,使模型输出更符合人类意图。
 - Model Context Protocol(MCP):标准化大模型与外部工具交互接口,提升 interoperability。
 
具身大模型(ELM/EMLM)
- 核心作用:整合多模态(文本、视觉、音频、触觉),赋能具身智能的感知、推理与行动,是自主决策与具身学习的核心支撑。
 - 分工差异:LLM作认知骨干,LVM负责视觉感知,LVLM/MLM增强跨模态理解,VLA实现端到端感知-动作映射。
 
自主决策:分层与端到端范式
分层自主决策(Hierarchical Paradigm)
- 核心架构:分为感知交互层(依赖视觉模型)、高层规划层(分解任务)、低层执行层(执行动作)、反馈增强层(优化决策)(见图5)。
 
高层规划(High-Level Planning)

低层执行(Low-Level Execution)
- 传统控制算法:PID(关节控制)、LQR(状态反馈优化)、MPC(无人机路径跟踪),优势是实时性强、可解释性高,局限是动态环境适应性差。
 - 学习驱动控制:
 - 模仿学习:Embodied-GPT用7B LLM规划,模仿学习生成低层策略。
 - 强化学习:Hi-Core分两层,LLM设高层策略,RL生成低层动作。
 - 模块化控制:LLM调用预训练模型(如CLIP检测、SAM分割),如DEPS、PaLM-E,优势是可复用性强,局限是可能引入通信延迟。
 
反馈与增强(Feedback and Enhancement)

端到端自主决策(End-to-End Paradigm)
- 核心载体:视觉-语言-动作(VLA)模型,直接映射多模态输入(视觉+语言)到动作,避免分层范式的误差累积(见图9)。
 
VLA模型核心组件
- token化与表示:将视觉(环境图像)、语言(任务指令)、状态(机器人关节/ gripper状态)、动作(控制信号)编码为token。
 - 多模态信息融合:通过Transformer的交叉注意力机制,融合多模态token为统一嵌入向量。
 - 动作解token化: autoregressive解码器生成动作token,分离散(如RT-2,8维动作空间,每维256个区间)与连续(如Octo,扩散模型生成)两种方式。
 
VLA模型增强方向

主流VLA模型对比(部分关键模型)
具身学习:从模仿到强化,大模型全面提效
具身学习基础框架
- 数学建模:定义为8元组 ((S, A, G, T, R, , O, )),其中:
 - (S):环境状态集,(A):动作集,(G):目标集,(T):状态转移概率,(R):目标条件奖励函数,():观测集,(O):观测概率,():折扣因子(0≤γ<1)。
 - 核心目标:通过交互获取技能,优化策略 (),分层决策中含高层子目标生成(())与低层动作映射(())。
 
主流具身学习方法对比

大模型增强模仿学习
- 核心方向:构建更鲁棒的策略网络,解决传统模仿学习泛化性差、演示依赖强的问题。
 - 扩散模型-based策略网络:处理复杂多模态动作分布,如Pearce框架(迭代加噪去噪)、DABC(两阶段训练)、Diffusion Policy(U-Net去噪,视觉驱动)、3D-Diffusion(3D输入提升空间理解)。
 - Transformer-based策略网络:建模轨迹序列依赖,如RT-1(130k+轨迹训练)、RT-Trajectory(轨迹草图增强泛化)、ALOHA(双机械臂操作)、RoboCat(跨任务模仿,VQ-GAN token化视觉)。
 
大模型增强强化学习
奖励函数设计(解决人工设计难问题)

策略网络构建(提升离线RL的泛化性与表达性)

世界模型:设计与具身智能应用
世界模型设计类型

世界模型在具身智能中的作用
辅助自主决策
- 模拟验证:在虚拟环境测试决策,降低现实成本,如NeBula(贝叶斯滤波构建信念空间)、UniSim(生成高/低层控制的视觉结果)。
 - 知识增强:提供环境常识与全局知识,如WKM(整合全局任务知识与局部状态知识)、Agent-Pro(建模“信念”理解社交环境)。
 
辅助具身学习
- 状态转移模拟:减少现实交互,如RobotDreamPolicy(世界模型内训练策略)、DayDreamer(Dreamer V2生成 latent状态预测)、SWIM(互联网人类视频预训练,理解交互)。
 - 数据生成:合成稀缺数据,如SynthER(生成离线RL轨迹)、MTDiff(生成多任务轨迹)、VPDD(人类操作数据预训练,减少机器人数据需求)。
 
挑战与未来展望
核心挑战
- 具身数据稀缺:现有数据集规模远小于视觉语言数据(如VIMA 65万演示、RT-1 13万演示 vs LAION-5B 57.5亿图文对),原因是机器人设计多样、现实交互复杂。
 - 持续学习(Continual Learning):
 - 灾难性遗忘:学习新任务导致旧技能丢失(如机器人平地导航训练后,崎岖地形导航能力下降)。
 - 探索效率低:难平衡新经验探索与旧知识利用。
 - 现实不确定性:传感器退化、机械磨损影响学习。
 - 计算与部署效率:
 - 训练成本高:Diffusion-VLA需数百GPU训练数周,计算量达PFlops级。
 - 部署受限:RT-2需20GB显存,边缘设备(如机器人)资源有限;云端部署存在隐私与实时性问题。
 - 仿真到现实差距(Sim-to-Real Gap):仿真环境的物理动力学(摩擦、碰撞)与视觉渲染(光照、材质)无法完全匹配现实,导致策略迁移失败。
 
潜在解决方向
- 数据稀缺:世界模型合成数据(如SynthER)、整合人类数据集(如Ego4D),需解决现实差距与动作对齐问题。
 - 持续学习:经验回放(缓解遗忘)、正则化(约束权重更新)、自监督学习(内在动机驱动探索)、多智能体协作。
 - 效率优化:参数高效微调(LoRA,成本降为全微调的1/10)、模型压缩(知识蒸馏、量化,如TinyVLA 10M参数)、硬件加速(定制芯片)。
 - 仿真到现实:高精度模拟器(如Genesis,可微渲染)、域适应技术。