首页/人工智能/基于虚实结合强化学习的自生长机器人运动规划(MOOP)/
基于虚实结合强化学习的自生长机器人运动规划(MOOP)
2025-10-22 10:29:0817浏览
源自:中国科学信息科学

01 研究意义

自生长机器人是一种受藤蔓启发的新型软体机器人,可以通过材料外翻的方式延伸长度。得益于其较强的柔顺性,可以通过环境交互在狭小的空间中导航。然而当前的转向策略,在运动精度,灵活性和避障能力方面均存在一定短板。同时,基于强化学习的方法在自生长机器人领域的相关研究仍在理论阶段,训练受到参数误差、状态估计不准确、环境干扰、可重复性低和高耗时等因素的制约。

02 本文工作

本文提出了一种基于虚实结合强化学习的自生长机器人运动规划算法,为受限场景下自生长机器人的具身导航提供了新思路。算法在自生长机器人样机的基础上(图1),使用预弯曲和气动人工肌肉相结合的转向策略,融合了多模态的传感信息在受限场景中导航。

图1 (i) 自生长机器人样机 (ii) 预弯曲转向 (iii) 气动人工肌肉转向

文章提出了一种虚实迁移策略(图2),在unity虚拟场景下训练自生长机器人,并在实物样机上进行验证。

图2 (i) 自生长机器人虚实迁移仿真构架(ii) 胶囊体、预弯曲其激动人工肌肉示意图 (iii) 自生长机器人的虚实对比

算法采用基于DDPG的分层强化学习构架(图3),第一层网络学习智能体和环境的交互行为,控制自生长机器人设定预弯曲。第二层网络考虑了传感和制造误差,控制气动人工肌肉运动以减小运动误差。虚拟场景下的仿真具有较高的实时性和准确性,可有效提升训练效率。

图3 (i) 双层DDPG强化学习网络构架 (ii) 预弯曲动作选择网络状态向量 (iii) 感知与误差纠正网络状态向量

实验结果

实验结果表明,该算法有效降低了自生长机器人的路径跟随误差,成功率可达95%以上(图4)。该算法为自生长机器人受限场景下的具身导航提供了新方法。

图4 (a) 预弯曲动作选择网络实验验证 (b) 感知与误差纠正网络实验验证

友情链接: