首页/人工智能/“具身智能核心技术开发与应用”研修班暨工业和信息化部教育与考试中心《人工智能应用工程师》(高级)职业技术人才培养/
“具身智能核心技术开发与应用”研修班暨工业和信息化部教育与考试中心《人工智能应用工程师》(高级)职业技术人才培养
2025-10-21 17:45:26100浏览
培训时间:2025年11月27日-30日

各企、事业单位:

《2025年国务院政府工作报告》明确提出要培育具身智能等未来产业。具身智能(Embodied AI)作为人工智能技术的重要发展方向,其核心在于将智能算法与物理实体深度融合。通过将AI系统嵌入机器人、无人装备、新能源汽车等实体载体,这项技术实现了"智能大脑"与"物理身体"的有机统一,使机器系统能够像人类一样具备环境感知、自主学习和实时交互等能力。

为积极响应科研及工程技术人员需求,落实人工智能战略部署,加快培养数字技术人才,中国人工智能培训网(http://www.chinaai.org.cn)、北京龙腾亚太教育咨询有限公司、北京龙腾智元信息技术有限公司特举办“具身智能核心技术开发与应用”研修班暨工业和信息化部教育与考试中心《人工智能应用工程师》(高级)职业技术人才培养。本次培训采用理论+实战培训模式,由北京龙腾亚太教育咨询有限公司进行相关费用收取及发票开具。

具体通知如下:

一、时间安排:

2025年11月27日 — 2025年11月30日    北京(同时转线上直播)

(27日报到发放上课材料,28日-30日上课)

二、参会对象:

各省市、自治区从事人工智能、机器人、具身智能、自然语言处理、计算机视觉、无人机、无人车、无人艇等领域相关研究的企事业单位技术骨干、科研院所研究人员和大专院校相关专业教学人员及在校研究生等相关人员,以及具身智能研究的广大爱好者。

三、培训专家

985、国防七子高校副教授,硕导,主要研究方向为具身智能、深度强化学习、多智能体系统等。在 CCF·A/B 类会议和期刊上发表 20余篇高水平学术论文,授权发明专利3项。获得 2023 年度 CCF 多智能体学组优秀博士生论文奖。担任中国指挥与控制学会空间信息通信技术专委会执行委员,多次担任NeurIPS,·ICML,·IJCAI 等 CCF·A类会议审稿人,作为负责人承担国家自然科学基金青年基金。

四、培训目标

1.了解具身智能发展现状。

2.掌握具身智能感知-思考-行动循环框架。

3.掌握Habitat使用技巧。

4.了解具身智能与生成式AI的结合趋势。

5.理解Options(时序扩展的动作单元)与Motion Primitives(基础运动单元)的概念。

6.掌握逆强化学习(IRL)核心逻辑。

7.了解多任务学习与元技能学习。

8.了解主流PDDL规划器的工作原理。

9.掌握大语言模型(LLM)在任务规划中的辅助与应用。

10.掌握VLA(视觉-语言-动作)智能体架构。

11.掌握基于用户反馈(如满意度评分、行为选择)的信任度评估方法

五、费用标准:

A类、4980元/人(含培训费、资料费、场地费、平台使用费、午餐费、A类证书费)。

B类、7980元/人(含报名费、培训费、资料费、场地费、平台使用费、考试费、午餐费、A类B类证书费)。

注:住宿可统一安排,费用自理

1、培训费由组织培训班的施教机构负责收取并提供培训发票。

2、5人以上9折优惠,8人以上8.8折优惠。

3、B类证书费不享受优惠。

4、参加线上、线下培训学员均可享受视频录播回放权益,及本人再次免费参加线下同主题课程学习权益。

六、颁发证书:

A类、参加相关培训并通过考核的学员,由北京龙腾亚太教育咨询有限公司颁发《具身智能核心技术开发与应用》培训结业证书

B类、参加相关培训并通过考核的学员,由工业和信息化部教育与考试中心颁发《人工智能应用工程师》(高级)职业技术证书,可通过工业和信息化部教育与考试中心官方网站查询,并纳入工信部教育与考试中心人才库,该证书可作为有关单位职称评定、专业技术人员能力评价、考核和任职的重要依据。

注:选报B类证书学员报到时请提交电子版彩照(大于20KB,红蓝底皆可)、身份证、学历证明复印件各一份。

七、注意事项

1.指定报名邮箱:2044115758@qq.com。

2.报名成功后,会务组在报到前一周发具体报到通知及行车路线。

3.学员需自备能连网电脑一台。

八、报名咨询

联系人:张 杰

手 机:13401149170(微信同号)

电 话:010-81311930

报名邮箱:2044115758@qq.com

九、具体课程安排

关键点

具体内容

1.具身智能概述:感知-思考-行动

2.技能学习:模仿学习与强化学习

3.任务规划:经典与学习型规划

4.VLA智能体:多模态融合

5.人机交互:多模态接口与信任建模

关键知识点

1.具身智能核心:整合感知、决策与行动,实现物理智能体在真实环境中的自适应操作;

2.技能学习关键方法:掌握模仿学习与强化学习的核心逻辑与适用场景;

3.任务规划双路径:理解经典规划的形式化语言与基于学习的分层规划的灵活性,以及大语言模型在规划中的辅助作用;

4.VLA智能体核心:突破单模态局限,掌握视觉、语言、动作的多模态融合技术,包括预训练与指令微调方法;

5.人机交互重点:构建多模态交互接口,建立用户信任模型,确保机器人操作的可解释性与用户接受度

第一天

一、具身智能概述

具体内容

1.具身智能定义与发展背景

2.感知-思考-行动循环框架

3.常用数据集与模拟器介绍

4.具身智能与生成式AI的结合趋势

关键知识点

1.定义与历史:明确具身智能是AI的重要分支,聚焦物理agents中感知、行动、推理的整合,了解其从传统静态AI向动态交互AI的演进;

2.核心框架:掌握“感知-思考-行动”循环的逻辑,理解该框架如何支撑机器人在真实环境中的持续决策与操作;

3.工具支撑:熟悉主流数据集(如用于机器人感知的场景数据集)与模拟器(如Habitat)的功能,明确其在具身智能研究中的作用——降低真实环境实验成本、提供可控测试场景;

实操案例

1.模拟器(Habitat)安装与基础环境搭建

2.运行一个简单的智能体导航Demo

二、技能学习

具体内容

1.技能抽象:Options与Motion Primitives

2.模仿学习:行为克隆与逆强化学习

3.强化学习在技能学习中的应用

4.多任务与元技能学习

关键知识点

1.技能抽象:理解Options(时序扩展的动作单元) Motion Primitives(基础运动单元)的概念,明确其作用——将复杂任务拆解为可复用的基础技能,降低学习难度;

2.模仿学习细节:

行为克隆(BC):掌握从专家轨迹中学习policy的核心,包括专家数据集构建、policy网络结构设计、学习目标(如最小化预测动作与专家动作的误差);

逆强化学习(IRL):理解其核心逻辑—从专家行为中推断隐含的奖励函数,再基于奖励函数训练 policy,解决行为克隆中“分布偏移”问题;

3.强化学习应用:

问题建模:掌握马尔可夫决策过程(MDP)框架,将技能学习转化为状态-动作-奖励的交互问题;

算法分类:区分在线学习(如 SARSA、DQN)与离线学习(如 CQL)的适用场景,理解不同算法在技能获取中的优势与局限;

4.进阶学习:了解多任务学习(同时学习多个相关技能以提升泛化性)与元技能学习(学习 “学习技能的能力”,快速适应新任务)的核心思想,应对复杂多变的真实环境

实操案例

1.行为克隆(BC)Python实现,模仿专家轨迹

第二天

三、任务规划

具体内容

1.经典规划:PDDL语言与规划器

2.基于学习的分层规划方法

3.大语言模型(LLM)在任务规划中的辅助与应用

关键知识点

1.经典规划:

语言基础:掌握 PDDL(Planning Domain Definition Language)的语法,包括领域定义(动作、前置条件、效果)与问题定义(初始状态、目标状态),理解其作为 STRIPS-style 语言的形式化逻辑;

规划器使用:了解主流PDDL规划器(如FastDownward)的工作原理,明确经典规划在结构化、确定性任务中的高效性;

2.分层规划:理解 “分层”设计的核心——将复杂任务分解为不同层级的子任务(如高层任务目标分解、低层技能执行),掌握分层结构设计的关键原则(如子任务独立性、层级间信息传递),提升规划的灵活性与可解释性;

3.LLM 辅助:

核心作用:利用 LLM 的自然语言理解与逻辑推理能力,实现高层任务分解(如将“整理桌面”分解为“拿起书本→放到书架→拿起杯子→放到桌面”)、规划错误修正等;

多模态扩展:结合视觉语言模型(VLM),实现“视觉场景理解+语言指令→规划结果”的端到端流程,提升规划对真实场景的适应性。

实操案例

1.使用LLM(如GPT)进行高层任务分解实验

四、VLA智能体

具体内容

1.VLA(视觉-语言-动作)智能体架构介绍

2.多模态预训练方法

3.指令微调与适应性学习

4.实际应用案例解析(如RT-2)

关键知识点

1.架构核心:明确VLA智能体是“视觉感知-语言理解-动作执行”的一体化系统,掌握典型架构(如RT-2的“视觉编码器+语言编码器+动作解码器”)的模块分工与信息流动逻辑;

2.预训练关键:

数据层面:理解多模态数据(图像、文本指令、动作轨迹)的采集与对齐方法,确保不同模态信息的关联性;

模型层面:掌握跨模态融合技术,如注意力机制(将视觉特征与语言特征关联)、模态转换(将语言指令转化为动作空间的表示),提升模型对多模态信息的理解能力;

3.指令微调:掌握针对特定任务(如“拿起红色杯子”)的指令微调方法,通过少量标注数据优化预训练模型,使其适应具体场景的指令理解与动作执行需求,提升模型的任务特异性;

4.案例启示:通过RT-2等案例,分析 VLA 智能体在真实环境中的应用优势(如泛化性、端到端操作)与现存挑战(如复杂场景下的动作精度)。

实操案例

1.使用预训练的VLA模型完成端到端操纵指令任务

2.在模拟环境中进行指令微调实验

第三天

五、人机交互

具体内容

1.多模态接口:语音、手势、面部表情识别与融合

2.可解释性与透明度

3.信任建模与用户接受度

关键知识点

1.多模态接口:

单模态技术:了解语音识别(如ASR技术)、手势识别(如基于摄像头的姿态估计)、面部表情识别(如基于深度学习的表情分类)的基础原理;

融合逻辑:掌握多模态信息融合方法(如早期特征融合、晚期决策融合),实现“语音指令+手势指向”“表情反馈+动作调整”等双向交互,提升人机沟通的自然性;

2.可解释性:理解“为什么需要解释”——降低用户对机器人行为的不确定性,掌握解释方法(如动作前指令预告、动作后结果归因),确保机器人操作的透明度,帮助用户建立对系统的认知;

3.信任与接受度:

信任建模:掌握基于用户反馈(如满意度评分、行为选择)的信任度评估方法,建立“机器人行为表现→用户信任度”的关联模型;

接受度提升:分析影响用户接受度的因素(如安全性、易用性、解释性),明确设计策略(如加入安全冗余机制、简化交互流程),确保机器人在实际场景中被用户认可并使用。

实操案例

1.构建一个简单的基于语音指令的交互Demo

2.设计并评估一个具身交互场景的信任度

六、综合实践与前沿探讨

具体内容

1.具身智能的安全与鲁棒性

2.当前挑战与未来方向

关键知识点

1.安全核心:理解具身智能在真实环境中的安全风险(如物理碰撞、任务执行错误),掌握安全保障技术(如安全约束下的动作规划、异常场景检测与应急处理),以及鲁棒性提升方法(如对抗训练、多场景自适应);

2.挑战与方向:

现存挑战:分析当前领域面临的核心问题,如真实环境的不确定性(光照变化、障碍物动态出现)、多任务泛化性不足、人机交互中的意图误解等;

未来方向:探讨具身智能与多智能体系统、脑机接口、边缘计算等技术的结合潜力,把握领域从“单机器人操作”向“多机器人协作”“人机协同”演进的趋势。

实操案例

1.分组讨论与项目展示

友情链接: