盘点：17个具身智能领域核心【数据集】，涵盖从单一到复合的 7 大常见任务类别-人工智能技术与咨询

盘点：17个具身智能领域核心【数据集】，涵盖从单一到复合的 7 大常见任务类别

2025-09-10 17:08:31329浏览

源自：深蓝具身智能

（CoRL）Mutex_Dataset

数据集包含100 个基于LIBERO-100的模拟任务和50 个真实任务，每个任务分别标注 50 个和30 个演示（行号按任务名称排列）。

并且为每个任务分别标注了以下六种模态（行号从上到下排列）：视频演示、图像目标、文本目标、文本说明、语音目标和语音说明。

数据集地址：https://utexas.app.box.com/s/wepivf85cgini0eqpho9jae9c6o99n4e

原文链接：https://arxiv.org/pdf/2309.14320

SPoC

SPoC 提供两种训练数据类型：在环境中导航并使用开放词汇描述执行拾取和放置操作。

fifteen 类型：包含机器人导航和抓取 15 种特定物体类型的任务数据；
all 类型：包含机器人导航和抓取数百种物体类型的任务数据。

数据集地址：https://github.com/allenai/spoc-robot-training

原文链接： https://arxiv.org/pdf/2312.02976

Fanuc Manipulation

FANUC 操作数据集基于视觉的机器人模仿学习策略、微调视觉表示模型、训练生成模型，根据任务指令生成机器人动作等。它是在FANUCMate200iD机器人上收集的，同时提供了RGB视频（第三人称视角和自我中心视角）、机器人轨迹（关节值和动作值）以及语言指令。

用于执行各种操作任务。例如，打开抽屉、拾取物体、关门、关闭电脑以及将物体推到指定位置。

数据集地址：https://sites.google.com/berkeley.edu/fanuc-manipulation

Berkeley-UR5

Berkeley-UR5 是一个自适应机器人操作研究平台，利用 UR5 机器人和模仿学习来掌握可变形物体处理和人机协作任务。

数据集包括 4 个机器人操作任务：在容器之间简单地拾取和放置毛绒玩具、扫布、堆叠杯子，以及需要精确抓取和 6 自由度旋转的瓶子的更困难的拾取和放置。

数据集地址：https://sites.google.com/view/berkeley-ur5/home

（RSS）Push-T

扩散策略数据集可用于训练基于扩散的机器人操作视觉运动策略。它涵盖 12 项任务，包括精确的 Push-T 操作，并支持通过迭代去噪生成动作。基于此数据集训练的策略的成功率提高了 46.9%，并具备实时推理能力。

处理任务包括：机器人将T形块推到固定的目标位姿，然后移动到固定的出口区域。

数据集地址：https://diffusion-policy.cs.columbia.edu/data/

原文链接：https://arxiv.org/pdf/2303.04137v4

（CoRL）RoboCook

机器人能够通过点云 GNN 和自监督学习使用各种工具操纵弹性物体，每个工具仅需 20 分钟的真实世界数据即可实现 85% 的任务成功率。

针对抓取动作，对 300 个不同初始状态，每个状态采样 128 个随机动作，生成 38,400 对数据（覆盖多种面团形状）。

数据集地址：https://drive.google.com/drive/folders/1kEw4rnFWnYpkelfucvtJMEYYwA5P_0CK

原文链接：https://arxiv.org/pdf/2306.14447

（T-RO）Multi-Stage Cable Routing

该数据集包含两种训练数据：

低级别策略训练数据：包含 1442 条人类远程操作机器人进行电缆布线的轨迹。每条轨迹约含 20 个时间步，轨迹时长约 3 - 5 秒。这些数据用于训练低级别单夹子电缆布线策略，让机器人学习插入电缆的基本技能。

高级别策略训练数据：由 257 条机器人在执行原语之间的观察轨迹组成，每个时间步对应一次观察和人类选择的原语索引，完整轨迹约 1 分钟。

数据集地址：https://sites.google.com/view/cablerouting/data

原文链接：https://arxiv.org/pdf/2307.08927

（IJRR）FMB

该数据集包含外观和几何形状各异的物体。它需要多阶段和多模态的精细运动技能，才能在随机场景中成功地将插销组装到未固定的板上。

通过使用Franka Panda臂在两个不同的任务上总共收集了22,550个轨迹。来自两个全局视角和两个手腕视角的轨迹，每个视角都包含RGB和深度图。

数据集地址：https://functional-manipulation-benchmark.github.io/dataset/index.html

原文链接：https://arxiv.org/pdf/2401.08553

（ICML）VIMA

用于多模态机器人学习的大规模模拟基准测试，其特点是程序生成的桌面操作任务，并穿插了文本、图像和视频提示。它包含 60 多万条用于模仿学习的专家轨迹，以及一个用于评估零样本适应性的 4 层泛化协议。

机器人根据多模式提示（文本、图像和视频帧的混合）进行桌面操作任务，从重新排列到一次性模仿。

数据集地址：https://huggingface.co/datasets/VIMA/VIMA-Data

原文地址：https://vimalabs.github.io/assets/vima_paper.pdf

（NeurIPS）RoboSet Dataset

RoboSet 数据集基于现实世界，收集了厨房场景中一系列日常家居活动，是一个大规模的真实世界多任务数据集。RoboSet 包含一系列动觉演示和遥控演示。该数据集包含多任务活动，每帧包含四个不同的摄像机视图，并且每个演示的场景都会有所变化。

动觉演示数据是通过在每次机器人滚动时播放一个演示轨迹来收集的，该轨迹包含通过重新排列物体获得的新场景。
远程操作数据则使用 Oculus Quest 2 控制器收集。远程操作员将使用控制器引导机器人执行任务；远程操作确保每次滚动都是唯一的。

数据集总共包含 28,500 条轨迹，其中 9,500 条通过远程操作收集，19,000 条通过动觉回放收集。

数据集地址：https://robopen.github.io/roboset/

原文链接：https://robopen.github.io/media/roboagent.pdf

（CoRL）PlayFusion

Play-Fusion 通过扩散模型和离散技能瓶颈从非结构化游戏数据中学习机器人技能，从而实现跨不同任务的可解释和可概括的行为合成。

机器人将完成三个复杂的场景：一个烤架，上面摆放着烤面包机、平底锅等各种烹饪用具。

完成拾取、打开、放置和关闭等动作
摆放餐桌，移动盘子、杯子和餐具
将碗碟放入水槽、洗碗机、手持杯等

数据集地址：https://play-fusion.github.io/

原文链接：https://openreview.net/pdf?id=afF8RGcBBP

BridgeData V2

为了支持广泛的泛化能力，该数据集收集了多种环境下各种任务的数据，这些环境中的物体、相机姿态和工作空间位置各不相同。每条轨迹都标注了与机器人正在执行的任务相对应的自然语言指令。

60,096 条轨迹：包含 50,365 次远程操作演示，以及通过脚本化的拾放策略部署 9,731 个产品；
24 种环境
13项技能

BridgeData V2 中的 24 种环境分为 4 类。大部分数据来自 7 个不同的玩具厨房，其中包含水槽、炉灶和微波炉等各种设备的组合。其余环境则来自不同来源，包括各种桌面、独立的玩具水槽、玩具洗衣机等等。

数据集地址：https://rail-berkeley.github.io/bridgedata/

原文链接：https://arxiv.org/pdf/2308.12952

（CoRL）ALOHA

ALOHA 是一款用于双手遥控的低成本开源硬件系统。该系统预算仅 2 万美元，能够远程操作诸如穿扎带之类的精确任务、诸如玩乒乓球之类的动态任务，以及诸如在 NIST 2 号板上组装链条之类的高接触性任务。

数据集地址：https://github.com/tonyzhaozh/aloha

原文链接：https://arxiv.org/pdf/2304.13705

（CoRL）BC-Z robot

BC-Z 是一个大规模机器人模仿学习数据集，能够通过语言或视频调节对未见过的任务进行零样本泛化，具有 25K+（25,877）个真实世界操作演示，涵盖 100 种不同的 manipulation 任务。

数据集地址：https://sites.google.com/view/bc-z/home?pli=1

原文链接：https://arxiv.org/pdf/2202.02005

（CoRL, Best Paper Award Finalist) ROT

ROT 是一种高效的模仿学习算法，它将最佳传输轨迹匹配与自适应行为克隆相结合，使机器人只需一次演示和一小时的在线训练就能以 90% 的成功率学习操作策略。

20 个模拟任务（来自 DeepMind Control Suite、OpenAI Robotics Suite 和 Meta-World Benchmark）的专家演示数据；
14 个真实世界机器人操作任务（在 xArm 机器人上完成，如开门、挂 tote 包、放置钉子等）的人类演示数据。

数据集地址：https://rot-robot.github.io/

原文链接：https://openreview.net/pdf?id=ZUtgUA0Fuwd

（CoRL）PLEX

PLEX，是一种基于Transformer的可扩展架构，它可以利用多种形式且数量可观且与机器人操作相关的数据。三类可用于训练机器人操作模型的常见数据：

多任务视频演示（MTVD），包含各种任务的高质量且可能带有注释的演示，但没有供机器人模仿的明确动作信息；
视觉运动轨迹 (VMT)，由成对的观察序列和机器人动作组成，但不一定对应有意义的任务；
目标任务演示 (TTD)，是使用感兴趣的机器人收集的特定任务的高质量轨迹。

数据集地址：https://github.com/microsoft/PLEX#robosuiterobomimic-data-setup

原文链接：https://arxiv.org/pdf/2303.08789

Mobile ALOHA

移动 ALOHA 数据集与现有的静态 ALOHA 数据集（包含 825 个演示，涉及密封拉链袋、捡叉子等任务）进行联合训练。

在联合训练中，将静态 ALOHA 数据集中无移动底座动作的数据进行零填充，使其与 Mobile ALOHA 数据维度相同，同时忽略静态 ALOHA 数据中的前摄像头数据，使两个数据集都包含 3 个摄像头数据，并基于 Mobile ALOHA 数据集的统计信息对每个动作进行归一化处理。

任务涵涵盖 7 个具有挑战性的任务，包括擦拭葡萄酒、烹饪虾、冲洗锅、使用橱柜、呼叫电梯、推椅子和击掌。
数据集地址：https://drive.google.com/drive/folders/1FP5eakcxQrsHyiWBRDsMRvUfSxeykiDc

原文链接：https://mobile-aloha.github.io/resources/mobile-aloha.pdf