25年3月智元机器人发布具身模型 “AgiBot World Colosseo: Large-scale Manipulation Platform for Scalable and Intelligent Embodied Systems”。
该工作探索可扩展的机器人数据如何解决现实世界中泛化机器人操作的挑战。AgiBot World,是一个大型平台,包含五种部署场景中 217 个任务的 100 多万条轨迹,与现有数据集相比,其数据规模实现数量级的增长。通过标准化收集管道和人机验证加速,AgiBot World 可确保高质量和多样化的数据分布。它可以从夹持器扩展到灵巧手和视觉触觉传感器,以实现细粒度的技能获取。在数据的基础上,引入 Genie Operator-1 (GO-1),这是一种通才策略,它利用潜动作表示来最大化数据利用率,并随着数据量的增加而展示可预测的性能扩展。在数据集上预训练的策略比在 Open X-Embodiment 上训练的策略平均性能提高 30%,无论是在域内还是在分布外场景中。 GO-1 在现实世界的灵巧和长视距任务中表现出色,在复杂任务上实现超过 60% 的成功率,比之前的 RDT 方法高出 32%。通过开源数据集、工具和模型,本目标是使大规模、高质量的机器人数据访问变得民主化,从而推动对可扩展和通用智能的追求。
操控是机器人技术的一项基础任务,使智体能够与物理世界互动并适应物理世界。虽然自然语言处理 [1] 和计算机视觉 [2] 的通用基础模型已经取得了重大进展,但由于难以收集(高质量)数据,机器人技术仍然落后。在受控实验室环境中,拾取和放置等简单任务已经得到充分研究 [3],[4]。然而,对于开放的现实世界环境,从细粒度目标交互、移动操控到协作任务等任务仍然是一项艰巨的挑战 [5]。这些任务不仅需要身体灵活性,还需要能够在不同的环境和场景中进行泛化,这个优点是当前机器人系统无法实现的。普遍接受的原因是缺乏高质量数据——与丰富且标准化的图像和文本不同,由于硬件异构和收集程序不标准化,机器人数据集存在碎片化,导致结果质量低下且不一致。有一个问题:如何通过扩展现实世界的机器人数据来有效地解决现实世界的复杂性?
最近的一些努力,例如 Open X-Embodiment (OXE) [6],通过聚合和标准化现有数据集来解决这个问题。尽管在大规模跨具身学习方面取得了进展,但最终的策略仍局限于简单的短期任务,并且对域外场景的泛化能力较弱 [4]。DROID [7] 通过众包从各种现实场景中收集专家数据。由于缺乏数据质量保证(有人工反馈)和对受限硬件设置的依赖(即采用固定的单臂机器人),限制了其现实世界的适用性和更广泛的有效性。最近,Lin [8] 探索控制跨类别目标和环境泛化能力的扩展规律,尽管仅限于一些简单的单步任务。这些努力代表着在开发通用策略方面取得了显著进展,超越了传统上专注于狭窄领域内的单任务学习 [9]、[3]。然而,现有的机器人学习数据集仍然受到高度受控实验室环境中短期任务的依赖,无法充分捕捉现实世界操作任务中固有的复杂性和多样性。要实现通用机器人智能,必须开发规模大、多样性强的数据集,同时捕捉现实世界的变化,并由通用人形机器人提供支持,以实现稳健的技能获取、有质量保证的标准化数据收集管道,以及策划的能反映现实世界挑战任务。
如图所示,AgiBot World Colosseo,是一个全栈大型机器人学习平台,旨在推动可扩展和智能具身系统中的双手操作。其中包括一个 AgiBot World 机器人学习数据集,和一个机器人基础策略模型 GO-1。
AgiBot World 是一个全栈开源的具身智能生态系统。基于开发的硬件平台 AgiBot G1,构建 AgiBot World——一个由 100 多个同类机器人收集的开源机器人操控数据集,为涵盖广泛现实场景具有挑战性的任务提供高质量数据。最新版包含 1,001,552 条轨迹,总时长 2976.4 小时,涵盖 217 个特定任务、87 个技能和 106 个场景。不仅限于实验室环境中的拾取和放置等基本桌面任务,而是专注于涉及双臂操控、灵巧手和协作任务的真实场景。AgiBot World 旨在提供一个包容性的基准。该数据集在 CC BY-NC-SA 4.0 许可下可用,同时还提供模型检查点、数据处理和策略训练的代码。
硬件平台是 AgiBot World 的基石,决定其质量的下限。硬件标准化也是简化分布式数据收集和确保可重复结果的关键。该工作开发 AgiBot World 的硬件平台,其特点是视觉触觉传感器、耐用的 6-DoF 灵巧手和人形配置。
如上图所示,机器人平台具有双 7-DoF 臂、移动底盘和可调节腰部。末端执行器是模块化的,可根据任务要求使用标准夹持器或 6-DoF 灵巧手。对于需要触觉反馈的任务,使用配备视觉触觉传感器的夹持器。该机器人配备八个摄像头:一个 RGB-D 摄像头和三个鱼眼摄像头用于前视图,每个末端执行器上安装 RGB-D 或鱼眼摄像头,两个鱼眼摄像头位于后部。以 30 Hz 的控制频率记录图像观察和本体感受状态,包括关节和末端执行器位置。
采用两种遥操作系统:VR 耳机控制和全身运动捕捉控制。VR 控制器将手势映射到末端执行器的平移和旋转,然后通过逆运动学转换为关节角度。控制器上的拇指杆和按钮,可实现机器人底座和身体运动,而触发按钮,可控制末端执行器的驱动。但是,VR 控制器将灵巧的手限制为仅几个预定义的手势。为了广泛释放机器人的功能,采用一种运动捕捉系统,该系统记录人体关节(包括手指)的数据,并将其映射到机器人姿势,从而实现更细微的控制,包括单个手指运动、躯干姿势和头部方向。该系统提供姿势灵活性和执行精度,这是实现更复杂操作任务所必需的。
数据采集环节如图所示,大致可分为三个阶段。(1)在正式开始数据采集之前,首先进行初步数据采集,验证每项任务的可行性,并建立相应的采集标准。(2)在可行性验证和采集标准评审后,熟练的遥控操作员布置初始场景,并按照既定标准正式开始数据采集。所有数据在本地进行初始有效性验证,如验证是否存在缺帧。一旦确认数据完整,就会上传到云端进行下一阶段。(3)在后处理过程中,数据标注者将验证每一集是否符合第一阶段建立的采集标准,并提供语言标注。
故障恢复。在数据采集过程中,遥控操作员偶尔会犯错误,如在操作机械臂时不小心掉落物体。然而,他们通常能够从这些错误中恢复过来,并成功完成任务,而无需完全重新配置设置。故此不会丢弃这些轨迹,而是保留它们并手动注释每个轨迹,并标注相应的故障原因和时间戳。这些轨迹称为故障恢复数据,约占数据集的百分之一。它们对于实现策略协调 [28] 和故障反思 [29] 非常有价值,这对于推进下一代机器人基础模型至关重要。
人在环。在收集数据注释者反馈的同时,采用人在环的方法来评估和改进数据质量。这个过程涉及一个迭代周期,即收集一小部分演示、训练策略并部署生成的策略以评估数据可用性。根据策略的表现,迭代地改进数据收集管道以解决已发现的差距或效率低下的问题。例如,在实际部署过程中,模型在开始操作时会表现出长时间的停顿,这与数据注释者的反馈相一致,强调了收集数据中不一致的转换和过多的空闲时间。为此,修改数据收集协议,并引入后处理步骤来消除空闲帧,从而提高数据集对策略学习的整体效用。这种反馈驱动的方法可确保数据质量不断提高。
为了有效利用高质量 AgiBot World 数据集并增强策略的通用性,提出一个具有三训练阶段的分层视觉-语言-潜变量-动作 (ViLLA) 框架,如图所示。与视觉语言为条件的视觉-语言-动作 (VLA) 模型相比,ViLLA 模型可以根据后续机器人控制动作的生成来预测潜动作token。
在第 1 阶段,通过在互联网规模异构数据上训练编码器-解码器潜动作模型 (LAM),将连续图像投射到潜动作空间中。这允许潜动作充当中间表示,弥合一般图像文本输入和机器人动作之间的差距。在第 2 阶段,这些潜动作充当潜规划器的伪标签,促进与具身无关的长期规划并利用预训练 VLM 的通用性。最后,在第 3 阶段,引入动作专家并与潜规划器联合训练它以支持灵巧操作的学习。
潜动作模型
尽管在收集各种机器人演示方面取得长足的进步,但相对于网络规模的数据集,带有动作标记的机器人数据量仍然有限。为了通过整合缺乏动作标签的互联网规模人类视频和跨具身机器人数据来扩大数据池,在第 1 阶段使用潜动作 [30] 来模拟连续帧的逆动态。这种方法能够将现实世界的动态从异构数据源转移到通用操纵知识中。
为了从视频帧 {I_t, I_t+H} 中提取潜动作,潜动作模型是围绕基于逆动态模型的编码器 I(z_t | I_t, I_t+H) 和基于前向动态模型的解码器 F(I_t+H | I_t, z_t) 构建的。编码器采用时空Transformer [31],带有随意时间掩码,遵循 Bruce [30]的研究,而解码器是一个空间Transformer,它将初始帧和离散化的潜动作 token z_t = [z_t0, …, z_t^k−1] 作为输入,其中 k 设置为 4。潜动作 token 使用 VQ-VAE 目标 [32] 进行量化,其码本大小为 |C|。
潜规划器
在第 2 阶段,为了给场景和目标理解以及一般推理能力奠定坚实的基础,ViLLA 模型利用在网络规模的视觉语言数据上预训练的 VLM,并结合潜规划器在潜动作空间中进行与具身无关的规划。用 InternVL2.5-2B [33] 作为 VLM 主干,因为它具有强大的迁移学习能力。在初步实验以及先前的研究 [10]、[26] 中,20 亿参数规模已被证明对机器人任务有效。首先使用 InternViT 对多视图图像观测进行编码,然后将其投影到语言空间中。潜规划器由 24 个 Transformer 层组成,这些层支持从 VLM 主干进行逐层调节,并具有完全双向注意。
具体来说,给定时间步 t 的多视图输入图像 I_th,I_tl 和 I_tr(通常来自头部、左手腕和右手腕),以及描述正在进行的任务语言指令 l,潜规划器会预测潜动作token:P(z_t|I_th, I_tl, I_tr, l),其中 LAM 编码器根据头部视图产生监督:z_t := I(I_th, I_t+H^h)。由于潜动作空间比 OpenVLA [4] 中使用的离散化低级动作小几个数量级,因此这种方法还有助于将通用 VLM 有效地适应机器人策略。
动作专家
为了实现高频和灵巧的操作,第 3 阶段集成一个动作专家,该专家利用扩散目标来模拟低级动作的连续分布 [34]。尽管动作专家与潜规划器共享相同的架构框架,但它们的目标有所不同:潜规划器通过掩码语言建模生成离散化的潜动作token,而动作专家通过迭代去噪过程回归低级动作。两个专家模块都以先前的模块(包括动作专家本身)为条件,从而确保双专家系统内的连贯集成和信息流。
动作专家使用 H 个时间步(H = 30)内本体感知状态 p_t 去解码低级动作块 A_t = [a_t,a_t+1,…,a_t+H]:A (A_t|I_th,I_tl,I_t^r, p_t, l)。在推理过程中,VLM、潜规划器和动作专家在通用策略 GO-1 中协同结合,该策略最初预测 k 个潜动作token,随后调节去噪过程以产生最终的控制信号。
从 AgiBot World 中选择涵盖策略能力各个维度的全面任务进行评估,包括工具使用(擦拭桌子)、可变形体操作(折叠短裤)、人机交互(交接瓶子)、语言跟随(补给饮料)等。此外,为每个任务设计 2 个从未见过的场景,涵盖位置泛化、视觉干扰和语言泛化,对策略进行全面的泛化评估。评估的任务(部分显示在下图中)包括:1)“补货袋”:从购物车中拿起零食并将其放在超市货架上;2)“收拾桌子”:将桌面杂物清理到垃圾桶里;3)“倒水”:抓住水壶把手,提起水壶,将水倒入杯中;4)“补给饮料”:从购物车中拿起瓶装饮料并将其放在超市货架上; 5) “折叠短裤”:将平放在桌子上的短裤对折两次;6) “擦桌子”:用海绵擦干净洒出来的水。
评分标准。评估指标采用标准化分数,计算为每项任务、场景和方法 10 次展示的平均值。每集得分 1.0 表示完全成功,部分成功则为分数,从而实现细致入微的绩效评估。
对 GO-1 进行五项不同复杂度的任务评估,这些任务按视觉丰富度和任务范围分类。如上图所示,结果对每项任务进行 30 次试验的平均值计算,其中 10 次试验在可见的设置下进行,20 次试验在变化或干扰下进行。GO-1 的表现明显优于 RDT,特别是在“倒水”等任务中,这需要对物体位置具有鲁棒性,而“补充饮料”则需要视觉鲁棒性和指令遵循能力。在 ViLLA 模型中加入潜规划器进一步提高性能,平均任务完成分数提高 0.12。
AgiBot World alpha 代表数据集的部分子集,约占完整版 AgiBot World beta(即下表中的最后一行)的 14%。完成第 3 阶段预训练后,经过预训练的 GO-1 表现出完成任务的基本能力。除非另有说明,否则会通过使用高质量、特定于任务的演示对模型进行微调来进一步增强模型,使其能够适应新的评估任务。对于 GO-1,微调的学习率为 2e-5,批处理大小为 768,优化步骤为 30,000。