25年1月来自北大、北大-智元实验室和智元机器人公司的论文“OmniManip: Towards General Robotic Manipulation via Object-Centric Interaction Primitives as Spatial Constraints”。
开发能够在非结构化环境中进行操作的通用机器人系统是一项重大挑战。虽然视觉-语言模型 (VLM) 在高级常识推理方面表现出色,但它们缺乏精确操作任务所需的细粒度 3D 空间理解。在机器人数据集上微调 VLM 以创建视觉-语言-动作模型 (VLA) 是一种潜在的解决方案,但它受到高数据收集成本和泛化问题的阻碍。为了应对这些挑战,提出一种以目标为中心的表征,以弥合 VLM 高级推理与操作所需低级精度之间的差距。主要见解是,目标的规范空间由其功能 affordance 定义,提供一种结构化且语义上有意义的方式来描述交互原语,例如点和方向。这些原语充当桥梁,将 VLM 的常识推理转化为可操作的 3D 空间约束。在此背景下,引入了双闭环、开放词汇机器人操作系统:一个循环用于通过原始重采样、交互渲染和 VLM 检查进行高级规划,另一个循环用于通过 6D 姿势跟踪进行低级执行。这种设计确保强大的实时控制,而无需 VLM 微调。大量实验证明在各种机器人操作任务中强大的零样本泛化能力,凸显这种方法在自动化大规模模拟数据生成方面的潜力。
如图所示:OmniManip 是一种开放词汇操作方法,它弥合视觉语言模型(VLM)的高级推理与低级精度之间的差距,具有规划和执行方面的闭环能力。
开发通用的机器人操作系统一直是一项艰巨的任务,这主要是由于现实世界的复杂性和多变性 [26, 47, 48]。受大语言模型 (LLM)[1, 42] 和视觉-语言模型 (VLM) [25, 28, 34, 54] 快速进步的启发,这些模型利用大量互联网数据来获取丰富的常识性知识,研究人员最近将注意转向探索它们在机器人技术中的应用 [14, 53]。大多数现有研究都侧重于利用这些知识进行高级任务规划,例如语义推理 [4, 31, 37]。尽管取得这些进展,但目前的 VLM 主要在大量 2D 视觉数据上进行训练,缺乏精确、低级操作任务所必需的 3D 空间理解能力。这种限制对非结构化环境中的操作提出挑战。
克服这一限制的一种方法,是针对大规模机器人数据集微调 VLM,将其转换为 VLA [2, 3, 8, 19]。然而,这面临两大挑战:1)获取多样化、高质量的机器人数据成本高昂且耗时;2)将 VLM 微调为 VLA 会产生特定于智体的表示,这些表示针对特定机器人量身定制,限制它们的通用性。一种有前途的替代方法是将机器人动作抽象为交互原语(例如点或矢量),并利用 VLM 推理来定义这些原语的空间约束,而传统规划算法则解决执行的问题 [13, 15, 27]。然而,现有的定义和使用原语的方法有几个局限性:生成原语提议的过程与任务无关,这会带来缺乏合适提议的风险。此外,依赖手动设计的规则进行后处理提议也会带来不稳定性。这自然引出一个重要的问题:如何开发更高效、更通用的表示形式,将 VLM 高级推理与精确的低级机器人操作连接起来?
机器人基础模型。基础模型的出现对机器人领域产生重大影响[11, 18, 51],尤其是在视觉-语言模型的应用方面[1, 4, 12, 23, 28, 50],这些模型在环境理解和高级常识推理方面表现出色。这些模型展示控制机器人在新的和非结构化环境中执行一般任务的潜力。一些研究[2, 3, 19, 24]已经在机器人数据集上对 VLM 进行微调,以创建输出机器人轨迹的 VLA 模型,但这些努力受到数据收集成本高和泛化问题的限制。其他方法尝试使用视觉基础模型 [9、13、15、21、27、33、52] 提取操作原语,然后将其用作 VLM 的视觉或语言提示,以执行高级常识推理,并结合运动规划器 [38、39、41] 进行低级控制。然而,这些方法受到将 3D 原语压缩为 VLM 所需的 2D 图像或 1D 文本的模糊性以及 VLM 本身的幻觉倾向限制,难以确保 VLM 生成的高级规划是准确的。
操作表征。结构表征决定操作方法的能力和有效性。在各种类型的表征中,关键点因其灵活性、泛化能力和建模变异性的能力而成为一种流行的选择 [32, 35, 36, 46]。然而,这些基于关键点的方法需要手动特定任务的注释来生成动作。为了实现零样本开放世界操控,[15, 27, 33] 等研究将关键点转化为 VLM 的视觉提示,从而促进高级规划结果的自动生成。尽管关键点有其优势,但可能不稳定;它们在遮挡下表现不佳,并且在提取和选择特定关键点方面带来挑战。另一种常见的表征是 6D 姿势,它有效地定义目标之间的长距离依赖关系以进行操控,并提供一定程度的遮挡鲁棒性 [16, 17, 44, 45]。然而,这些方法需要事先对几何关系进行建模,而且由于姿势的稀疏性,无法提供细粒度的几何形状。由于类内差异,这种限制可能导致跨不同目标的操纵策略失败。为了解决这些问题,OmniManip 将关键点的细粒度几何形状与 6D 姿势的稳定性相结合。它使用 VLM 自动提取目标规范坐标系内的详细功能点和方向,从而实现精确操纵。
为了应对这些挑战,本文提出一种以目标为中心的中间表征,该表征结合目标规范空间内的交互点和方向。这种表征弥补 VLM 高级常识推理与精确 3D 空间理解之间的差距。
使用交互原语进行操作
复杂的机器人任务被分解为几个阶段,每个阶段都由具有空间约束的目标交互原语定义。这种结构化方法可以精确定义任务要求,并有助于执行复杂的操作任务。
任务分解。如图所示,给定一个操作任务 T(例如,将茶倒入杯中),首先利用 GroundingDINO[30] 和 SAM[20] 这两个视觉基础模型 (VFM) 将场景中的所有前景目标(如 [49])标记为视觉提示。随后,使用 VLM [1] 过滤与任务相关的目标,并将任务分解为多个阶段 S = {S_1, S_2, . . . , S_n},其中每个阶段 S_i 可以形式化为 S = {A_i, O_iactive, O_ipassive},其中 A_i 表示要执行的动作(如抓取、倒水),O_iactive 和 O_i^passive 分别表示发起交互的目标和被操作的目标。例如,在图中,在抓取茶壶的阶段茶壶是被动目标,而茶壶在将茶倒入杯中的阶段是主动目标,杯子是被动的。
以目标为中心的规范交互原语。提出一种以目标为中心的表示方法,该方法具有规范的交互原语,以描述目标在操作任务过程中的交互方式。具体而言,目标的交互原语由其在规范空间中的交互点和方向来表征。交互点 p 表示目标上发生交互的关键位置,而交互方向 v 表征与任务相关的主轴。这些共同构成交互原语 O = {p, v},封装满足任务约束所需的基本内在几何和功能属性。这些规范的交互原语是相对于其规范空间定义的,在不同场景中保持一致,从而实现更通用和可重用的操作策略。
具有空间约束的交互原语。在每个阶段 S_i,一组空间约束 C_i 控制主动和被动目标之间的空间关系。这些约束分为两类:距离约束 d_i,用于调节交互点之间的距离,以及角度约束 θ_i,用于确保交互方向的正确对齐。这些约束共同定义精确空间对齐和任务执行所需的几何规则。每个阶段 S_i 的整体空间约束由以下公式给出:C_i = {O_iactive, O_i^passive, d_i, θ_i}。一旦定义约束 C_i,就可以将任务执行表述为优化问题。
基元和约束提取
如上图所示,首先通过单视图 3D 生成 [29、40、57] 获取与任务相关的主动和被动目标 3D 目标网格,然后使用 Omni6DPose [56] 进行姿势估计,这样可进行目标规范化。接下来,提取与任务相关的交互基元及其相应的约束。
落地交互点。如下图所示,交互点分为可见和有形(例如茶壶把手)或不可见或无形(例如其开口的中心)。为了增强 VLM 于交互点落地,采用 SCAFFOLD [22] 视觉提示机制,将笛卡尔网格叠加到输入图像上。如下图所示,可见点直接定位在图像平面上,而不可见点则通过基于所提出的规范目标表征的多视图推理推断出来。推理从主要视点开始,通过切换到正交视图解决歧义问题。这种方法可以使交互点落地更加灵活和可靠。对于抓取之类的任务,热图由多个交互点生成,从而提高抓取模型的鲁棒性。
采样交互方向。在规范空间中,目标的主轴通常具有功能相关性。如图所示,将主轴视为候选交互方向。但是,由于当前 VLM 对空间的理解有限,评估这些方向与任务的相关性具有挑战性。为了解决这个问题,提出一个 VLM 字幕和 LLM 评分机制:首先,使用 VLM 为每个候选轴生成语义描述,然后使用 LLM 推断并评分这些描述与任务的相关性。此过程会产生一组最符合任务要求的有序候选方向。
最终,使用 VLM 生成具有约束的交互原语,为每个阶段 S_i 生成一个有序的受约束交互原语列表,表示为 K_i = {C_i(1), C_i(2), . . . , C_i^(N)}。
双闭环系统
以上获得主动和被动目标的交互原语,分别表示为 Oactive 和 O^passive,以及定义其空间关系的空间约束 C。然而,这是一个开环推理,它本质上限制系统的稳健性和适应性。这些限制主要来自两个方面:1) 大型模型中的幻觉效应,2) 现实世界环境的动态性质。为了克服这些挑战,提出一个双闭环系统。
闭环规划。为了提高交互原语的准确性并减轻 VLM 中的幻觉问题,引入一种基于重采样、渲染和检查 (RRC) 的自我校正机制。该机制使用来自视觉-语言模型 (VLM) 的实时反馈来检测和纠正交互错误,确保精确执行任务。RRC 过程包括两个阶段:初始阶段和细化阶段。如下算法 1 概述整体 RRC 机制。在初始阶段,系统评估定义的交互约束 K_i,该约束指定主动和被动目标之间的空间关系。对于每个约束 C_i(k),系统根据当前配置渲染交互图像 I_i,并将其提交给 VLM 进行验证。VLM 返回三个结果之一:成功、失败或细化。如果成功,则接受约束,任务继续。如果失败,则评估下一个约束。如果细化,系统进入细化阶段进行进一步优化。在细化阶段,系统围绕预测的交互方向 v_i 执行细粒度重采样,以纠正目标的功能轴和几何轴之间的错位。系统均匀地围绕 v_i 采样六个细化方向 v_i^(j) 并对其进行评估。
闭环执行。一旦为每个阶段定义交互基元和相应的空间约束 C,任务执行就可以表述为优化问题。目标是最小化损失函数以确定末端执行器的目标姿势 P^ee∗。最优问题定义如下:
其中约束损失 L_C 确保动作遵守任务的空间约束 C,定义为
其中,ρ(·) 测量主动目标 P_iactive 和被动目标 P_i^passive 的当前空间关系与所需约束 C 之间的偏差,而 Φ(·) 将末端执行器姿势映射到主动目标的姿势。碰撞损失 L_collision 可防止末端执行器与环境中的障碍物发生碰撞,其定义为
其中 d(P^ee, O_j) 表示末端执行器与障碍物 O_j 之间的距离,d_min 为最小允许安全距离。路径损失 L_path 确保运动平稳,定义为
其中 d_trans(·) 和 d_rot(·) 分别表示末端执行器的平移和旋转位移,λ1 和 λ2 是平衡平移和旋转影响的加权因子。通过最小化这些损失函数,系统可以动态调整末端执行器姿势 P^ee,确保成功执行任务,同时避免碰撞并保持平稳运动。
虽然公式(3)概述如何利用交互基元及其相应的空间约束来优化可执行末端执行器姿势,但现实世界的任务执行通常涉及重要的动态因素。例如,抓取姿势的偏差可能会导致抓取任务期间目标意外移动。此外,在某些动态环境中,目标物体可能会发生位移。这些挑战凸显闭环执行在处理此类不确定性方面的关键重要性。为了应对这些挑战,系统利用所提出的以目标为中心的交互原语,并直接采用现成的 6D 目标姿势跟踪算法,实时持续更新主动目标 P_tactive 和被动目标 P_t^passive 的姿势,如公式(4)所示。这种实时反馈允许对末端执行器的目标姿势进行动态调整,从而实现稳健而准确的闭环执行。
实验平台以 Franka Emika Panda 机械臂为基础,其平行夹持器的手指被 UMI 手指取代[6]。为了实现感知,使用两个英特尔 RealSense D415 深度摄像头。一个摄像头安装在夹持器上,以提供操作区域的第一人称视角,而第二个摄像头位于机器人对面,以提供工作空间的第三人称视角。
将该方法与三个基线进行比较:1)VoxPoser[14],它使用 LLM 和 VLM 生成 3D 价值图以合成机器人轨迹,在零样本学习和闭环控制方面表现出色;2)CoPa[13],它引入目标部分的空间约束并与 VLM 相结合以实现开放词汇操作;3)ReKep[15],它采用关系关键点约束和分层优化从自然语言指令实时生成动作。实现细节使用 OpenAI API 中的 GPT-4O 作为视觉-语言模型,利用一小组交互示例作为提示,指导模型对操作任务的推理。采用现成的模型 [10, 43] 进行 6-DOF 通用抓取,并利用 GenPose++[56] 进行通用 6D 姿势估计。