RoboDexVLM：基于视觉-语言模型的任务规划和运动控制，实现灵巧机器人操作-EW帮帮网

25年3月来自香港科技大学广州分校的论文“RoboDexVLM: Visual Language Model-Enabled Task Planning and Motion Control for Dexterous Robot Manipulation”。

RoboDexVLM，一种专为配备灵巧手、协作机械手定制的机器人任务规划和抓取检测框架。以前的方法侧重于简化和有限的操作任务，这些任务往往忽略以长距离方式抓取各种目标的复杂性。相比之下，该提出的框架利用灵巧手，能够在执行基于自然语言命令的任务时抓取各种形状和大小的目标。所提出的方法具有以下核心组件：首先，设计了一个强大的任务规划器，该规划器具有利用视觉-语言模型 (VLM) 的任务级恢复机制，使系统能够解释和执行用于长序列任务的开放词汇命令。其次，提出一种基于机器人运动学和形式化方法的语言引导灵巧抓取感知算法，该算法专为具有各种目标和命令的零样本灵巧操作而定制。

RoboDexVLM如图所示：

请添加图片描述

RoboDexVLM 框架通过结构化技能库无缝弥合高级任务规划和低级执行之间的差距。这个库是实现零样本操作能力的核心，机器人可以仅基于自然语言指令 L 执行未明确编程的任务，例如打开盒子并将更大的杨桃放在里面，如上图所示。这个技能库 S = {F_1(X_1), F_2(X_2), · · · , F_n(X_n)} 的架构经过精心设计，以形式化操作原语，同时保持足够的灵活性，允许在语言输入的指导下进行调整。在 S 中，每个技能单元 F_i 都有其所需的输入 I_i 来激活特定操作。如图所示，技能库 S 包含八个原子技能，这些技能封装检测、抓取、移动和放置物体等基本操作动作。这些原子技能 F_i ，i ∈ {1, 2, · · · , 8} 是构建 L 所指挥的复杂操作任务基础。每项技能都旨在独立运行，但又在整体框架内紧密结合，确保任务的顺利过渡和高效执行。

请添加图片描述

利用世界知识和推理能力，VLM 用于通过以下提示推理过程生成技能顺序和相应的所需函数输入：

{R_τ, O_τ, I_τ} = T(K(S, M_τ, L_τ)), (1)

其中上下文生成器 K(·) 的输入元素，是具有思维链 (CoT) 推理模板的常量系统消息 S、记忆消息 M_τ 和作为时间步骤 τ 任务描述的人类消息 L_τ。将函数 T 表示为 VLM 的推理过程。VLM 智体的输出设计为三部分：CoT 推理文本 R_τ、要调用的技能的原始顺序 O_τ = {O_1,O_2,··· ,Om}, O_i ∈ S，以及技能的相应输入原语 I = {I_1, I_2, . . . , I_m}，其中 I_i ∈ set(X_i)，i ∈ {1,2,··· ,8}。请注意，R_τ 增强 VLM 设计的技能顺序的透明度，并且对于小样本学习的记忆反思非常有益。

RoboDexVLM 框架设计的一个关键方面，是其针对每个技能的标准化输入-输出接口 F_i(X_i)。这些接口促进不同阶段之间的无缝交互，允许 VLM 根据语言命令 L_τ 的特定要求动态地将它们链接在一起。因此，保持动态变量存储为

D = {E_lang, P_RGB, P_Depth, B_img, G, F_max, A}, (2)

对于目标抓取，G 包含必要的几何值。与目标的最大接触力由 F_max 表示，而机器人运动（例如旋转和扭转）的几何矢量表示为 A = {d, θ, r}。此外，如上图下半部所示的技能函数 F_i 可以查询变量存储 D 以检索更新的数据进行实时操作。

结合技能的基本顺序 O_τ ，机器人系统按顺序执行灵巧的操作，同时更新变量存储 D ，直到完成初始语言指令 L 中的长视界任务。

感知-动作范式

RoboDexVLM 框架的感知-动作范式，旨在通过闭环执行系统实现精确而鲁棒的操作，如上图所示。该流程集成了多种技术，实现支持不同任务技能调用的基础能力。在每一项基础能力中，RoboDexVLM 系统都遵循连贯的感知-动作范式。

首先，语言引导的图像分割模块，通过将语言嵌入 E_lang 与实时视觉输入 P_RGB 相结合，生成语义级目标掩码。受 [4] 的启发，采用两个互补的模型来生成语义掩码。首先，开放集目标检测器 Grounding DINO [2] 通过将 E_lang（例如红苹果）与从 P_RGB 中提取的视觉特征对齐，执行零样本文本-到-边框检测。计算边框 B_i 的区域提议分数，并将超过阈值 τ_d 的分数保留为 {B∗ = B_i | ∀i, Score(B_i) > τ_d}。随后，SAM [29] 将 B∗ 细化为像素精确的掩码 B_img，确保即使在杂乱或奇怪的场景中也能实现实例感知分割。这种混合方法既提高效率（通过由粗到细的处理减少搜索空间），也提高了模糊指令下的场景理解稳健性。

其次，该系统利用与分段掩码 B_img 对齐的 P_RGB 和 P_Depth 来过滤目标物体，然后通过 AnyGrasp [20] 推断机器人末端执行器的最佳抓取姿势。对于每个候选抓握姿势假设 G_j，几何-几何对齐通过余弦相似度计算对应分数。

结合技能的基本顺序 O_τ ，机器人系统按顺序执行灵巧的操作，同时更新变量存储 D ，直到完成初始语言指令 L 中的长视界任务。

汇总假设之间的相似性形成对应矩阵 S_pq，N 是候选数，候选 j 的原始置信度来自逐行求和：C_j = sum(S_jk)。最佳抓握 G_j∗ = argmax_j C_j 选择在从 P_Depth 推断出的局部几何约束内最大化空间一致性的姿势。请注意，可以使用类似的方法生成目标放置的姿势和孤立动作 A 的最终姿势。

对于动作执行，使用 Denavit-Hartenberg 运动学计算机械臂的轨迹。插值航点经过优化，以在接近过程中保持末端执行器方向约束，确保在实时感知的每个步骤之后整个任务中的运动平稳稳定。以闭环方式，机器人可以有效地调整其操作目标以适应动态场景中的任务。

灵巧操作姿势生成

平行夹持器的抓握感知方法，在简化抓握合成方面取得了显著进展，这些发展可以作为灵巧操作的基础先验。具体来说，通过运动重定向将平行夹持器抓握方案迁移到灵巧手上。这种方法允许利用现有的感知框架，同时有效地适应灵巧手中的更高自由度，从而提高成功率，尤其是在抓握形状奇怪的物体（例如杨桃）时。

抓握方案定义为 G = {t, R, w}，其中 t 是笛卡尔框架中的抓握中心，R 是旋转矩阵，w 是成功抓握的夹持器宽度。一旦达到所需姿势，灵巧手的力传感模块便会促使所有手指同时闭合，并且这种闭合持续到施加的力达到最大阈值 F_max 。

为了在灵巧抓握中使用 G，需要确定从法兰框架 E 到相应灵巧手框架 H 的标定矩阵。首先，可以计算手动移动灵巧手的姿势并对其进行微调，以确保拇指和中指的当前姿势可以与 3D 点云中显示的两指夹持器的姿势相对应。然后记录矩阵，最后计算出标定矩阵。所有上述帧均在下图中示出，以便于理解灵巧抓握姿势生成过程。

请添加图片描述

为了确保对执行错误的稳健性，RoboDexVLM 采用双层恢复机制。每次技能执行后，都会使用基于深度的变化检测和灵巧手所有手指的位置反馈来验证是否成功。如果失败，例如抓握失败，系统会构建一个反思提示

H_reflect =[E_error, τ, P_RGB, τ+1, O_history], (7)

包含有关检测的错误 E_error、当前场景状态 P_RGB 和之前技能尝试历史 O_history 的详细信息。VLM 使用

{R_τ+1, O_τ+1, I_τ+1} = T (K (H_reflect)), (8)

处理此提示，以提出调整后的技能序列。例如，如果目标在抓握尝试过程中滑落，系统可能会插入 HandRot 基元来重新调整物体的方向，以便更牢固地抓握。为了防止无限循环，系统从上一次成功的技能恢复执行，并将每个任务的恢复尝试次数限制为三次。

实验是在为机器人操作任务设计的真实环境中进行的。如上图所示，该设置包括配备 Inspire 五指灵巧手的 UR5 机械臂、用于目标检测和场景分析的英特尔 RealSense D435i RGB-D 摄像头，以及包含各种不同形状、大小和纹理的目标工作空间，以测试 RoboDexVLM 框架的多功能性。

选择 GPT-4o [30] 作为灵巧机器人操作的基础模型。该系统在不同的桌面布置下运行，以确保在不同场景中的稳健性能。所有计算和模型预测都在配备 RTX 3080Ti GPU 和 12GB 图形内存的工作站上运行，以支持实时处理要求。

RoboDexVLM：基于视觉-语言模型的任务规划和运动控制，实现灵巧机器人操作

感知-动作范式

灵巧操作姿势生成

网站公告

今日签到

热门文章

最新发布