25年1月来自哥伦比亚大学、UIUC和华盛顿大学的论文“3D-ViTac: Learning Fine-Grained Manipulation with Visuo-Tactile Sensing”。
摘要:触觉和视觉感知对于人类与环境进行细粒度交互都至关重要。为机器人开发类似的多模态感知能力可以显著增强和扩展它们的操作技能。 3D-ViTac,是一种专为灵巧双手操作而设计的多模态感知学习系统。系统采用配备密集传感单元的触觉传感器,每个传感单元覆盖 3mm^2 的面积。这些传感器成本低且灵活,提供详细而广泛的物理接触覆盖,有效地补充视觉信息。为了整合触觉和视觉数据,将它们融合到一个统一的 3D 表示空间中,以保留它们的 3D 结构和空间关系。然后可以将多模态表示与扩散策略相结合以进行模仿学习。通过具体的硬件实验,证明即使是低成本的机器人也可以执行精确的操作,并且明显优于仅使用视觉的策略,特别是在与易碎物品的安全交互和执行涉及手部操作的长距离任务。
双手操作。双臂机器人装置为广泛的应用提供了大量机会 [13–17]。传统上,双手操作方法基于经典的基于模型控制视角,使用已知的环境动力学 [18–25]。然而,这些方法依赖于真值环境模型,这些模型不仅构建起来很耗时,而且通常需要全状态估计,而这通常很难获得,尤其是对于具有复杂物理属性的物体,例如可变形体。近年来,机器人界的许多研究人员越来越多地将重点转向基于学习的方法,例如强化学习 [15, 26–32] 和模仿学习 [16, 17, 33–41]。然而,大多数双手操作方法仍然主要依赖于视觉输入 [13, 16, 42–46],由于人与机器人之间的感知差距,限制机器人实现人类水平的灵活性和灵巧性的能力。为了克服这些限制,最近的研究 [47, 48] 采用来自光学触觉传感器的 RGB 图像。然而,由于这些传感器中摄像头的范围很小,机器人手指通常非常笨重且过于僵硬,限制了它们在更复杂灵巧任务中的有效性。
视觉-触觉操控。触觉信息起着至关重要的生物学作用 [49],视觉和触觉的整合是人类成功与环境互动的基础 [50]。视觉提供对环境的广阔视角,但往往缺乏详细的接触信息,并受到视觉遮挡的影响,而触觉感知可以有效地弥补这一点 [51–62]。整合视觉和触觉信息对于机器人操控也至关重要。Lin [14] 提出一种视觉-触觉策略,该策略利用双手系统中的人类演示。然而,他们的触觉传感器分辨率低,而且他们的方法缺乏对视觉和触觉之间空间关系的明确说明。为了解决这一限制,Yuan [27] 提出机器人联觉(Robot Synesthesia),它将视觉和触觉数据作为策略网络的单一输入。然而,这种方法只考虑低分辨率的二进制触觉信号,而这种信号在视觉-触觉感知能力上是有限的。
本文的 3D-ViTac,是一种用于接触丰富操作任务的多模态传感和学习系统。(i)对于触觉感应硬件系统,提出一种替代的密集、灵活触觉传感器阵列,覆盖机器人末端执行器的更大面积,而不是使用现有的光学触觉传感器 [2、5、9、10]。该触觉传感器受到 STAG 手套 [11] 的启发,具有成本效益、灵活性,并且能够在操作过程中产生稳定的连续信号。如图所示,传感器阵列在每个软手指上的分辨率为 16×16,在双手触觉感应系统中共有 1024 个触觉感应单元。这种密集、连续的触觉传感器阵列提供有效的反馈,包括接触的存在、施加的法向力的大小以及局部接触模式。 (ii) 在算法方面,考虑到多模态感官信息,不再将视觉和触觉数据分别输入到策略中 [12],而是提出一种统一的 3D 视觉触觉表征,将这两种模态融合在一起进行模仿学习。该表征将 3D 视觉点和 3D 触觉点(使用机器人运动学计算)集成到统一的 3D 空间中,明确说明视觉和触觉之间的 3D 结构和空间关系。这种方法通过扩散策略 [13] 实现有效的模仿学习,使系统能够对细微的力变化做出反应并克服严重的视觉遮挡。
传感器和夹持器设计
如图(a)是双臂触觉感知集成系统设置。
灵活的触觉传感器。传感器垫由电阻式传感矩阵组成,可将机械压力转换为电信号。触觉传感器垫的总厚度设计不到 1 毫米,可以轻松集成到各种机器人操纵器上,包括机器人手臂的表面。本文将触觉传感器安装在柔软且适应性强的鳍状夹持器上,如图 (b) 所示。这些灵活的传感器垫可随软夹持器弯曲并继续提供有效的信号传输,使系统在广泛的机器人应用中具有通用性。
如图 (b) 所示,操纵器的每个手指都配备一个传感器垫,其中包含 256 个传感单元(16 x 16 传感器阵列)。传感器垫的尺寸、密度和空间传感分辨率可以定制;在设计中,分辨率设置为每个传感器点 3mm^2。与 [11] 类似,触觉感应垫采用三层设计,其中压阻层 (Velostat) 夹在两组正交排列的导电纱线之间,用作电极。然后使用高强度粘合剂 (3M 468MP) 将这些层封装在两个成型的聚酰亚胺(Polyimide)薄膜之间,确保电极和压阻膜之间牢固的电接触,这对于可靠的信号采集至关重要。传感器特性在多个设备上可重复,在多个周期内可靠。
压阻层的电阻响应,随施加的压力而变化,使每个传感器点能够将机械压力转换为电信号。这些模拟信号由 Arduino Nano 捕获并通过串行通信传输到计算机。用定制的电读出电路,以高达约 32.2 FPS 的帧速率获取数据。一个传感器垫和读取板(不含 Arduino)的总成本约为 20 美元。
柔性触觉传感器和软夹持器的集成。将触觉传感器安装在由 TPU 材料制成的全 3D 打印软夹持器的表面上(如上图(b)所示)。触觉传感器垫与柔性软夹持器很好地集成在一起。新夹持器设计有几个优点。首先,夹持器的柔软特性显著增加传感器和目标物体之间的接触面积。这不仅有助于稳定操作过程,而且还确保物体接触模式和几何形状的一致反映。其次,虽然视觉触觉策略提供一定程度的动作顺从性,但夹持器的柔软性增加机械顺从性 [42],能够更有效地处理易碎物体。
多模态传感和遥操作设置
采用双手遥操作系统,使用两个主机器人来控制两个木偶机器人 [16]。在数据收集过程中,以 10 Hz 的一致频率从各种传感器(包括触觉传感器、多视角 RGBD 摄像头 (Realsense)等)以及机器人目标动作和当前关节状态的数据收集同步多模态信息。传感信息之间的同步对于保持多模态数据集的时间一致性至关重要,从而实现触觉反馈和视觉数据之间的精确对齐。还通过在屏幕上可视化来实现实时触觉信息反馈,如上图(a)所示。这使人类操作员能够评估接触是否足以确保安全抓握,从而提高收集数据的质量。
研究中,通过模仿学习解决了学习接触丰富的机器人技能轨迹的挑战。如图概述视觉触觉-数据的集成和随后的动作生成过程。如图(a)是真实世界的设置和操纵的目标。具体来说,引入一个视觉-触觉策略,表示为 π : O → A。该策略将组合的视觉和触觉观察 o ∈ O 映射到动作 a ∈ A。其方法包括两个关键部分:(1)密集的视觉-触觉表示:图(b)显示统一坐标系内视觉和触觉数据的集成,其中包括:(i)3D 视觉点云:由摄像机捕获,格式化为 Pvisual_t,包括一个额外的空通道以匹配触觉数据的形状。 (ii) 3D 触觉点云:该触觉点云包括触觉传感单元的所有点,并使用传感值作为特征通道,格式为 P^tactile_t。(2)策略学习:图(c)表示模仿学习过程。以 3D 密集视觉触觉表示为条件,利用扩散策略 [13] 将动作生成为机器人关节状态序列。
密集视觉-触觉表示
在方法中,不是分别处理触觉和视觉模态以进行特征提取 [14],而是通过将触觉和视觉数据投影到同一个 3D 空间中来整合它们。如图(b)所示,顶行演示视觉观察的处理,而底行描述使用触觉信号和机器人本体感觉处理密集 3D 触觉点。
3D 视觉点云。对摄像机捕获的点云实施一系列数据预处理程序,记为 P^visual_t。该过程涉及四个步骤:(i)合并:结合来自多视角深度观测的点云,以确保全面覆盖观测环境。(ii)裁剪:使用手动定义的边框将点云裁剪到指定的工作区域。(iii)下采样:为了提高视觉数据处理的效率,用最远点采样 (FPS) [63] 对点云进行下采样,以确保更均匀地覆盖 3D 空间(与均匀采样相比)。在这里,设置 N_vis = 512 以在几何细节和计算效率之间保持平衡。(iv)变换:将点云变换为机器人的基本框架。
3D 触觉点云。基于触觉的点云 P^tactile_t 表示 3D 空间中触觉单元的位置和连续触觉读数。为了确定每个传感器的位置,用基于机器人关节状态的正向运动学计算实时夹持器的位置。将触觉点云设置为 N_tac = 256 × N_finger,其中 N_finger 表示配备触觉传感器垫的机器人手指数量。每个传感器垫由 256 个触觉点组成。对于单臂任务,设置 N_finger = 2,对于双手任务,设置 N_finger = 4。
3D 视觉触觉点。然后,将两种类型的点云 o = Ptactile_t ∪ P^visual_t 集成到相同的空间坐标中,如图 © 所示。每个点还分配有一个 one-hot 编码,以指示它是视觉点还是触觉点。这种统一的 3D 视觉触觉表示,为策略网络提供触觉和视觉数据之间空间关系详细而明确的说明。这种整合引入一种归纳偏差,可提高接触丰富任务中的操作效率,特别是那些需要全面考虑两种模式的任务。
训练程序
如图 © 所示,方法中的决策模块被表述为条件去噪扩散模型 [64]。它使用 PointNet++ [65] 架构作为主干,并以 3D 视觉触觉表示 o 为条件,将随机高斯噪声去噪为动作 a。
根据四项具有挑战性的现实世界机器人任务评估多模态感知和学习系统,每项任务分为四个步骤,以便更细致地评估性能(策略展开如图所示)。任务根据它们如何从触觉信号的结合中受益而分类。以下是所有任务的基本描述和评估指标:
(1) 需要细粒度力信息的任务:
蒸鸡蛋。机器人先用右手打开鸡蛋托盘。然后,机器人必须抓住鸡蛋并将其放入煮蛋器中。随后,用左手重定位并固定煮蛋器的盖子。评估指标:如果鸡蛋放置时没有损坏,并且煮蛋器的盖子正确放置在鸡蛋上方,则该任务被视为成功。如果鸡蛋因抓握力不足而掉落或在力过大时破裂,则会发生操作失败。
水果准备。机器人用左手抓住盘子并将其放在桌子上。随后,两个机械臂协作打开塑料袋。然后,右臂抓住一颗或几颗葡萄,将它们放在盘子上。评估指标:如果葡萄放在盘子上没有受到任何损坏,则该任务被视为成功。
(2) 需要手中状态信息的任务:
六角扳手收集。需要右手抓住六角扳手,然后左手需要抓住六角扳手,然后用左手调整六角扳手的位置。随后,机器人需要将六角扳手准确地插入盒子上的孔中。评估指标:将六角扳手成功插入孔中被认为是成功的操作。此外,任何未能正确调整六角扳手位置的行为都可能导致无法将其插入孔中。
三明治上菜。首先,需要用右手抓住餐勺。其次,左手需要握住锅柄,然后倾斜锅。然后右手应该从锅中取出煎蛋并将其放在面包上。评估指标:机器人必须成功地从锅中取出煎蛋并将其放在面包上。
在实验中,主要将方法与以下基线进行比较。对所有策略进行 2,000 个 epoch 的训练。所有方法(包括本文方法和基线)都使用三个摄像机视图。
(1)仅 RGB。此方法使用来自摄像机的多视图 RGB 作为基于图像的扩散策略的输入。使用与 [13] 相同的实现。
(2)带触觉图像的 RGB。该方法通过扩散策略的不同分支处理多视图 RGB 图像和触觉图像。用 CNN 作为触觉图像的特征提取器。
(3)仅 PC。该方法仅使用多视图视觉点云作为扩散策略的感知模态。用 PointNet++ 作为特征提取器。
(4) 带触觉图像的 PC。该方法通过不同的分支将多视角视觉点云和触觉图像融合在一起,以实现扩散策略。我们使用 CNN 作为触觉图像的特征提取器,使用 PointNet++ 作为点云的特征提取器。
系统概述如图所示,采用双手遥控系统,该系统在四个机器人手指上配备三个 Realsense 摄像头和四个触觉传感器垫。触觉信号通信由多线程 ROS(机器人操作系统)节点实现。此节点捕获触觉信号并以 30 Hz 的频率发布它们。所有数据(包括来自摄像头和触觉传感器的数据)都是通过多线程收集的。接收的每个数据帧都带有时间戳,在一个 episode 结束后,将所有数据与这些时间戳对齐。这种同步对于保持多模态数据集的一致性至关重要,可实现触觉反馈和视觉数据之间的精确时间对齐。为了管理来自三个摄像头的繁重处理帧负载,以 10 Hz 的频率收集数据以确保一致性。设置一个顶部摄像头(Realsense 455)来覆盖整个工作空间,并将另外两个摄像头(Realsense 435)放置在靠近工作空间的位置以捕获更详细的信息。当使用来自多个摄像头的点云数据时,整合来自所有摄像头的数据。对于使用单个摄像头的基线方法,仅使用顶部摄像头。
还实现实时触觉信息反馈,如图 (a) 所示。在数据收集过程中,触觉信号会以视觉方式显示在操作员的屏幕上,使他们能够评估接触是否足以确保安全抓握。此外,在策略推出期间,这种可视化有助于实时查看触觉信息与机器人运动之间的关系。