跨时间潜运动迁移以实现操作中的多帧预测

发布于:2025-07-01 ⋅ 阅读:(35) ⋅ 点赞:(0)

25年6月来自中科大、上海AI实验室、浙大和香港中文大学的论文“Transferring Latent Motion Across Time for Multi-Frame Prediction in Manipulation”。

最近,基于预训练视觉语言模型 (VLM) 构建的视觉-语言-动作 (VLA) 模型已在操作任务中展现出强大的泛化能力。然而,它们仍然受限于单帧观察范式,无法充分利用聚合多帧历史观察所提供的运动信息,因为大型视觉语言主干会带来大量的计算成本和推理延迟。CronusVLA,是一个统一的框架,可通过高效的后训练阶段将单帧 VLA 模型扩展到多帧范式。CronusVLA 包含三个关键组件:(1)在大规模具身数据集上进行单帧预训练,并使用自回归动作token预测,从而建立具身视觉语言基础; (2) 多帧编码,在训练后将视觉语言主干网络的预测从离散动作 token 调整为运动特征,并将历史帧中的运动特征聚合为特征分块;(3) 跨帧解码,通过具有交叉注意机制的共享解码器将特征分块映射到准确的动作。通过减少冗余 token 计算和缓存过去的运动特征,CronusVLA 实现高效的推理。作为运动特征的一种应用,进一步提出了一种基于特征-动作检索的动作自适应机制,以在微调期间提高模型性能。CronusVLA 在 SimplerEnv 上取得最佳性能,成功率为 70.9%,在 LIBERO 上比 OpenVLA 提高 12.7%。真实的 Franka 机器人实验也证明了其强大的性能和鲁棒性。

如图所示:CronusVLA 是一个多帧建模框架,在大规模操作数据集上它从单帧预训练开始。

请添加图片描述

如图所示 CronusVLA 的概览:

请添加图片描述

单帧预训练

如上图 (a) 所示,第一步是建立基础的视觉-语言主干网络。现成的预训练 VLM [9, 44] 通过学习多样化的操作演示 D_i = (I_t, a_t, l) [17, 16] 被改编成基本单帧 VLA 模型,其中 T_i 是第 i 集的长度。

其中,l 是语言指令,I_t 表示第 t 步单视角摄像机的观测结果,a_t 表示相应的动作。遵循 [13, 12],离散动作 token 是通过扩展动作 token 生成器从连续的机器人动作中派生出来的,该生成器将它们映射到 256 个 bin 中,并使用下一个 token 预测目标函数和 token 级交叉熵损失函数进行训练。给定 I_t 和 l,该模型预测下一步的动作 token 并对其进行去 token 化,a_t = VLA(I_t, l)。单帧预训练有效地将视觉编码器 [45, 46] 的视觉感知能力迁移到具身场景,为多帧后训练提供有效的视觉语言基础。同时,它能够更好地保持在通用视觉语言预训练中学习的单帧视觉感知和多模态理解能力。

多帧编码

从离散动作 token 到运动特征分块。视觉 token vi,i ∈ [0,n_v] 和文本 token li, i ∈ [0, n_l] 在基本的单帧 VLA 模型视觉语言主干网络中进行因果计算,它通过汇总所有先前 tokens 的信息来自回归地预测离散动作 token。如上图 (b) 所示,不是生成离散动作 token,而是在主干网络的隐藏层中引入可学习的运动特征 f_t 作为连续表示。该特征旨在整合预训练模型的视觉语言摘要能力,其计算公式为 f_t = VL(I_t, l)。

由于基本 VLA 模型采用单帧形式,引入特征分块 F_tM ={f_t−M+1,…,f_t−1,f_t} 来有效地表示多帧关系。它是历史运动特征的分块,可以在特征级别表示 M 个步骤的多帧观测值。在训练期间,通过在批次级重构输入来执行 M 个步骤的多帧预测,从而使视觉语言主干网络每次迭代能够独立处理 B × M 个单帧输入,其中 B 表示原始批次大小。这为跨帧解码器提供运动特征分块 F_tM。在推理期间,用先进先出(FIFO)队列机制来维护特征分块,通过重用先前的视觉语言计算结果,显著加快推理速度。

跨帧解码

跨帧解码器。跨帧解码器利用嵌入在特征分块 F_tM 中的多帧运动信息进行动作预测,得到动作分块 a_t:t+K−1 = Decoder(F_tM),如上图 (b~c) 所示。参照 [38] 中的研究,构建一个基于 Transformer 的解码器,该解码器由自注意网络和多层感知器 (MLP) 层组成,并使用扩散损失 L_diff 进行训练。为了平衡当前和过去运动特征在动作预测中的贡献,用一个调制器来动态调制运动特征。具体而言,当前运动特征 f_t 通过 DIV 函数进行划分,使其与过去运动特征的数量 M − 1 匹配,然后一起处理以生成调制后的特征 Z_f。

DIV 函数由一个扩维多层感知器 (MLP) 和一个特征拆分操作组成。进一步采用交叉注意机制来分离动作和运动特征,从而实现有效交互,同时避免增加计算开销,确保解码器能够扩展到更长的时域。具体而言,Z_f 被输入到交叉注意网络中并映射到K和V,其中带噪动作 aˆ 作为查询。带噪动作以 Z_f 为条件进行迭代去噪,以获得最终的动作输出。

使用多帧正则化进行后训练。引入多帧正则化,将视觉语言主干网络与解码器中的多帧建模解耦,确保其训练与单帧范式保持一致。具体而言,特征分块 F_tM 中的过去运动特征 {f_t−M+1,…,f_t−1} 被视为解码器的辅助输入,其影响仅限于解码部分。它们的梯度流受到限制,阻止对视觉语言主干网络进行任何更新,仅作为正则化项来促进训练。整体目标函数会发生变化,其中 s_g 表示停止梯度操作。

该方法有两个优点:(1) 提取过去的运动特征而无需进行梯度计算,从而减少了计算和内存开销,从而实现了高效的训练。(2) 单帧更新可以保留主干网络预先训练的单帧感知能力,并促进更快的收敛。

动作适配

在微调过程中,用动作自适应机制进行动作预测,如上图 © 所示。运动特征分块 F_tM 能够有效捕捉专家演示中的动作模式,并与未来动作表现出很强的相关性。这能够利用特征分块检索标准动作,并将其作为指导动作预测的粗略先验。在下图中,处理所有专家演示的每个多帧片段 I_t−M:t(长度 = M),提取运动特征分块 F_tM 及其关联的动作序列。然后,特征分块 F_tM 通过调制器转换为调制特征 Z_f。假设有 N 个片段,只需将 Z_f 展平并归一化为 Zˆ_f,然后形成检索矩阵 X,以支持从特征到动作的搜索。

请添加图片描述

适配器通过计算 K(即当前 Zˆ_f )与检索矩阵 X 中所有向量的余弦相似度(即 s = XZˆ_fT)来执行动作检索。前 k 个最相似的条目 sˆ: sˆ,I = Topk(s),w = softmax(sˆ)。参考动作从检索的条目中聚合而成,如下所示:

请添加图片描述

如果相似度较低,则将 aIi_ t:t+K 设置为零向量以表示不确定性。否则,将其与相应的动作加权,以生成参考动作 aˆ_t:t+K−1。受到视频 [47] 和动作生成 [48] 中融合机制的启发,这些机制整合先验和噪声信息来预测未来状态。这里提出将 aˆ_t:t+K−1 与带噪声的动作连接起来,并通过线性层将它们投影到解码器的共享特征空间中,作为指导最终动作生成的初始状态。


实现细节。重点是探索在后训练过程中基于标准现成的预训练方法进行多帧建模。在使用 OXE 数据集 [16] 对 [12, 50] 进行基本单帧 VLA 预训练后,选择两个高质量数据集 Bridge-v2 [51] 和 Fractal [40] 数据集,进行进一步的跨具身后训练,并使用多帧建模,其中包含约 148k 个场景和 5M 个多帧剪辑。

CronusVLA 7B 基于 7B Llama 2 [52] 构建,CronusVLA 0.5B 基于 Qwen2.5 0.5B [53] 构建。它们都遵循 [9],采用 Dinov2 [46] 和 SigLip [45] 作为视觉编码器。对于输入条件,CronusVLA 基于第三人称摄像机和文本指令构建。除了当前的单帧观察之外,CronusVLA-7B 默认配置 6 个过去帧,而 CronusVLA-0.5B 使用 3 个过去帧。所有实验均基于 A100 GPU。

SimplerEnv 和基线。在 SimplerEnv [29] 中开展模拟实验,这是一个基准测试,旨在评估模型在 WidowX 机器人 (WR) 和谷歌机器人 (GR) 环境下执行各种任务的情况。GR 环境包括两种实验设置:视觉匹配 (VM) 和变分聚合 (VA),一种严格遵循真实到模拟的复制,另一种引入环境变化。WidowX 机器人环境仅包含 VM 设置。可视化效果如图所示。

请添加图片描述

报告平均成功率并采用与 [21] 相同的评估设置。对于预训练模型,RT-1-X [16, 40]、RT-2-X [16, 13] 和 Octo-Based [49] 是早期基线,OpenVLA [12]、CogACT [21] 和 Magma [34] 在 OXE 数据集的子集上进行训练,模型大小超过 70 亿个参数。对于其余报告的模型,它们都是在 Fractal 和 Bridge-v2 数据集上进行后训练的。RoboVLMs (2B)[20] 是一个多帧 VLA 模型;报告了在两个数据集上分别训练的两个官方检查点的结果,并在 Google 和 WidowX 机器人上进行独立评估。SpatialVLA(官方混合版)[14] 是从预训练版本进行后训练的。
TraceVLA (7B) 和 TraceVLA-Phi3 (4B) [15] 经过额外的视觉提示注释训练。 Basic-Post(7B)表示以离散方式进行后训练的模型,该模型基于预训练的基础模型 [12]。所有模型均使用官方检查点进行评估,或直接报告其官方结果。

在 LIBERO [30] 模拟基准上评估微调阶段。LIBERO 包含四个任务套件,包括 LIBERO-Spatial、LIBERO-Object、LIBERO-Goal 和 LIBERO-Long,它们分别评估空间推理、目标和目标泛化以及从精确定位到多步目标执行的长期规划。基于多帧后训练模型,用动作适配策略对每个套件进行微调。将方法与低级策略扩散策略 [1] 和 MDT [54] 进行了比较,这两个策略都是从头开始训练的。其他从预训练权重进行微调的模型包括 Octo [49]、OpenVLA [12]、TraceVLA [15] 和 SpatialVLA [14]。除 MDT 之外的所有上述模型都基于一个第三人称观察和语言指令,没有多视角观察和状态。 CronusVLA 7B 从我们训练后的权重开始微调 10K 步,其余 5K~12K 步用于训练动作适配器。过去的帧数为 3。

如图所示,用 Franka Research 3 机器人在几个真实世界任务上评估该方法,并利用 delta 末端执行器动作来控制 Franka;同时,用第三人称摄像机进行视觉输入。设计了三个任务套件:(1)简单的拾取和放置,涉及在不同位置和方向上拾取和放置不同颜色和形状的物体;(2)长视野任务,需要协调的多步骤操作,包括放置多个物体、打开再关闭抽屉、将物体放入抽屉以及按特定顺序按下按钮;(3)泛化和鲁棒性任务,评估在未见过的物体、新指令、摄像机遮挡、干扰物体等方面的表现。为每个拾取物体任务手动收集 30 个演示片段,为其他任务手动收集 50 个片段。所有专家演示都用于协同训练,并报告 25 次试验的成功推出次数。实现 3D 扩散策略 (DP3) [55],OpenVLA [12] 也基于这些演示进行微调,而CronusVLA 7B 则基于训练后的权重进行微调。


网站公告

今日签到

点亮在社区的每一天
去签到