3D版的VLA：从3D VLA、SpatialVLA到PointVLA——3D点云版的DexVLA，在动作专家中加入3D数据-EW帮帮网

前言

之前写这篇文章《机器人大小脑的融合——从微调VLM起步的VLA发展史：详解RoboFlamingo、Octo、TinyVLA、DexVLA》的时候，就想解读下3D VLA来着，但一直因为和团队并行开发具身项目，很多解读被各种延后

更是各种出差，比如从25年3月下旬至今，连续出差三轮，绕中国半圈，具身占八成

第一轮珠三角，长沙出发，深圳广州/佛山
第二轮京津冀及山东，长沙出发，保定北京济南青岛
第三轮长三角，青岛出发，上海南京今天下午回到长沙

而出差过程中接到的多个具身订单中，有一个人形开发订单涉及要遥操，而3D版的VLA也是一种备选方案「详见此文《从宇树摇操avp_teleoperate到unitree_IL_lerobot：如何基于宇树人形进行二次开发》的开头」

故回到长沙后，便准备解读下3D VLA来了，但既然解读3D VLA了，那就干脆把相关3D版本的VLA一并解读下——特别是PointVLA 且我顺带建了一个PointVLA的复现落地群，欢迎私我一两句简介以加入

如此，便有了本文

第一部分 3D VLA

3D VLA

其对应的paper为
其对应的GitHub为：github.com/UMass-Embodied-AGI/3D-VLA

// 待更

第二部分 SpatialVLA

// 待更

第三部分 PointVLA: 将3D点云集成到预训练的VLA模型中

3.1 提出背景与相关工作

25年3.10日，来自1Midea Group、2Shanghai University、3East China Normal University等机构的研究者们提出了PointVLA，其paper地址为《PointVLA: Injecting the 3D World into Vision-Language-Action Models》，遗憾的是，截止到25年4月中旬，其代码暂未开源

这个团队的节奏还挺快的，他们在过去半年多还先后发布了TinyVLA、Diffusion-VLA、DexVLA

TinyVLA	24年9月	1. Midea Group 2. East China Normal University 3. Shanghai University 4.Syracuse University 5. Beijing Innovation Center of Humanoid Robotics	Junjie Wen1,∗ , Yichen Zhu2,∗,† , Jinming Li3 , Minjie Zhu1 , Kun Wu4 , Zhiyuan Xu5 , Ning Liu2 , Ran Cheng2 , Chaomin Shen1,† , Yaxin Peng3 , Feifei Feng2 , and Jian Tang5
Diffusion-VLA	24年12月	1 East China Normal University, 2 Midea Group, 3 Shanghai University	Junjie Wen1,2,∗, Minjie Zhu1,2,∗, Yichen Zhu2,†,*, Zhibin Tang2, Jinming Li2,3, Zhongyi Zhou1,2,Chengmeng Li2,3, Xiaoyu Liu2,3, Yaxin Peng3, Chaomin Shen1, Feifei Feng2
DexVLA	25年2月	1 Midea Group 2 East China Normal University	Junjie Wen12∗ Yichen Zhu1∗† Jinming Li1 Zhibin Tang1 Chaomin Shen2, Feifei Feng1
PointVLA	25年3月	1 Midea Group 2 Shanghai University 3 East China Normal University	Chengmeng Li1,2,∗ Yichen Zhu1,∗,† Junjie Wen3 Yan Peng2 Yaxin Peng2,† Feifei Feng1

3.1.1 引言

如原论文中所说，机器人基础模型，特别是Vision-Language-Action，即VLA模型[4-π0, 5-Rt-2, 25-Openvla, 45-Tinyvla, 46-Dexvla]，在使机器人能够感知、理解和与物理世界交互方面展现了卓越的能力

这些模型利用预训练的VLMs [3-Paligemma, 8-Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks, 20-Prismatic vlms, 30-Deepseek-vl, 42-Qwen2-vl] 作为处理视觉和语言信息的骨干，将其嵌入到一个共享的表示空间中，并随后将其转化为机器人动作
这个过程使机器人能够以有意义的方式与其环境交互
VLA 模型的强大性能在很大程度上依赖于其训练数据的规模和质量。例如，Open-VLA[25] 使用4k 小时的开源数据集进行训练，而更先进的模型如π0 则利用10k 小时的专有数据，从而显著提升了性能
除了这些大规模的基础模型外，许多项目还通过物理机器人上的真实人类演示收集了大量数据集。例如，AgiBot-World[6] 发布了一个包含数百万条轨迹的大型数据集，展示了复杂的人形交互

然，大多数现有的机器人基础模型[4, 5, 21-Fast online adaptation in robotics through meta-learning embeddings of simulated priors, 25, 46]都是基于二维视觉输入进行训练的[23-Droid, 35-Open x-embodiment]

这构成了一个关键的局限性，因为人类感知和与世界互动是在三维空间中进行的。训练数据中缺乏全面的三维空间信息阻碍了机器人对其环境形成深刻理解的能力。可这，对于那些需要精确的空间感知、深度感知和物体操作的任务来说，这一点尤其关键

对此，他们提出了PointVLA，一种将点云集成到预训练的视觉-语言-动作模型中的新框架

且考虑到新的3D机器人数据显著少于预训练的2D数据。在这种情况下，关键是不要破坏已建立的2D特征表示。故他们提出了一个3D模块化块，该块将点云信息直接注入到动作专家中
如此，通过保持视觉-语言骨干网络的完整性，确保了2D视觉-文本嵌入的保留——并仍然是可靠的信息来源
此外，他们力求将对动作专家特征空间的干扰降到最低。通过跳跃块分析，他们确定了测试时不太关键的层，即让动作专家中这些“用处较小”层的特征嵌入更适应新模态。在确定了这些较不重要的块后，他们通过加性方法注入提取的3D特征

3.1.2 相关工作：iDP3仅支持点云输入，PointVLA则在2D输入之外，添加3D输入

对于视觉-语言-动作模型

近年来的研究越来越多地关注于开发基于大规模机器人学习数据集训练的通用机器人策略

[11- The ingredients for robotic diffusion transformers,
14-Rh20t: A comprehensive robotic dataset for learning diverse skills in one-shot,
23-Droid,
27-Data scaling laws in imitation learning for robotic manipulation，详见此文《机器人领域中的scaling law：清华高阳团队通过复现斯坦福UMI——探讨数据规模化定律(含UMI的复现关键)》,
35-OpenX，详见此文《Google视觉机器人超级汇总：从RT、PaLM-E、RT-2到RT-X、RT-H(含Open X-Embodiment数据集详解)》的第4部分 ]

视觉-语言-动作（VLA）模型已经成为训练此类策略的一种有前途的方法

[4-π0,9-Diffusion policy
12-Quar-vla: Vision-language-action model for quadruped robots,
13-Humanoid-vla: Towards universal humanoid control with visual integration,
24-Openvla,
33- Llarva: Vision-action instruction tuning enhances robot learning,
36-Fast_π0,
40- Quartonline: Latency-free large multimodal language model for quadruped robot learning,
45-Tinyvla,46-Dexvla,
48-Robotic control via embodied chain-of-thought reasoning,
54-Vlas:Vision-language-action model with speech instructions for customized robot manipulation,
55- Chatvla: Unified multimodal understanding and robot control with vision-language-action
model]

VLA扩展了视觉-语言模型（VLM）——这些模型通过基于互联网规模的大型图像和文本数据集进行预训练

[1-Phi-3 technical report: A highly capable language model locally on your phone,
8-Internvl,20-Prismatic vlms,
28-Improved baselines with visual instruction tuning,
29-Visual instruction tuning,30-Deepseek-vl,42-Qwen2-vl,
53-Cobra: Extending mamba to multi-modal large language model for efficient inference,
58- Mipha: A comprehensive overhaul of multimodal assistant with small language models,
59-Llava-phi: Efficient multi-modal assistant with small language model]

——以实现机器人控制[44-Distrl: An asynchronous distributed reinforcement learning framework for on-device control agents]

毕竟这种方法提供了几个关键优势：

利用大规模具有数十亿参数的视觉-语言模型骨干能够从大量的机器人数据集中进行有效学习
同时重用来自互联网规模数据的预训练权重增强了视觉-语言代理（VLAs）理解多样化语言指令以及对新颖物体和环境的泛化能力，使它们在实际机器人应用中具有高度适应性。机器人学习与三维模态

在三维场景中学习鲁棒的视觉运动策略

[7-Sugar: Pre-training 3d visual representations for

robotics,

15-Rvt: Robotic view transformer for 3d object manipulation,

16- Rvt-2: Learning precise manipulation from few demonstrations,

17- An embodied generalist agent in 3d world,

19- Lift3d foundation policy: Lifting 2d large-scale pretrained models for robust 3d robotic manipulation,

22- 3d diffuser actor: Policy diffusion with 3d scene representations,

37- Spatialvla: Exploring spatial representations for visual-language-action model,

39- Self-supervised 3d representation learning for robotics,

41-Rise: 3d perception makes real-world robot imitation simple and effective,

49-Gnfactor: Multi-task real robot learning with generalizable neural feature fields

50-Generalizable humanoid manipulation with improved 3d diffusion policies

51- 3d diffusion policy: Generalizable visuomotor policy learning via simple 3d representations

52- Dcpidepth]

是机器人学习中的一个重要领域

现有方法如3D VLA[17-An embodied generalist agent in 3d world]提出了综合框架，将多样化的三维任务（如泛化、视觉问答(VQA)、三维场景理解和机器人控制）整合到统一的视觉-语言-动作模型中
然而，3D VLA的一个局限性是其在机器人控制实验中依赖模拟，这导致了显著的模拟到真实的差距
其他研究，如3D扩散策略[51]，表明使用外部三维输入(例如来自外部摄像机)可以提高模型对不同光照条件和对象属性的泛化能力
iDP3[50] 则进一步增强了三维视觉编码器并将其应用于人形机器人，在具有自我视角和外部摄像机视角的多样环境中实现了鲁棒性能
然而，丢弃现有的二维机器人数据，或者完全用新增的三维视觉输入重新训练基础模型，将会耗费大量的计算资源
However, discarding existing 2D robot data or completely retraining the founda-tion model with added 3D visual input would be computa-tionally expensive and resource-intensive.
一个更实用的解决方案是开发一种方法，将三维视觉输入作为补充知识源集成到经过良好预训练的基础模型中，从而在不影响训练模型性能的情况下获得新模态的好处

3.1.3 预备知识：PointVLA相当于3D点云版的DexVLA

VLA的强大源于其底层的VLM，这是一个经过海量互联网数据训练的强大骨干网络。这种训练使得图像和文本表示能够在共享的嵌入空间中实现有效对齐

VLM作为模型的“头脑”，处理指令和当前视觉输入以理解任务状态。随后，一个“动作专家”模块将VLM的状态信息转化为机器人动作

而PointVLA构建于DexVLA [46]的基础上

DexVLA采用了一个具有20亿参数的Qwen2-VL [2,43]视觉语言模型（VLM）作为其主干，以及一个具有10亿参数的ScaleDP [57]（一种扩散策略变体）作为其动作专家
DexVLA经历了三个训练阶段：
一个为期100小时的跨实体训练阶段（阶段1），随后是实体特定训练（阶段2），以及一个可选的针对复杂任务的任务特定训练（阶段3）
所有三个阶段都使用2D视觉输入。尽管这些VLA模型在多样化的操作任务中表现出色，但它们对2D视觉的依赖限制了它们在需要3D理解的任务中的表现，例如通过照片进行物体欺骗或在不同桌子高度之间的泛化

3.2 将点云注入到VLA中

3.2.1 3D点云注入器的整体架构

如之前所述，VLA模型通常在大规模二维机器人数据集上进行预训练。一个关键的观察是支撑他们方法的核心是现有2D预训练语料库与新兴3D机器人数据集之间数据规模的固有差异

具体而言，他们认为3D传感器数据（例如点云、深度图）的体量相比于2D视觉-语言数据集小了几个数量级，这是由于机器人研究历史上对2D感知的广泛关注所致。这种差异需要一种方法，既能保留从2D预训练中学习到的丰富视觉表示，又能有效整合稀疏的3D数据
一种解决这一挑战的简单策略是直接将3D视觉输入转换为3D视觉token，并将其融合到大型语言模型（LLM）中——这种方法已被许多3D VLM采用，例如LLaVA-3D [56]

然而，目前的视觉-语言模型在小规模3D数据集上微调时表现出有限的3D理解能力，这一局限性由两个因素加剧：

2D像素与3D几何结构之间的显著领域差异
以及与图像 - 文本和纯文本语料库的丰富相比，高质量的 3D 文本配对数据十分稀缺

为了解决这些问题，他们提出了一种范式，将3D点云数据视为补充的条件信号，而不是主要的输入模式。这种策略将3D处理与核心的2D视觉编码器分离，从而在保留预训练的2D表示完整性的同时，使模型能够利用几何线索

且通过设计，他们的方法减轻了对2D知识的灾难性遗忘，并降低了对有限3D数据过拟合的风险。点云注入器的模型架构

点云注入器的整体架构如下图图2(右)所示

具体来说，对于传入的点云嵌入，他们首先将通道维度转换以匹配基础动作专家的通道维度。由于点云的动作嵌入可能较大——具体取决于块大小，他们设计了一个动作嵌入瓶颈来压缩动作专家的信息，同时使其与3D点云嵌入对齐
即Since the action embeddingfrom the point cloud can be large, depending on the chunksize, we design an action embedding bottleneck to compressthe information from the action expert while aligning it withthe 3D point cloud embedding.
对于动作专家中的选定块，他们首先为每个块应用一个MLP层作为适配器，然后通过加法操作将点云嵌入注入到模型中
值得注意的是，他们会避免将3D特征注入到动作专家的每个块中，主要有两个原因
$\rightarrow$ 首先，由于所需的条件块，计算成本将高得无法接受
$\rightarrow$ 其次，注入不可避免地会改变受影响块的模型表示
鉴于此，他们的目标是尽量减少有限的 3D 视觉知识对源自 2D 视觉输入的预训练动作嵌入的干扰，故他们进行了分析以确定在推理过程中可以跳过的模块，同时又不影响性能

$\rightarrow$ 最后，他们仅将 3D 特征注入到这些不太关键的模块中

3.2.2 点云编码器

与DP3 [51] 和iDP3 [50] 中的观察一致，他们也发现预训练的3D视觉编码器会阻碍性能，通常会阻止在新环境中成功学习机器人行为

因此，他们采用了一种简化的分层卷积架构。上层卷积层提取低级特征，而下层卷积块学习高级场景表示。在层之间采用最大池化以逐渐减少点云密度
最后，再将特征进行拼接。从每个卷积块中提取的特征嵌入被整合为一个统一的嵌入，封装了多层次的三维表示知识。提取的点云特征嵌入被保留以供后续使用

总之，该架构与iDP3编码器相似。当然了，他们认为，采用更先进的点云编码器可能会进一步提高模型性能

3.2.3 在哪些块注入点云？跳过块分析

如前所述，将点云注入动作专家的每个模块并不理想，因为这会增加计算成本并扰乱从大量2D 基于视觉的机器人数据中学习到的原始动作表示

因此，他们分析了动作专家中哪些模块不太关键——即在推理过程中可以跳过而不影响性能的模块。这个方法在概念上与图像生成、视觉模型和大型语言模型中使用的技术一致[10,18, 26, 38]

具体来说，我们使用DexVLA [46] 中的折衬衫任务作为分析的案例研究。请注意，DexVLA 配备了一个包含10 亿参数的动作专家，具有32 个扩散transformer模块
评估遵循相同的指标：平均得分，这是一个长时任务的标准度量[4, 31, 46]——通过将任务分为多个步骤并根据步骤完成情况评估性能
他们首先每次跳过一个模块，并在下图中总结了他们的发现
实验表明，前11个模块对模型至关重要——跳过任何一个模块都会导致性能显著下降。特别是，当跳过11层之前的模块时夹具无法紧密闭合，使得模型难以完成任务
然而，从第11个模块开始，跳过单个模块是可以接受的，直到最后一个模块。这表明，经过训练后，第11到31模块对性能的贡献较少
为了进一步研究哪些模块适合点云注入，他们从第11模块开始进行了多模块跳过分析，如图3(右)所示
他们发现，在模型无法完成任务之前，可以跳过最多五个连续模块。这表明可以通过特定模块将3D表示选择性地注入到动作专家中，从而在不显著影响性能的情况下优化效率
因此，当引入新数据时，他们将所有3D条件模块设置为可训练。且冻结原始动作专家中的所有模块，除了最后的层，这些层被调整以适应具体实施的输出
最终，他们仅训练了五个额外的注入模块，这些模块在推理过程中轻量且快速，使得他们的方法具有极高的成本效益

3.3 实验

3.3.1 实验设置

他们在两种实体上进行了真实机器人实验：

双臂 UR5e
两个 UR5e 机器人，每个配备一个 Robotiq 平行夹爪，和一个腕部安装的摄像头——数据以15Hz的频率采集。且使用RealSense D435i 摄像头作为腕部摄像头
另在两臂之间安装了一个俯视摄像头
相当于，此设置共有三个摄像头视角以及一个14维的配置和动作空间
双臂 AgileX
两个 6 自由度的 AgileX 机械臂，每个机械臂配备一个腕部摄像头——数据以30Hz 采集。我们使用 RealSense D435i 摄像头作为腕部摄像头
和一个基座摄像头——使用 RealSense L515 摄像头来收集点云数据
此配置具有 14 维的配置和动作空间，相当于总共由三个摄像头支持

之后，将 VLM 模型设置为可训练状态，因为模型需要学习新的语言指令

在这两个实验中，他们使用来自 DexVLA [46] 的第一阶段预训练权重，并对他们的模型进行微调。且使用与DexVLA 第二阶段训练相同的训练超参数，并使用最后一次检查点用于评估以避免选择性偏好
过程中，将所有任务的块大小设置为50

在他们的实验中，他们对比了包括扩散策略（DP）[9]，3D扩散策略（DP3）[51]，ScaleDP-1B [57]，一种将扩散策略扩展到10亿参数的变体，Octo [34]，OpenVLA[25]，以及DexVLA [46]

请注意，由于PointVLA是基于DexVLA构建的，因此DexVLA可以被视为PointVLA在未结合3D点云数据情况下的消融版本

3.3.2 少样本多任务处理

如下图图5所示「使用了三台摄像头：两台安装在腕部的RealSense D435i和一台位于上方的RealSense L515」，他们设计了四个少样本任务：充电手机、擦盘子、放置面包、运输水果

物体被随机放置在一个小范围内，他们报告了每种方法的平均成功率

充电手机：机器人拾取一部智能手机并将其放置在无线充电器上。手机的尺寸测试了动作的精确性，而其脆弱性需要小心处理
擦盘子：机器人同时拾取一个海绵和一个盘子，用海绵擦拭盘子，评估双手操作技能
放置面包：机器人拾取一片面包并将其放置在一个盘子上。面包下面的一层薄泡沫用来测试高度泛化能力
运输水果：机器人拾取一个随机方向的香蕉并将其放置在一个位于中央的箱子里

由于作者旨在验证模型的少样本多任务能力，故他们为每个任务收集了20个示例，总计80个示例。物体的位置在一个小范围内随机化。这些任务评估了模型在不同场景中管理独立和协调机器人运动的能力。所有数据均以30Hz采集

从实验结果来看，他们宣称的他们的方法优于所有基线方法

且值得注意的是，扩散策略在大多数情况下都失败了，这可能是因为每个任务的样本量太小，导致动作表示空间变得纠缠——这一观察与先前文献中的发现一致[47]
此外，即使增加模型大小（ScaleDP-1B），也未能带来显著的改进
尽管数据有限，DexVLA 展现了强大的少样本学习能力；然而，其性能与 PointVLA 相当或稍逊
PointVLA 中点云数据的整合实现了更高效的样本学习，突出了将三维信息整合到模型中的必要性。更重要的是，他们的结果证实了PointVLA的方法成功地保留了从二维预训练的VLA中学习的能力

3.3.3 长时任务：装配线上的包装——超越传统的多任务处理

他们进一步在长期打包任务上微调了PointVLA，如下图图4所示「使用了三台摄像机：两台安装在腕部的RealSense D435i和一台安装在上方的RealSense L515。PointVLA在一个具有挑战性的长时任务上进行了评估，该任务包括从移动传送带上拾取两瓶洗衣液并将其装入箱中」

这是一项极具挑战性的任务，原因有以下几点

首先，装配线处于运动状态，要求机器人快速且精确地抓取物体
其次，该场景中的实体与预训练数据中存在的实体不同，需要快速适应全新的设置
第三，作为一项长期任务，机器人必须按顺序拾取并放置两袋洗衣粉，然后封装打包箱。这些复杂性使得任务要求极高。评估指标详见附录

如表1所示，PointVLA在远程任务中实现了最高的平均长度，超越了强基线DexVLA 0.64。此外，它还优于其他几个基线

3.3.4 实物与照片的辨别：3D感知模型可减轻物体幻觉

在本节中，他们探讨了一种独特的设置，称为实物与照片辨别

具体来说，用物体的照片替代了真实物体。从二维的视角来看，显示在屏幕上的“假”物体看起来几乎与真实物体相同，但它实际上并不存在。人类可以轻松地识别出这种差异并避免去触碰该物体，因为我们理解它不是真实的——但机器人模型能做到这一点吗？
为了说明这一情景，他们进行了一个实验，使用双臂UR5e进行包装任务。通过用投影在屏幕上的洗衣液照片代替实际的洗衣液来设置实验

实验设置如下图图7所示「将真实的洗衣液替换为其照片，该照片显示在放置于传送带上的屏幕上。从外部视角来看，图像与真实物体明显不同。然而，从自中心顶部摄像机的视角来看，照片与实际洗衣液非常相似」
从外部视角来看，该图像与真实物体明显不同。然而，从自我中心的顶部摄像头视角来看，该照片与实际的洗衣液非常相似。他们观察到，传统的基于2D的视觉-语言-动作模型，例如OpenVLA和DexVLA，无法区分是图像还是真实物体
这些模型试图抓住物体，而在DexVLA的情况下，它反复尝试拾取不存在的洗涤剂。由于模型认为物体存在但连续无法抓住它，它进入了重复抓取的循环

相比之下，PointVLA成功地识别出传送带上没有真实物体。通过利用3D空间理解，它确定物体应该存在的空间实际上是空的。这一关键优势突出了PointVLA方法的强大，展示了3D感知模型在减轻物体幻觉方面的优越性

3.3.5 高度适应性：结合3D信息使得VLA模型能够处理物体高度的变化

在他们的上下文中，高度泛化指的是模型适应不同桌子高度的能力。这是机器人模型的一项关键能力，因为大多数示范是在固定的桌子高度上进行的

然而，当机器人被部署在一个桌子高度与训练时显著不同的环境中时会发生什么呢？

为了研究这个问题，他们设计了一个实验，如图8所示「即使模型是在标准高度下训练的，当PointVLA在测试时遇到不同的桌子高度时，它可以适应新的高度并成功完成任务。相比之下，传统的基于2D视觉的模仿学习方法则完全失败」

具体来说，在“放置面包”任务中，在面包下放置了一层泡沫塑料。在训练期间，这层泡沫厚度为3毫米，所有收集的数据都是基于这个高度的
在推理期间，因此，他们将泡沫厚度增加到52毫米，以评估模型对高度的泛化能力
他们的观察表明，传统的基于2D的VLA模型，例如Open-VLA [25]、DP[9]、ScaleDP-1B [57]和DexVLA [46]在这种情况下都失败了。在检测到面包时，这些模型试图将其向下推并在训练数据中观察到的高度进行抓取，未能适应增加的高度

相比之下，PointVLA成功完成了任务。通过利用点云数据，它准确地感知到了面包的新高度，相应调整了抓取器，并成功地执行了抓取任务。该实验表明，结合3D信息使得VLA模型能够处理物体高度的变化——这是一种纯2D模型所缺乏的能力

3.3.6 模拟基准的实验结果

作者在 RoboTwin [32] 上评估了他们的方法，这是一种广泛使用的移动双臂平台，配备了14自由度的机器人。该基准涵盖了多样化的任务集合

将PointVLA的方法与扩散方法进行比较——比如diffusion policy [9] 和 3D扩散策略 (DP3) [51]
扩散策略是视觉运动策略学习的一个成熟基线，而DP3将其扩展到3D领域。原始的DP3仅使用点云数据作为输入
为了公平比较，他们还将RGB图像引入DP3中。该实现由RoboTwin完成。作者对比了两种版本的DP3以及原始的扩散策略
且在所有实验中，他们使用标准的图像分辨率，比如用于摄像头输入的320×180分辨率，包括L515和顶部摄像头

测试使用了20和50个样本的数据集进行。按照RoboTwin中的训练设置，策略使用三个随机种子（0、1、2）进行了训练，没有为每次实验进行挑选

然后每个策略进行了100次测试，得出了三个成功率。计算了这些成功率的平均值和标准偏差以获得如下所示的实验结果。实验结果列于表2中

基线结果（包括3D Diffusion Policy和Diffusion Policy的结果）由RoboTwin报告。值得注意的是，在所有任务和不同设置中，他们提出的PointVLA无论是在20次还是50次示范训练下，都达到了最高的平均成功率
如此，他们认为，这表明他们的方法即使在数据资源有限时也很有效，并且在有丰富训练数据的情况下表现依旧良好
此外，他们观察到，对于像DP3这样的纯3D模型，直接整合RGB输入会对性能产生负面影响。相反，PointVLA的方法强调有条件地将3D点云数据整合到模型中的必要性，这相比于仅依赖2D视觉输入的模型显著提高了性能

最终上述的一系列实验通过在模拟和真实环境中的表现，证明了PointVLA的有效性，实现了少样本多任务学习（4个任务，每个任务仅需20次演示），并在动态物品包装等长时间任务中表现出色

总之，尽管VLA模型通过大规模二维预训练在机器人学习中表现出色，但它们对RGB输入的依赖限制了三维空间推理能力

与此同时，使用3D数据进行训练的成本很高，而丢弃2D数据集会降低泛化能力

为了解决这个问题，他们引入了PointVLA，这是一种框架，它在保留二维表示的同时，通过引入三维点云输入来增强预训练的视觉语言模型「a framework that enhances pre-trained VLAs with 3D point cloud inputs while preserving their 2D rep-resentation」

如此，通过集成模块化的3D特征注入器并利用跳跃块分析，PointVLA在无需完全重新训练的情况下高效地整合了空间信息

// 待更

3D版的VLA：从3D VLA、SpatialVLA到PointVLA——3D点云版的DexVLA，在动作专家中加入3D数据

前言

第一部分 3D VLA

第二部分 SpatialVLA

第三部分 PointVLA: 将3D点云集成到预训练的VLA模型中

3.1 提出背景与相关工作

3.1.1 引言

3.1.2 相关工作：iDP3仅支持点云输入，PointVLA则在2D输入之外，添加3D输入

3.1.3 预备知识：PointVLA相当于3D点云版的DexVLA

3.2 将点云注入到VLA中

3.2.1 3D点云注入器的整体架构

3.2.2 点云编码器

3.2.3 在哪些块注入点云？跳过块分析

3.3 实验

3.3.1 实验设置

3.3.2 少样本多任务处理

3.3.3 长时任务：装配线上的包装——超越传统的多任务处理

3.3.4 实物与照片的辨别：3D感知模型可减轻物体幻觉

3.3.5 高度适应性：结合3D信息使得VLA模型能够处理物体高度的变化

3.3.6 模拟基准的实验结果

网站公告

今日签到

热门文章

最新发布