基于VLM 的机器人操作视觉-语言-动作模型:综述 2

发布于:2025-08-20 ⋅ 阅读:(19) ⋅ 点赞:(0)

25年8月来自哈工大(深圳)的论文“Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey”。

机器人操控是机器人技术和具身人工智能的关键前沿,需要精确的运动控制以及对动态环境中视觉和语义线索的综合理解。传统方法基于预定义的任务规范和严格的控制策略,往往难以在非结构化的新场景中扩展或推广。近年来,基于在海量图像文本数据集上预训练的大型视觉-语言模型 (VLM) 构建的视觉-语言-动作 (VLA) 模型已成为一种变革性范式。通过利用大型 VLM 在开放世界泛化、分层任务规划、知识增强推理和丰富的多模态融合方面的能力,这些模型使机器人能够解读高级指令、识别未知环境并执行复杂的操控任务。

本综述首次系统地、以分类学为导向地综述了基于大型 VLM 的机器人操控 VLA 模型。首先明确定义基于 VLM 的大型 VLA 模型,并描述两种主要的架构范式:(1)单体模型,涵盖具有不同集成度的单系统和双系统设计;(2)分层模型,通过可解释的中间表征明确地将规划与执行分离。在此基础上,对基于 VLM 的大型 VLA 模型进行深入研究:(1)与高层域的集成,包括强化学习、无需训练的优化、从人类视频中学习以及世界模型集成;(2)综合各具特色的特征,整合架构特性、操作优势以及支持其发展的数据集和基准;(3)识别有前景的方向,包括记忆机制、四维感知、高效自适应、多智体协作以及其他新兴能力。本综述整合最新进展,旨在解决现有分类法中的不一致问题,缓解研究碎片化,并通过系统地整合大型 VLM 与机器人操作交叉领域的研究来填补关键空白。

。。。继续。。。


分层建模是基于 VLM 的大型 VLA 模型的基础范式,尤其适用于需要长远推理、空间抽象或动作分解的场景。这些模型通常由一个高级规划器和一个低级策略组成。规划器接收指令和观察结果,并将其转换为可解释的中间表示。然后,策略接受这些表示并生成机器人可直接执行的动作序列或代码。下表提供了分层模型的摘要:“Type”列表示规划器的输出类型,其中“K”代表关键点,“S”代表子任务,“P”代表程序。“学习”列指定模型采用的学习方法,其中“SFT”表示监督微调,“RL”表示强化学习,“IM”表示模仿学习,“API”是一种特殊情况,指调用现有模型。

请添加图片描述

重要的是,分层模型中的规划器和策略可以独立运行,而无需任何模块严格依赖于另一个模块。这种模块化特性支持灵活的组合:许多工作仅专注于设计规划器组件,并利用现有的现成策略进行执行。因此,将分层模型分为两类:仅规划器和规划器+策略,如图所示。与同样涉及多个模块的双系统 VLA 模型不同,分层模型中的中间表示对于人类而言是明确可解释的。根据其性质,每个类别可以进一步细分为基于子任务、关键点和基于程序的方法。

请添加图片描述

仅规划器

基于程序的方法

在这种方法中,规划器生成用于机器人操作的中间程序,这些程序分为两类:机器人可执行程序和辅助程序。机器人可执行程序基于机器人库构建,可直接执行以控制机器人。例如,Chain-of-Modality [149] 采用多模态提示策略,其中 VLM 参与跨不同模态的多轮对话,最终生成机器人可执行的 Python 程序来重现该任务。类似地,Instruct2Act [157] 生成调用 API 来控制机器人动作的 Python 代码。相比之下,辅助程序支持策略理解任务,但不能直接执行。ROVI [150] 就是这一类别的典型代表,它生成辅助程序来描述潜在动作,并通过平移和旋转成本来解决实际执行问题。同样,ReLEP [151] 使用带有存储库的 VLM 将任务分解为技能库中的基本技能。它以辅助程序的形式生成规划,从而实现强大的长视域性能。

基于关键点的方法

基于关键点的规划器,使用视觉-语言模型 (VLM) 预测观测中的显著点,这些点通常对应于机械手应触及的交互区域(例如,抽屉的把手)。有几种方法通过预测路径点来处理机器人操作。MoManipVLA [146] 通过 VLA 模型在每一步生成一个关键路径点,然后通过双层轨迹优化框架将其细化为可执行动作。其他方法则强调 affordance 驱动的关键点。RoboPoint [147] 解释自然语言指令以生成指定精确操作目标的视觉关键点。此外,ManipLVM-R1 [46] 使用组相对策略优化 (GRPO) [171] 训练 VLM,以预测抓取的 affordance 区域和目标物体的轨迹,从而生成更具泛化的规划器。类似地,RoboBrain [153] 通过将用于高级规划的 LLaVA [21] 与用于识别可交互区域的 A-LoRA 模块以及用于预测轨迹航点的 T-LoRA 模块相结合,将任务规划、affordance 感知和轨迹估计融为一体。这表明这些模型涵盖了 affordance 和航点预测,形成了一种混合表示。此外,一些研究还探索了关键点的独特形式。例如,RoVI [150] 采用基于草图的界面,使用 YOLOv8 从手绘注释中提取起点、航点和终点,然后将其用作轨迹约束。

基于子任务的方法

在这种方法中,规划器通常是一个大型的 VLM,它接收高级隐式指令(例如,清理桌子)和观察结果,并将它们分解为逐步的文本命令。由于这些模型生成的是可解释的中间指令而非可执行的操作,因此在实际部署中仍然需要低级控制策略。早期的研究成果,例如使用机器人操作数据训练的 LLaVA 风格的 VLM PaLM-E [85],证明了将通用 VQA 功能与机器人命令生成统一起来的可行性。在此方向的基础上,Embodied-Reasoner [47] 引入了“观察-思考-行动”轨迹,以支持逐步规划过程中的空间分析、反思和验证。强化规划 [148] 保留了这种子任务分解设置,但通过先进行 SFT 再进行基于 GRPO 的强化微调的两阶段流程来提升泛化能力。与此同时,一些系统将感知与推理分离:Embodied-R [172] 将一个用于感知的大型视觉语言模型 (VLM) 与一个用于推理的小型语言模型 (LM) 相结合,用于在视频上进行具身空间推理,其推理轨迹可用于逐步推导用于操作的子任务提案。相比之下,ViLA [152] 利用 GPT-4V 作为外部规划器,使其根据文本和视觉输入生成候选任务计划,然后仅执行第一个命令,丢弃其余命令。

规划器+策略

基于关键点的方法

这类模型通常使用视觉-语言模型 (VLM) 将子目标作为空间基元,例如图像上的离散关键点或二维路径。然后,低级策略使用这些基元来预测连续轨迹和控制。例如,HAMSTER [48] 首先根据指令和观察结果预测轨迹关键点。然后,它将这些关键点链接成一条具有渐变颜色的有序路径,并叠加此路径以进行策略执行。此外,ReKep [50] 利用 DINOv2 [93] 和 SAM [173] 生成关键点提议,然后使用 GPT-4o [174] 将这些关键点转换为成本函数。随后,优化器将这些函数求解为航点和动作。此外,A0 [49] 采用了 affordance 感知的层次结构:规划器将接触点和接触后运动预测为与具体化无关的 affordance 表示,然后由动作策略将其转换为控制。

基于子任务的方法

基于子任务的层次模型,通过指令连接规划器和策略。规划器的作用与基于子任务的仅包含规划器的层次模型相同,并附加了一个低级策略来生成动作序列。

一个代表性示例是 HiRobot [154],其规划器接受开放式用户指令,然后将其分解为策略的原子命令。类似地,DexVLA [156] 具有 VLM 规划器和基于扩散的动作策略。该策略以 VLM 规划器给出的子任务 tokens 为条件,在复杂且长期的机器人操作任务中表现出色。 PointVLA [159] 基于 DexVLA 构建,通过在策略中加入点云编码器和注入器来增强空间感知,使模型能够在几何复杂的场景中遵循规划器的指令。RoBridge [161] 提示规划器生成原始动作的文本指令,并为要执行的策略形成不变的可操作表示。此外,SkillDiffuser [165] 通过预测一组技能的高级模型将复杂任务分解为子任务,而低级扩散策略则实现具体的动作。类似地,RoboMatrix [158] 将执行组织成一个三层结构:模块化调度层生成子任务序列,技能层编码并选择可重用的行为,硬件层实现机器人控制。HiBerNAC [167] 提出了一个异步的分层框架。在该框架中,多智体神经结构首先将高级指令分解为结构化子任务。然后,异步流水线管理这些子任务,并协调反应式 VLA 执行最终的低级动作。此外,MALMM [169] 包含一个规划器、一个监督器和一个编码器。规划器为编码器生成子任务,监督器协调模块之间的转换。编码器充当策略,将规划转换为可执行的机器人代码,包括动作和位置。

比较:单体式 vs. 分层式

在基于 VLM 的大型机器人操作 VLA 模型中,单体和分层架构之间的区别主要在于它们如何将视觉输入和语言指令映射到动作,无论是通过统一方法还是模块化方法。单体模型强调单一集成的流水线,该流水线联合优化感知、推理和控制,将高级多模态语义直接转化为低级动作。这种设计使机器人操作能够实现整体且紧密耦合的学习。相反,分层架构采用多阶段设计,明确地将高级规划与低级策略执行分开,从而提高模块化和可解释性。这种系统分解允许组件独立设计、训练或替换,从而增强灵活性,并简化领域知识的集成或适应新的机器人操作任务。

另一个核心区别在于中间处理的固有性质。单体模型虽然可能嵌入复杂的内部推理,但这些推理是在通常对外部检查不透明的潜空间中进行的。这种隐式策略使它们能够充分利用大模型的表示能力,有可能发现人类未明确设计的高效任务分解。另一方面,分层系统明确地致力于生成清晰的、人类可理解的中间输出。这使得它们在需要可解释性、详细的任务监控或与传统机器人流程兼容的机器人操作场景中尤其具有优势,在这些场景中,高级规划可以独立验证或修改。

尽管存在这些差异,但这两种方法都为机器人操作领域不断发展的 VLA 领域贡献了独特的优势。

除了核心 VLA 架构之外,有四个在鲁棒性、效率和长期规划方面都取得突破的方向:基于 RL 的优化、无需训练的改进、从人类视频中学习以及基于世界模型的 VLA。下表总结了代表性方法。

请添加图片描述


VLA 模型的特点

多模态融合
指令跟随
多维泛化

数据集和基准

4种类,如图所示:

请添加图片描述

未来方向:

数据集和基准
记忆机制和长时规划
3D和4D感知
移动操作
多智体合作
开放世界的终身学习
模型有效性


网站公告

今日签到

点亮在社区的每一天
去签到