ICRA-2025 | 视觉预测助力机器人自主导航!NavigateDiff:视觉引导的零样本导航助理

发布于:2025-04-12 ⋅ 阅读:(22) ⋅ 点赞:(0)

  • 论文:Yiran Qin 1 , 2 ^{1,2} 1,2, Ao Sun 2 ^{2} 2, Yuze Hong 2 ^{2} 2, Benyou Wang 2 ^{2} 2, Ruimao Zhang 1 ^{1} 1
  • 单位: 1 ^{1} 1中山大学, 2 ^{2} 2香港中文大学深圳校区
  • 论文标题:NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants
  • 论文链接:https://arxiv.org/pdf/2502.13894
  • 项目主页:https://21styouth.github.io/NavigateDiff/

主要贡献

  • 提出了新的导航框架NavigateDiff,通过将高层次任务推理与低层次机器人控制分离,增强了导航的泛化能力。
  • 引入了视觉预测器,结合多模态语言模型和扩散模型,用于生成未来的场景图像,以辅助机器人决策。
  • 设计了混合融合策略网络,通过整合当前观察、未来预测和目标图像,优化机器人的导航动作。
  • 通过模拟和现实环境的广泛实验,验证了该方法在零样本导航中的有效性和鲁棒性,展示了其在不同环境中的适应性。

研究背景

研究问题

论文主要解决的问题是家庭机器人在导航不熟悉环境时面临的挑战,特别是如何在不进行大量地图绘制和探索的情况下,实现零样本导航。

研究难点

该问题的研究难点包括:

  • 现有强化学习方法依赖于大量的地图绘制和探索,导致时间消耗大且效率低下;
  • 现有数据集无法覆盖机器人可能遇到的所有环境和场景,缺乏广泛的逻辑知识。

相关工作

  • 基于视觉的导航
    • 讨论了经典的SLAM方法和基于学习的方法在机器人视觉导航中的应用。
    • 这些方法包括端到端学习技术、记忆增强的强化学习、单目相机设置下的导航改进,以及模块化的导航和语义映射任务。
  • 扩散模型用于图像生成
    • 介绍了文本到图像的扩散模型如何改进指令驱动的图像生成方法。
    • 这些模型在图像编辑和动态导航任务中的应用被讨论,强调了在导航任务中生成符合物理规则的未来图像的挑战。
  • 预训练基础模型用于具身任务
    • 探讨了大模型(LLMs)和扩散模型在导航等具身任务中的应用。
    • 这些模型通过其信息处理和生成能力,用于导航任务中的先验知识推理、路径规划和目标识别等。

研究方法

论文提出了NavigateDiff导航框架,旨在通过视觉预测器将高层次的任务推理与低层次的机器人控制分离,从而实现可泛化的导航。

形式化描述

  • 为了生成未来帧的训练数据,论文使用模拟器内置的“最短路径跟随”算法来获取每个任务的标准化路线,并生成相应的视频。
  • 在现实世界中,论文记录了人类远程控制导航机器人完成图像导航任务的视角视频。
  • 从收集的视频中,随机选择起始帧,并根据预定义的预测间隔生成对应的未来帧。同时记录相关的导航任务信息,形成训练元组 ( x t , x t + k , x h , y , x g ) (x_{t}, x_{t+k}, x_{h}, y, x_{g}) (xt,xt+k,xh,y,xg),其中:
    • x t x_{t} xt 是当前观察图像,
    • x t + k x_{t+k} xt+k 是需要预测的未来帧图像,
    • x h x_{h} xh 是历史帧,
    • y y y 是任务的文本指令,
    • x g x_{g} xg 是导航任务的最终目标图像。

预测器

  • 预测器结合了多模态大模型(MLLM)和未来帧预测模型,能够处理当前观察、目标图像和指令,并生成预测的未来图像。
  • 多模态大模型:输入当前观察 x t x_{t} xt、目标图像 x g x_{g} xg 和文本指令 y y y,生成特殊图像标记 ,然后传递给未来帧预测模型。
  • 未来帧预测模型:将特殊图像标记转换为语义相关的表示 f N f^{N} fN,并将其与从2D编码器提取的特征 f H f^{H} fH 融合。融合特征 f ∗ f^{*} f 用于条件化编辑型扩散模型生成未来图像:
    f ∗ = H ( Q ( h < image > ) , E v ( x h ) ) f^{*} = H(Q(h_{<\text{image}>}), E_{v}(x_{h})) f=H(Q(h<image>),Ev(xh))
    其中, Q Q Q 表示Q-Former, E v E_{v} Ev 是二维编码器, H H H 是融合块,包含两个自注意力块、一个交叉注意力块和一个MLP层。
  • 训练目标是通过最小化噪声与去噪结果之间的差异来优化预测器:
    L predictor = E E ( x t + k ) , E ( x t ) , ϵ ∼ N ( 0 , 1 ) , s [ ∥ ϵ − ϵ δ ( s , [ z s , E ( x t ) ] + f ∗ ) ∥ 2 2 ] \mathcal{L}_{\text{predictor}} = E_{\mathcal{E}(x_{t+k}), \mathcal{E}(x_{t}), \epsilon \sim \mathcal{N}(0,1), s} [\|\epsilon - \epsilon_{\delta}(s, [z_{s}, \mathcal{E}(x_{t})] + f^{*})\|_{2}^{2}] Lpredictor=EE(xt+k),E(xt),ϵN(0,1),s[ϵϵδ(s,[zs,E(xt)]+f)22]
    其中, ϵ \epsilon ϵ 表示未缩放的噪声, s s s 表示采样步长, z s z_{s} zs 是步骤 s s s 的潜在噪声, E ( x t ) \mathcal{E}(x_{t}) E(xt) 对应于当前观察的条件。

融合导航策略

  • 尽管预测器提供了视觉模态内的未来状态规划,但仍需要训练一个低层次控制器来选择适当的导航动作。
  • 图像融合策略:在训练阶段,将当前观察 x t x_{t} xt 与未来帧 x t + k x_{t+k} xt+k 和目标图像 x g x_{g} xg 拼接并通过可训练的二维编码器进行处理,以获得融合表示。使用强化学习(如PPO)训练导航策略:
    s t = π ( [   f p , f o , a t − 1   ] ∣ h t − 1 ) s_{t} = \pi([\,f_{p}, f_{o}, a_{t-1}\,] | h_{t-1}) st=π([fp,fo,at1]ht1)
    其中, s t s_{t} st 表示智能体当前状态的嵌入, h t − 1 h_{t-1} ht1 表示策略 π \pi π 中来自前一步的循环层的隐藏状态。
  • 测试阶段:使用训练好的预测器和融合导航策略在新环境中进行导航。生成未来帧后,执行融合导航策略以生成具体的动作序列。
  • 融合策略设计: 提出了混合融合方法,比较了其与早期融合和晚期融合的性能。混合融合方法在像素级建立语义关联,并在时间维度上分离局部和全局信息,从而实现更好的性能。

实验

预测器

  • 数据集:使用GIBSON数据集中的视频序列进行训练,设置预测间隔 k = 5 k=5 k=5
  • 训练过程:首先使用InstructPix2Pix预训练扩散模型的权重,然后在导航环境中进行端到端的优化。

  • 评估:使用三种图像级指标(Frechet Inception Distance, Peak Signal-to-Noise Ratio, Learned Perceptual Image Patch Similarity)评估预测器的生成能力。结果显示,预测器在所有指标上均优于基线模型。

模拟实验

  • 数据集:在Habitat模拟器中使用GIBSON数据集进行训练,采用72个训练场景和14个测试场景。
  • 设置:训练500M步,遵循FGPrompt的规则。报告了多个数据集上的结果,以便与现有工作直接比较。

  • 结果

    • 在GIBSON数据集上,NavigateDiff在Success Rate (SR) 和 Success weighted by Path Length (SPL) 上表现优异。
    • 在MP3D数据集上进行跨域评估,NavigateDiff在较小的训练数据集上表现出色,超越了全数据集上的现有方法。
  • 跨任务评估

    • 数据集:在GIBSON环境中训练的模型直接转移到MP3D环境中进行评估。
    • 结果:NavigateDiff在MP3D数据集上实现了68.0%的SR和41.1%的SPL,优于其他方法。

真实世界实验

  • 设置:在办公室、停车场和走廊三种室内环境中进行测试,每种环境代表不同的布局、照明和障碍物挑战。
  • 结果:在所有三种真实世界场景中,NavigateDiff在成功率和SPL上均超过基线模型,展示了其在不同环境中的鲁棒性。

融合策略设计

  • 评估:在不同的融合策略(早期融合、晚期融合和混合融合)上进行评估。
  • 结果:混合融合策略在GIBSON ImageNav任务中实现了91.0%的SR和64.8%的SPL,显著优于其他融合策略。

总结

  • 论文提出了NavigateDiff,一种新的导航框架,通过视觉预测器和混合融合策略,实现了在新环境中的零样本导航。
  • NavigateDiff方法在模拟和真实世界环境中均表现出强大的鲁棒性和适应性,显著提高了导航性能和效率。