- 作者:Zerui Li 1 ^{1} 1, Gengze Zhou 1 ^{1} 1, Haodong Hong 2 ^{2} 2, Yanyan Shao 3 ^{3} 3, Wenqi Lyu 1 ^{1} 1, Yanyuan Qiao 1 ^{1} 1 and Qi Wu 1 ^{1} 1
- 单位: 1 ^{1} 1阿德莱德大学, 2 ^{2} 2昆士兰大学, 3 ^{3} 3浙江工业大学
- 论文标题:Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments
- 论文链接:https://arxiv.org/pdf/2502.19024
主要贡献
- 论文首次在现实机器人部署中强调了人类指令与低高度视场四足机器人之间的视角不匹配问题。通过提出GVNav方法来弥合这种视角差异,以提高机器人在不同高度下的导航性能。
- 为了有效管理单元格内的特征冲突,引入了加权历史观察作为丰富的时空上下文。通过为不同视角下相同的特征分配适当的权重,能够更好地处理局部观察中的障碍物和感知不匹配问题。
- 通过从HM3D和Gibson数据集中转移连接图作为额外资源,增强了空间先验,并提高了在复杂真实环境中路径预测器的泛化能力。构建了大规模的路径预测数据集,以增强模型在低视角下的导航能力。
- 通过广泛的实验,展示了GVNav方法在模拟环境和真实世界部署中显著提高了性能。特别是,在小米Cyberdog上进行了实际测试,证明了该方法在多样化环境中的鲁棒性和适应性。
研究背景
研究问题
- 论文主要解决的问题是视觉语言导航(VLN)在连续环境中的泛化能力不足;
- 即如何弥补人类中心指令与四足机器人低视角之间的不匹配;
- 特别是在处理视觉多样性场景或从模拟环境到真实世界部署的过渡时。
研究难点
该问题的研究难点包括:
- VLN方法通常在全景视角下进行导航,而大多数机器人使用单目RGBD相机作为视觉传感器,限制了视野。
- 人类和机器人在视角高度上的显著差异,导致信息不对称,机器人难以准确执行任务。
- 现有VLN数据集主要基于人类视角设计,缺乏对低视角环境的充分测试。
相关工作
视觉语言导航
离散环境中的导航:
- 近年来,研究者们致力于基于人类指令在未知的环境中进行导航。
- 这些研究通常在离散化的模拟场景中进行,利用预定义的导航图来指导智能体的行动。
- 为了促进决策中的语言和视觉线索的对齐,Fried等人引入了通过全景动作进行导航的概念,允许智能体在图的相邻节点之间通过选择朝向目标节点的图像来进行导航。
连续环境中的导航:
- Krantz等人提出将VLN任务从离散环境转移到连续环境,更接近现实世界的设置。
- 尽管有这些进展,直接将VLN方法应用于连续环境导致了性能的显著下降。
- 为了克服这些挑战,一些研究引入了路径点模型,以在VLN和VLN-CE之间架起桥梁。
路径点模型的优化:
- Hong等人强调路径点方向和步长对VLN策略决策的影响。论文的目标是在有限的视线条件下优化路径点预测。
现实环境中的视觉语言导航
在真实机器人中的应用:
- 最近,研究人员尝试将VLN任务扩展到真实机器人中。Navid提出了一个基于视频的大规模视觉语言模型(VLM),展示其在没有地图、里程计或深度输入的情况下实现最先进的导航性能的能力。
- Wang等人提出了一种方法,赋予单目机器人全景可通行性和全景语义理解能力,并在真实机器人中进行了测试。
动态人类活动的整合:
- Li等人通过整合动态人类活动和放宽关键假设,扩展了传统的VLN,并引入了Human-Aware 3D(HA3D)模拟器,并在真实机器人中进行了测试。
不同高度视场的泛化差距:
- 然而,现有的研究并未指出在不同高度视场下的泛化差距对性能的影响。
- 本文在这一领域进行了探索,以填补这一空白。
背景和相关概念
VLN背景
在连续3D环境中,导航图假设无法反映部署系统在现实世界环境中会遇到的挑战。
因此,论文关注于VLN-CE(Continuous Environment),即智能体需要根据自然语言指令在连续3D环境中进行导航。
环境被表示为一个连续的3D空间 E \mathcal{E} E,其中智能体在任何时间 t t t 的位置由其3D坐标 x t = ( x t , y t , z t ) x_t = (x_t, y_t, z_t) xt=(xt,yt,zt) 给出,其中 x t , y t , x_t, y_t, xt,yt, 和 z t z_t zt 表示智能体在连续空间中的位置。
在每个位置 x t x_t xt,智能体通过视觉观测 o t o_t ot 来感知其周围环境,其中 o t o_t ot 包括RGBD图像 o t rgb ∈ R H × W × 3 o_t^{\text{rgb}} \in R^{H \times W \times 3} otrgb∈RH×W×3 和深度图像 o t depth ∈ R H × W o_t^{\text{depth}} \in R^{H \times W} otdepth∈RH×W。
智能体接收一个自然语言指令 L = { l 1 , l 2 , … , l n } L = \{l_1, l_2, \ldots, l_n\} L={l1,l2,…,ln},其中 l i l_i li 是指令中的词元(单词)。
这个指令指导智能体从起始位置 x start ∈ E x_{\text{start}} \in \mathcal{E} xstart∈E 到达目标位置 x goal ∈ E x_{\text{goal}} \in \mathcal{E} xgoal∈E,通过执行离散的低级动作。
跨模态规划与拓扑图
路径点预测网络
- 路径点预测网络的目标是生成一系列3D路径点 P t = { p 1 , p 2 , … , p n } \mathcal{P}_t = \{p_1, p_2, \ldots, p_n\} Pt={p1,p2,…,pn},其中每个路径点 p i ∈ R 3 p_i \in R^3 pi∈R3。
- 类似地,令 V t = { v 1 , v 2 , … , v n } \mathcal{V}_t = \{v_1, v_2, \ldots, v_n\} Vt={v1,v2,…,vn} 表示相应的视觉特征。
- 在每个时间步,视觉编码器处理全景输入以生成 V t \mathcal{V}_t Vt,然后Transformer在 V t \mathcal{V}_t Vt 上操作以建立相邻扇区之间的空间和上下文关系,丰富视觉特征表示并指导候选路径点的生成。
- 每个路径点与一个方向编码相关联,智能体根据其视觉特征和空间位置选择最有前景的路径点 p i p_i pi,简化导航过程。
拓扑导航策略
为了在连续环境中实现有效的回溯和规划,论文采用了ETPNav方法进行VLN-CE的语言引导导航。
环境被表示为一个基于图的拓扑地图 G t = { N t , E t } G_t = \{N_t, E_t\} Gt={Nt,Et},用于跟踪沿路径 Γ ′ \Gamma' Γ′ 观察到的所有节点。
给定 Γ ′ \Gamma' Γ′,通过从预定义图 G ∗ G^* G∗ 中派生其相应的子图来初始化 G t G_t Gt。节点 N t N_t Nt 分为三类:
- 已访问节点:智能体已经访问过的节点。
- 当前节点:智能体当前所在的节点。
- 幽灵节点:代表环境中不确定或预测位置的假设节点,尚未确认。
边缘 E t E_t Et 记录所有相邻节点之间的欧几里得距离。特征向量 V t p V_t^p Vtp 被映射到节点上作为它们的视觉表示。
对于时间步 t t t, V t p V_t^p Vtp 首先被输入全景编码器以获得上下文视图嵌入 V ^ t p \hat{V}_t^p V^tp。
已访问节点和当前节点已经被访问并可以访问全景,它们由全景视图嵌入的平均值表示。
幽灵节点部分被观察到,因此由可以从观察到的视图中累积的视图嵌入表示。
G t G_t Gt 配备了一个全局动作空间 A G A^G AG 用于长期规划,它包括所有观察到的节点。
图 G ∗ G^* G∗ 根据智能体的预测和节点之间的空间关系不断更新。
如果一个已访问节点被定位,输入路径点将被删除,并在当前节点和定位的已访问节点之间添加一条边。
如果一个幽灵节点被定位,输入路径点的位置和视觉表示被累积到定位的幽灵节点。
这意味着幽灵节点的位置和特征根据路径点的累积观测进行更新。如果没有节点被定位,输入路径点将作为新的幽灵节点添加到图中。
这个新添加的幽灵节点将保持未确认状态,直到未来的定位尝试。为了确保图 G ∗ G^* G∗ 的效率,过于接近或冗余的节点会被剪枝。
如果节点 v i v_i vi 和 v j v_j vj 之间的距离小于阈值 ϵ \epsilon ϵ,则剪枝 v i v_i vi 如果 d ( v i , v j ) < ϵ d(v_i, v_j) < \epsilon d(vi,vj)<ϵ,其中 d ( v i , v j ) d(v_i, v_j) d(vi,vj) 是两个节点之间的距离函数。
方法
扩展路径点预测网络训练
数据集扩展:
- 地面视角带来的第一个挑战是路径点预测性能的显著下降。这不仅由于视线的下移限制了视野,还因为路径点预测器在复杂现实环境中的泛化能力较低。
- 为了应对这一问题,论文遵循ScaleVLN的方法,构建了一个大规模的路径点预测数据集。数据集包括来自HM3D的800个扫描、来自Gibson的491个扫描和来自MP3D的61个扫描,这些扫描都是在低角度观察下进行的。
- 具体来说,论文采用ScaleVLN中构建的连接图,并将环境离散化为无向图。在图的每个节点上,标注了连接节点的距离和方向作为路径点预测网络的监督信号。这提供了总共212,924个训练样本,相比于原始训练数据,增加了22.02倍。
渲染高度调整:
- 在Habitat模拟器中将渲染高度设置为离地面80厘米,并在每个节点从地面视角捕获深度图像。
多视角信息收集
自适应信息收集模块:
- 地面视角带来的第二个挑战是由于环境遮挡导致的先知视角和智能体局部观察之间的差异。这为智能体在有限局部观察下预测下一步行动带来了困难。
- 提出了一种自适应信息收集模块,从之前的ETPNav方法中获取灵感。在更新拓扑图时,引入了一个可训练的Transformer编码器层,用于自适应地选择每个幽灵节点的最优视觉表示 v ~ g \tilde{v}_g v~g。
Transformer编码器层:
- 在每个时间步 t t t,视觉表示 V t = { v 1 p , v 2 p , … , v n p } \mathcal{V}_t = \{v_1^p, v_2^p, \ldots, v_n^p\} Vt={v1p,v2p,…,vnp} 通过可训练的Transformer编码器层进行处理,应用自注意力机制来捕捉视觉特征之间的依赖关系:
V t ′ = SelfAttn ( V t p ) V_t' = \text{SelfAttn}(V_t^p) Vt′=SelfAttn(Vtp)
其中, V t ′ ∈ R n × d V'_t \in R^{n \times d} Vt′∈Rn×d 是Transformer的输出矩阵,包含了视觉特征之间的上下文关系。
- 在每个时间步 t t t,视觉表示 V t = { v 1 p , v 2 p , … , v n p } \mathcal{V}_t = \{v_1^p, v_2^p, \ldots, v_n^p\} Vt={v1p,v2p,…,vnp} 通过可训练的Transformer编码器层进行处理,应用自注意力机制来捕捉视觉特征之间的依赖关系:
注意力权重计算:
- Transformer编码器层在应用Transformer块后,计算一组学习权重 W = { w 1 , w 2 , … , w e } \mathcal{W} = \{w_1, w_2, \ldots, w_e\} W={w1,w2,…,we} 用于每个输入特征:
W = Softmax ( Linear ( v i ′ ) ) W = \text{Softmax}(\text{Linear}(v_i')) W=Softmax(Linear(vi′))
这生成了一组注意力权重 W ∈ R n × 1 W \in R^{n \times 1} W∈Rn×1,用于选择最相关的特征表示。
- Transformer编码器层在应用Transformer块后,计算一组学习权重 W = { w 1 , w 2 , … , w e } \mathcal{W} = \{w_1, w_2, \ldots, w_e\} W={w1,w2,…,we} 用于每个输入特征:
加权特征表示:
- 幽灵节点的最终表示是通过变换特征的加权和计算的,其中权重来自注意力机制:
v ~ g = ∑ i = 1 n Softmax ( Linear ( v i ′ ) ) v i ′ \tilde{v}_g = \sum_{i=1}^{n} \text{Softmax}(\text{Linear}(v_i')) v_i' v~g=i=1∑nSoftmax(Linear(vi′))vi′ - 因此,Transformer编码器层学会了强调当前上下文中更有信息量的特征,使得幽灵节点能够自适应地选择来自多个视角的视觉表示(如图中的A和B)。
- 这种机制允许机器人在局部观察受限的情况下,利用历史的无遮挡视图进行更稳健的导航规划。
- 幽灵节点的最终表示是通过变换特征的加权和计算的,其中权重来自注意力机制:
实验
实验设置
模拟环境:
- 实验在Habitat模拟器和Matterport3D (MP3D) 数据集上进行,以模拟现实世界条件。
- 使用了两阶段训练过程:第一阶段在HM3D、Gibson和MP3D数据集上学习路径点预测,第二阶段在R2R数据集上学习导航任务。
- 评估指标包括轨迹长度(TL)、导航误差(NE)、总体成功率(OSR)、成功率(SR)和按路径长度加权的成功率(SPL)。
基线对比:
- 将GVNav方法与多个基线方法进行比较,包括Seq2Seq、CMA(mono)、BEVBert和ETPNav。
- 实验结果显示,GVNav在所有分割中均优于现有模型,特别是在NE、OSR、SR和SPL方面表现更好。
模拟环境中的比较
- 视角变化的影响:
- 评估了在高视角下训练的VLN模型在高低视角下的性能差距。
- 结果表明,模型在低视角下的成功率显著下降,尤其是在地标识别、深度感知和空间意识方面存在困难。
- 为了应对这一问题,论文重新训练模型以适应低视角视觉输入,但仍然发现性能有所下降,表明仅通过数据重训练无法完全弥补视角差异带来的域差距。
- 导航器与路径点预测器的比较:
- 通过消融实验分离了导航器和路径点预测器的贡献。
- 结果表明,在低视角条件下,路径点预测器对性能的影响更为显著。
- 重新训练路径点预测器显著提高了模型的泛化和导航精度。
现实环境中的比较
- 小米Cyberdog部署:
- 将GVNav方法部署在小米Cyberdog上,以展示其在现实世界环境中的导航能力。
- 硬件升级包括使用Intel RealSense D455相机进行更准确的深度感知,并集成一个360° TTL可编程齿轮电机以精确旋转相机。
- 在四个不同的环境中进行评估:游戏室、厨房、实验室和办公区域。
- 结果表明,GVNav在低视角条件下表现出色,能够在多样化的环境中有效导航。
总结
- 论文提出了一种新的地面视角导航(GVNav)方法,解决了四足机器人在连续环境中进行视觉语言导航时的视角不匹配问题。
- 通过扩展waypoint预测网络的训练数据和引入自适应信息采集模块,显著提高了模型在模拟环境和实际环境中的性能。
- 实验结果表明,弥合人类和机器人视角之间的视觉差距对于提高VLN模型的泛化和性能至关重要。