arXiv-2024 | NavAgent：基于多尺度城市街道视图融合的无人机视觉语言导航-EW帮帮网

作者：Youzhi Liu, Fanglong Yao*, Yuanchang Yue, Guangluan Xu, Xian Sun, Kun Fu
单位：中国科学院大学电子电气与通信工程学院，中国科学院空天信息创新研究院网络信息系统技术重点实验室
原文链接：NavAgent: Multi-scale Urban Street View Fusion For UAV Embodied Vision-and-Language Navigation (https://arxiv.org/pdf/2411.08579)

主要贡献

论文首个提出由大型视觉语言模型驱动的城市无人机导航模型（NavAgent），能够在城市环境中通过多尺度环境信息融合实现自主导航：

设计并训练了细粒度地标识别器：利用GLIP模型开发了地标视觉识别器，通过NavAgent-Landmark2K数据集进行训练，显著提高了细粒度地标的识别准确率（提升了9.5%）。
构建了动态生长的场景拓扑图：设计了拓扑图编码器，能够整合环境信息和当前视觉信息，增强了无人机在长距离导航中的规划能力。
创建了首个真实城市街景的细粒度地标数据集：NavAgent-Landmark2K数据集包含2000个图像-文本对，涵盖了城市街道场景中的细粒度地标。
在多个基准数据集上的优异表现：在Touchdown和Map2seq数据集上，NavAgent在任务完成率、最短路径距离和关键点准确率等指标上均优于现有的强基线模型。

研究背景

研究问题

论文主要解决无人机视觉语言导航（VLN）在城市环境中的应用。具体来说，现有的VLN方法主要集中在室内地面机器人场景，而在户外城市场景中应用时面临两个主要挑战：一是城市环境中物体众多，难以将图像中的细粒度地标与复杂的文本描述匹配；二是整体环境信息包含多种模态维度，表示的多样性显著增加了编码过程的复杂性。

研究难点

细粒度地标的匹配：在全景观察图像中识别和匹配细粒度地标（如路边的邮箱、垃圾桶等），这些地标在图像中仅占少数像素，且相关的文本描述通常包含多个修饰词。
多模态信息的编码：环境信息包括视觉数据（如观测图像）、语义信息（如地标类别和位置）和地理数据（如环境地图），这些数据类型具有不同的表示方式，并且在空间和时间上高度异构，增加了编码的复杂性。

研究方法

论文提出了NavAgent，用于解决无人机在城市环境中的视觉语言导航问题。

视觉识别器

利用GLIP构建一个地标视觉识别器，能够识别和语言化细粒度地标。通过对Google Street View中的街景图像进行标注，使用BLIP2生成地标的描述，创建了一个名为NavAgent-Landmark2K的细粒度地标数据集。

动态增长的场景拓扑图

开发一个动态增长的场景拓扑图，整合环境信息，并采用图卷积网络（GCN）编码全局环境数据。记录可导航位置作为节点，初始捕捉每个节点的位置和节点之间的方向关系，然后探索当前节点及其相邻节点，将其合并为一个连贯的场景拓扑图。

拓扑图编码器

设计拓扑图编码器以提取节点特征。通过GCN聚合信息，更新每个节点的特征，并使用全局池化提取全局节点特征。

基于大语言模型的动作决策

利用LLM综合多尺度信息。LLM接收导航指令文本、环境观测图像、地标信息和拓扑图特征，生成动作决策。

实验设计

数据集

实验使用了Touchdown和Map2seq两个数据集。Touchdown数据集包含18,402个导航实例，Map2seq数据集包含15,009个导航实例。数据集分为训练集、验证集和测试集。

视觉识别器训练

使用NavAgent-Landmark2K数据集对GLIP进行微调，评估其在细粒度地标识别任务中的性能。

模型训练

在Touchdown和Map2seq数据集上训练NavAgent模型，使用GPT-4作为地标文本提取器，微调后的GLIP作为地标视觉识别器，LLaMa2-13b模型作为决策LLM。

结果与分析

细粒度地标识别

微调后的GLIP在NavAgent-Landmark2K验证集上的细粒度地标识别准确率提高了9.5%。不同地标类别的识别准确率也有显著提高，例如公交车站的识别准确率提高了23.1%。

总体性能

在Touchdown数据集上，NavAgent在开发和测试集上的任务完成率分别比VELMA提高了4.6%和2.2%。在Map2seq数据集上，NavAgent在开发和测试集上的任务完成率分别比VELMA提高了2.4%和0.8%。

消融实验

移除视觉识别器或拓扑图编码器后，模型性能显著下降，验证了这两个模块的有效性。

总结

论文提出了NavAgent，首个由大型视觉语言模型驱动的城市无人机导航模型。通过结合多尺度环境信息，NavAgent在细粒度地标识别和全局环境信息编码方面表现出色。

实验结果表明，NavAgent在Touchdown和Map2seq数据集上均优于现有的最先进方法，验证了其在城市无人机VLN任务中的有效性。

未来工作将致力于提高NavAgent在实际场景中的导航能力，增强其在复杂道路条件和行人障碍物下的稳定性，并扩展其功能以支持实时的人类更新和调整。

arXiv-2024 | NavAgent：基于多尺度城市街道视图融合的无人机视觉语言导航