作者:Youzhi Liu, Fanglong Yao*, Yuanchang Yue, Guangluan Xu, Xian Sun, Kun Fu
单位:中国科学院大学电子电气与通信工程学院,中国科学院空天信息创新研究院网络信息系统技术重点实验室
原文链接:NavAgent: Multi-scale Urban Street View Fusion For UAV Embodied Vision-and-Language Navigation (https://arxiv.org/pdf/2411.08579)
主要贡献
论文首个提出由大型视觉语言模型驱动的城市无人机导航模型(NavAgent),能够在城市环境中通过多尺度环境信息融合实现自主导航:
设计并训练了细粒度地标识别器:利用GLIP模型开发了地标视觉识别器,通过NavAgent-Landmark2K数据集进行训练,显著提高了细粒度地标的识别准确率(提升了9.5%)。
构建了动态生长的场景拓扑图:设计了拓扑图编码器,能够整合环境信息和当前视觉信息,增强了无人机在长距离导航中的规划能力。
创建了首个真实城市街景的细粒度地标数据集:NavAgent-Landmark2K数据集包含2000个图像-文本对,涵盖了城市街道场景中的细粒度地标。
在多个基准数据集上的优异表现:在Touchdown和Map2seq数据集上,NavAgent在任务完成率、最短路径距离和关键点准确率等指标上均优于现有的强基线模型。
研究背景
研究问题
论文主要解决无人机视觉语言导航(VLN)在城市环境中的应用。具体来说,现有的VLN方法主要集中在室内地面机器人场景,而在户外城市场景中应用时面临两个主要挑战:一是城市环境中物体众多,难以将图像中的细粒度地标与复杂的文本描述匹配;二是整体环境信息包含多种模态维度,表示的多样性显著增加了编码过程的复杂性。
研究难点
细粒度地标的匹配:在全景观察图像中识别和匹配细粒度地标(如路边的邮箱、垃圾桶等),这些地标在图像中仅占少数像素,且相关的文本描述通常包含多个修饰词。
多模态信息的编码:环境信息包括视觉数据(如观测图像)、语义信息(如地标类别和位置)和地理数据(如环境地图),这些数据类型具有不同的表示方式,并且在空间和时间上高度异构,增加了编码的复杂性。
研究方法
论文提出了NavAgent,用于解决无人机在城市环境中的视觉语言导航问题。
视觉识别器
利用GLIP构建一个地标视觉识别器,能够识别和语言化细粒度地标。通过对Google Street View中的街景图像进行标注,使用BLIP2生成地标的描述,创建了一个名为NavAgent-Landmark2K的细粒度地标数据集。
动态增长的场景拓扑图
开发一个动态增长的场景拓扑图,整合环境信息,并采用图卷积网络(GCN)编码全局环境数据。记录可导航位置作为节点,初始捕捉每个节点的位置和节点之间的方向关系,然后探索当前节点及其相邻节点,将其合并为一个连贯的场景拓扑图。
拓扑图编码器
设计拓扑图编码器以提取节点特征。通过GCN聚合信息,更新每个节点的特征,并使用全局池化提取全局节点特征。
基于大语言模型的动作决策
利用LLM综合多尺度信息。LLM接收导航指令文本、环境观测图像、地标信息和拓扑图特征,生成动作决策。
实验设计
数据集
实验使用了Touchdown和Map2seq两个数据集。Touchdown数据集包含18,402个导航实例,Map2seq数据集包含15,009个导航实例。数据集分为训练集、验证集和测试集。
视觉识别器训练
使用NavAgent-Landmark2K数据集对GLIP进行微调,评估其在细粒度地标识别任务中的性能。
模型训练
在Touchdown和Map2seq数据集上训练NavAgent模型,使用GPT-4作为地标文本提取器,微调后的GLIP作为地标视觉识别器,LLaMa2-13b模型作为决策LLM。
结果与分析
细粒度地标识别
微调后的GLIP在NavAgent-Landmark2K验证集上的细粒度地标识别准确率提高了9.5%。不同地标类别的识别准确率也有显著提高,例如公交车站的识别准确率提高了23.1%。
总体性能
在Touchdown数据集上,NavAgent在开发和测试集上的任务完成率分别比VELMA提高了4.6%和2.2%。在Map2seq数据集上,NavAgent在开发和测试集上的任务完成率分别比VELMA提高了2.4%和0.8%。
消融实验
移除视觉识别器或拓扑图编码器后,模型性能显著下降,验证了这两个模块的有效性。
总结
论文提出了NavAgent,首个由大型视觉语言模型驱动的城市无人机导航模型。通过结合多尺度环境信息,NavAgent在细粒度地标识别和全局环境信息编码方面表现出色。
实验结果表明,NavAgent在Touchdown和Map2seq数据集上均优于现有的最先进方法,验证了其在城市无人机VLN任务中的有效性。
未来工作将致力于提高NavAgent在实际场景中的导航能力,增强其在复杂道路条件和行人障碍物下的稳定性,并扩展其功能以支持实时的人类更新和调整。