作者: Xiaohan Lei, Min Wang, Wengang Zhou, and Houqiang Li
单位:中国科学技术大学,合肥综合国家科学中心人工智能研究所
论文标题: GaussNav: Gaussian Splatting for Visual Navigation
论文链接:https://ieeexplore.ieee.org/abstract/document/10870413/
项目主页:https://xiaohanlei.github.io/projects/GaussNav/
代码链接:https://github.com/XiaohanLei/GaussNav
主要贡献
提出了视觉导航框架GaussNav,用于解决实例图像目标导航(Instance ImageGoal Navigation,IIN)任务。该框架通过构建基于3D高斯溅射(3D Gaussian Splatting,3DGS)的新型地图表示,使智能体能够同时记忆场景的几何和语义信息,并保留物体的纹理特征,从而显著提升了IIN任务的性能。
首次将3DGS技术引入具身视觉导航领域,统一了地图对几何、语义和实例级特征的表示,能够直接根据单个目标图像输入定位目标物体,并引导智能体前往,无需额外的探索或验证。
在具有挑战性的Habitat-Matterport 3D(HM3D)数据集上建立了新的最先进记录,证明了该方法在有效性和效率方面的优势。
研究背景
具身视觉导航是计算机视觉中的一个新兴问题,要求智能体利用视觉感知与环境进行交互并执行导航任务。近年来,随着大规模逼真3D场景数据集和快速具身导航模拟器的出现,该领域取得了显著进展。
在具身视觉导航中,实例图像目标导航(IIN)是一个关键任务,要求智能体根据目标图像找到特定物体实例,而目标图像可能与智能体的传感器规格或体现形式不匹配。这需要智能体能够从不同角度识别目标物体,并忽略潜在的干扰项,是一个涉及语义推理、几何理解和实例级匹配的挑战性任务。
以往的方法通常使用二维语义鸟瞰图(BEV)来解决该问题,但BEV地图在跨楼层导航场景中效果不佳,且无法保留场景中用于区分同一类别多个物体的关键实例级特征。
研究方法
GaussNav框架
该框架包含三个阶段——前沿探索(Frontier Exploration)、语义高斯构建(Semantic Gaussian Construction)和高斯导航(Gaussian Navigation)。
前沿探索
在未知环境的第一个episode,智能体通过维护探索地图和障碍物地图,采用基于前沿的探索策略来收集环境的观测数据。
通过识别已探索区域与未探索区域之间的边界(前沿),并选择最近的可到达前沿点作为探索目标,智能体能够高效地覆盖整个环境。
语义高斯构建
利用收集到的观测数据构建语义高斯地图。该地图由一组高斯分布表示,每个高斯分布由颜色、质心、半径、不透明度和类别标签等参数描述。
通过可微渲染技术,将高斯分布渲染成RGB图像、深度图像、轮廓图像和语义分割结果,用于更新高斯分布的参数,并通过语义分割算法为每个高斯分配语义标签,最终实现对场景中物体实例的分割和表示。
高斯导航
在后续的导航任务中,首先对目标图像进行分类,预测目标物体的类别标签,然后根据该标签查询相关的高斯分布,生成候选物体实例的描述性图像,并与目标图像进行匹配,以确定目标物体的位置。
最后,将语义高斯地图转换为二维栅格地图,并利用快速行进法(Fast Marching Method,FMM)进行路径规划,生成智能体的动作序列,引导智能体到达目标位置。
实验
实验设置
使用Habitat-Matterport 3D(HM3D)数据集进行实验,该数据集包含逼真的3D场景重建和语义标注。
实验中,智能体的相机参数与目标图像的相机参数不同,增加了任务的难度。
采用离散动作空间,包括停止、前进、右转和左转四种动作,并使用成功率(Success Rate)和路径长度加权成功率(SPL)作为评估指标。
结果与分析
与现有方法的比较:GaussNav在HM3D数据集上的性能显著优于现有的各种方法,包括端到端的强化学习方法、多目标导航(MultiON)任务中的方法以及专门针对IIN任务的现有最先进方法。GaussNav在SPL指标上比现有最佳模型高出0.231,表明其在导航效率方面的巨大优势。
消融研究:通过一系列消融实验验证了GaussNav框架中各个模块的有效性。例如,去除分类器后,成功率和SPL指标均有所下降,但分类器的引入显著提高了导航效率;去除匹配模块后,性能也明显下降,说明匹配模块在区分同一类别中的目标物体时发挥了重要作用。此外,还对不同的特征提取和匹配算法、新型视图合成(NVS)的数量和方向等进行了实验,结果表明适当的NVS数量可以提高目标识别的成功率。
效率分析:GaussNav在保持高效率的同时实现了高效的导航。通过语义高斯地图,将搜索空间显著缩小,减少了计算成本。在运行时帧率方面,GaussNav能够达到每秒20帧以上,同时在所有方法中取得了最高的SPL值。
错误分析:通过分析模型的错误模式,发现主要错误来源包括无法从实例渲染中一致匹配目标以及目标定位不准确。通过引入地面真实匹配模块和准确的目标定位,可以显著提高成功率,这为未来改进模型提供了方向。
高斯构建结果:展示了语义高斯地图的可视化结果,证明了其在不同场景下的有效性和鲁棒性。同时,对语义高斯构建方法的渲染质量进行了定量评估,发现渲染质量在不同场景中存在差异,这可能与模拟环境与现实环境之间的差异有关。
结论与未来工作
- 结论:
GaussNav通过引入语义高斯地图表示,为具身视觉导航提供了一种新的解决方案,在IIN任务中取得了显著的性能提升。
该方法能够直接从目标图像定位目标物体,并将其转化为更简单的点目标导航任务,同时保持了较高的运行效率。
- 未来工作:
未来的工作可以集中在改进目标匹配算法和目标定位策略上,以进一步提高模型的性能和鲁棒性。
此外,还可以探索如何更好地利用新型视图合成技术来提高目标识别的成功率,并研究如何将该方法应用于更复杂的导航任务和真实世界环境中的机器人导航。