波兰无人机具身导航基准测试与最新进展!FlySearch:探索视觉语言模型的探索能力

发布于:2025-07-15 ⋅ 阅读:(34) ⋅ 点赞:(0)

  • 作者: Adam Pardyl, Dominik Matuszek, Mateusz Przebieracz, Marek Cygan, Bartosz Zieliński, Maciej Wołczyk

  • 单位:波兰国家科学中心创新中心,雅盖隆大学数学与计算机科学学院,雅盖隆大学精确自然科学博士学校学院,华沙大学,Nomagic

  • 论文标题:FlySearch: Exploring how vision-language models explore

  • 论文链接:https://arxiv.org/pdf/2506.02896

  • 代码链接:https://github.com/gmum/FlySearch

主要贡献

  • 构建高保真度的户外环境:公开发布了两个使用Unreal Engine 5构建的高保真度户外环境,能够实现复杂、非结构化场景中对具身智能体的现实且可扩展的评估。

  • 设计目标导向的探索挑战:定义了一系列基于目标的探索挑战,旨在衡量视觉语言模型(VLMs)和人类在开放世界场景中的探索能力。

  • 基准测试与分析:对多种流行的VLMs进行了零样本设置下的基准测试,并识别出视觉、锚定和推理方面的一致性失败模式。

研究背景

  • 视觉语言模型(VLMs)的兴起:VLMs在多种任务中表现出色,如图像描述、机器人控制等。然而,现实世界中的决策需要好奇心、适应性和目标导向的思维方式,而VLMs在真实、开放环境中的操作能力尚未得到充分测试。

  • 目标导航(ObjectNav)任务的局限性:现有的ObjectNav基准大多关注室内环境,而本文提出的FlySearch则专注于在大型户外空间中使用无人机(UAV)寻找目标对象,更贴近现实世界的复杂性和挑战性。

  • 零样本开放性探索设置:研究中采用零样本开放性探索设置,即测试方法不应在测试环境中对测试环境、对象类别或搜索过程本身做出任何先验假设,更贴近真实世界中的未知探索场景。

FlySearch

评估任务

环境
  • 环境描述:FlySearch的评估环境是一个由Unreal Engine 5构建的正方形户外区域,包含一个片段化的、高度逼真的程序化生成地图。无人机(UAV)从区域中心的随机高度开始,目标是在有限的步数内找到目标对象。

  • 目标对象:目标对象位于地图的某个位置,无人机需要通过视觉和语言推理来定位它。

  • 场景生成:通过程序化生成技术,可以生成无限数量的场景,具有不同的环境特征,如一天中的时间、森林密度和无人机的起始高度。

起始Prompt
  • 任务描述:模型接收到一个详细的Prompt,描述其任务,包括目标对象的文本描述(例如“红色皮卡”)以及通信格式。

  • 格式要求:Prompt还说明了如何格式化响应,包括在响应前添加推理描述,允许模型进行推理链的输出。

观察
  • 图像输入:在每个探索步骤中,模型会收到一个500×500像素的RGB图像,来自模拟无人机的摄像头。图像始终面向地面,并覆盖有坐标网格,以帮助模型理解移动方向和距离。

  • 高度信息:模型还会收到无人机相对于地面的高度信息。

  • 额外信息:在FS-2场景中,还会提供一个图像,展示目标对象从上方看起来的样子,以帮助模型更好地理解搜索目标。

动作
  • 动作格式:模型通过提供简单的文本命令来控制无人机的移动,格式为<action>(X, Y, Z)</action>,其中X、Y和Z分别表示在相应方向上的相对位置变化。

  • 碰撞检测:如果检测到障碍物或无人机试图飞出飞行区域,移动将被停止。

  • 任务完成:当模型认为找到目标时,应通过“FOUND”文本结束探索。

评估指标
  • 成功标准:如果无人机在报告“FOUND”时目标对象可见,并且无人机与目标对象的最高点之间的高度差不超过10米,则认为任务成功完成。

评估流程

模拟器
  • 使用Unreal Engine 5作为模拟引擎,提供照片级真实的图形,支持实时光线追踪和动态全局照明,同时支持大型详细开放世界。平台兼容所有主流操作系统,代码库开源,便于机器学习应用的定制。

  • 模拟器可以运行在现代消费级显卡和深度学习专用解决方案上(前提是支持Vulkan),并且可以在离屏模式下运行,适合在标准计算集群上运行。

  • 模拟器与评估控制器之间的通信通过标准TCP/IP网络进行,模拟器端的实现是一个本地Unreal Engine插件,基于UnrealCV项目进行扩展。

评估控制器
  • 评估控制器是FlySearch的最后一个组件,负责整个基准测试过程的生命周期管理,包括设置场景、计算性能指标以及处理模拟器与被评估视觉语言模型(VLM)之间的通信。

  • 控制器模块用Python实现,支持多种VLM,并且可以通过添加简单的适配器代码或使用开源的vLLM推理服务器轻松集成更多模型。

评估环境

森林环境
  • 基于Unreal Engine的“Electric Dreams Environment”产品演示,包含稀疏的森林场景和随机放置的岩石。

  • 地图完全在运行时由场景生成器程序生成,并且所有植被都会随风变化。

城市环境
  • 基于Unreal Engine的“City Sample”演示,是一个大型现代美国风格的城市,城市布局是一个大约4×4公里的半程序生成地图。

  • 新地图可以在构建时使用提供的工具生成,并且运行时场景生成器会随机生成干扰资产(停放的车辆和行走的行人)。

实验评估

基线模型

  • 模型选择
    • 评估了多种流行的模型,包括3个闭源模型(OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet和Google的Gemini 2.0 flash)以及9个开源模型。

    • 开源模型包括4个小模型(参数少于11B)和5个大模型(参数多于11B)。所有模型的选择基于其处理完整评估运行的能力,能够将所有步骤保持在上下文中。

  • 人类研究
    • 为了提供人类基线,分别对FS-1城市和FS-2进行了用户研究,样本量分别为111和51。参与者通过在线服务进行实验,他们需要按照VLM的Prompt完成相同的任务。

结果分析

  • FS-1场景
    • VLMs的表现显著低于人类,人类平均成功率为67%,而表现最佳的Gemini 2.0模型成功率为42%。大型开源模型如Pixtral表现稍差,小型开源模型则几乎无法完成任务。

    • 小型模型的糟糕表现主要归因于它们无法遵循指令,即使目标在范围内,它们也经常不声明已找到目标。

  • FS-2场景
    • 人类与VLMs的性能差距进一步扩大,人类平均成功率比最佳VLM模型高出约835%。这表明VLMs在需要系统性探索的复杂任务中表现不佳,它们往往随机移动,缺乏有效的探索策略。

  • 微调结果
    • 经过GRPO微调的Qwen2.5-VL-7B模型在FS-1城市场景中的表现显著提升,但在FS-2场景中仍未取得成功。

  • 定性分析
    • 分析失败的探索轨迹发现,即使是SOTA的模型也存在空间推理问题。例如,当模型失去目标视野时,它往往会回溯其移动或开始幻觉,而不是朝目标的最后已知位置移动。

  • 目标类别分析
    • 对于FS-1中的特定目标类别,大型目标(如建筑物)的成功率高于小型目标(如单个人)。此外,VLMs在森林中寻找垃圾堆的成功率高于在城市中,尽管垃圾堆在城市中从远处更易被发现。

  • FS-Anomaly-1场景
    • 模型平均成功率低于FS-1,表明模型难以识别出环境中不寻常的对象。当明确指定异常对象类型时,模型性能有所提高。

  • 步数限制的影响
    • 改变每集的步数限制对模型性能也有影响。将步数限制从10步减少到5步时,Gemini和Pixtral的性能分别下降了10%和17%;而将步数限制增加到20步时,Gemini的性能下降了6%,Pixtral的性能下降了17%。这表明模型在需要长时间推理和信息收集时表现不佳。

结论与未来工作

  • 结论
    • FlySearch通过在复杂三维环境中导航和寻找目标对象的任务,揭示了VLMs在探索能力上与人类基线相比存在显著差距,尤其是在需要系统性探索的复杂任务中。

    • 尽管VLMs具备基本的导航和视觉理解能力,但它们在形成和执行有效的探索策略方面存在不足,即使经过微调,这些根本性问题仍然存在。

  • 未来工作
    • 虽然本文主要关注纯VLM的探索能力,但未来可以测试更复杂的ObjectNav方法在FlySearch中的表现,以获得更深入的见解。

    • 此外,还可以探索通过少样本学习或Prompt优化工具来提高VLMs在该任务中的表现。


网站公告

今日签到

点亮在社区的每一天
去签到