波兰无人机具身导航基准测试与最新进展！FlySearch：探索视觉语言模型的探索能力

发布于：2025-07-15 ⋅ 阅读:(308) ⋅ 点赞:(0)

作者： Adam Pardyl, Dominik Matuszek, Mateusz Przebieracz, Marek Cygan, Bartosz Zieliński, Maciej Wołczyk
单位：波兰国家科学中心创新中心，雅盖隆大学数学与计算机科学学院，雅盖隆大学精确自然科学博士学校学院，华沙大学，Nomagic
论文标题：FlySearch: Exploring how vision-language models explore
论文链接：https://arxiv.org/pdf/2506.02896
代码链接：https://github.com/gmum/FlySearch

主要贡献

构建高保真度的户外环境：公开发布了两个使用Unreal Engine 5构建的高保真度户外环境，能够实现复杂、非结构化场景中对具身智能体的现实且可扩展的评估。
设计目标导向的探索挑战：定义了一系列基于目标的探索挑战，旨在衡量视觉语言模型（VLMs）和人类在开放世界场景中的探索能力。
基准测试与分析：对多种流行的VLMs进行了零样本设置下的基准测试，并识别出视觉、锚定和推理方面的一致性失败模式。

研究背景

视觉语言模型（VLMs）的兴起：VLMs在多种任务中表现出色，如图像描述、机器人控制等。然而，现实世界中的决策需要好奇心、适应性和目标导向的思维方式，而VLMs在真实、开放环境中的操作能力尚未得到充分测试。
目标导航（ObjectNav）任务的局限性：现有的ObjectNav基准大多关注室内环境，而本文提出的FlySearch则专注于在大型户外空间中使用无人机（UAV）寻找目标对象，更贴近现实世界的复杂性和挑战性。
零样本开放性探索设置：研究中采用零样本开放性探索设置，即测试方法不应在测试环境中对测试环境、对象类别或搜索过程本身做出任何先验假设，更贴近真实世界中的未知探索场景。

FlySearch

评估任务

环境

环境描述：FlySearch的评估环境是一个由Unreal Engine 5构建的正方形户外区域，包含一个片段化的、高度逼真的程序化生成地图。无人机（UAV）从区域中心的随机高度开始，目标是在有限的步数内找到目标对象。
目标对象：目标对象位于地图的某个位置，无人机需要通过视觉和语言推理来定位它。
场景生成：通过程序化生成技术，可以生成无限数量的场景，具有不同的环境特征，如一天中的时间、森林密度和无人机的起始高度。

起始Prompt

任务描述：模型接收到一个详细的Prompt，描述其任务，包括目标对象的文本描述（例如“红色皮卡”）以及通信格式。
格式要求：Prompt还说明了如何格式化响应，包括在响应前添加推理描述，允许模型进行推理链的输出。

观察

图像输入：在每个探索步骤中，模型会收到一个500×500像素的RGB图像，来自模拟无人机的摄像头。图像始终面向地面，并覆盖有坐标网格，以帮助模型理解移动方向和距离。
高度信息：模型还会收到无人机相对于地面的高度信息。
额外信息：在FS-2场景中，还会提供一个图像，展示目标对象从上方看起来的样子，以帮助模型更好地理解搜索目标。

动作

动作格式：模型通过提供简单的文本命令来控制无人机的移动，格式为<action>(X, Y, Z)</action>，其中X、Y和Z分别表示在相应方向上的相对位置变化。
碰撞检测：如果检测到障碍物或无人机试图飞出飞行区域，移动将被停止。
任务完成：当模型认为找到目标时，应通过“FOUND”文本结束探索。

评估指标

成功标准：如果无人机在报告“FOUND”时目标对象可见，并且无人机与目标对象的最高点之间的高度差不超过10米，则认为任务成功完成。

评估流程

模拟器

使用Unreal Engine 5作为模拟引擎，提供照片级真实的图形，支持实时光线追踪和动态全局照明，同时支持大型详细开放世界。平台兼容所有主流操作系统，代码库开源，便于机器学习应用的定制。
模拟器可以运行在现代消费级显卡和深度学习专用解决方案上（前提是支持Vulkan），并且可以在离屏模式下运行，适合在标准计算集群上运行。
模拟器与评估控制器之间的通信通过标准TCP/IP网络进行，模拟器端的实现是一个本地Unreal Engine插件，基于UnrealCV项目进行扩展。

评估控制器

评估控制器是FlySearch的最后一个组件，负责整个基准测试过程的生命周期管理，包括设置场景、计算性能指标以及处理模拟器与被评估视觉语言模型（VLM）之间的通信。
控制器模块用Python实现，支持多种VLM，并且可以通过添加简单的适配器代码或使用开源的vLLM推理服务器轻松集成更多模型。

评估环境

森林环境

基于Unreal Engine的“Electric Dreams Environment”产品演示，包含稀疏的森林场景和随机放置的岩石。
地图完全在运行时由场景生成器程序生成，并且所有植被都会随风变化。

城市环境

基于Unreal Engine的“City Sample”演示，是一个大型现代美国风格的城市，城市布局是一个大约4×4公里的半程序生成地图。
新地图可以在构建时使用提供的工具生成，并且运行时场景生成器会随机生成干扰资产（停放的车辆和行走的行人）。

实验评估

基线模型

模型选择：
- 评估了多种流行的模型，包括3个闭源模型（OpenAI的GPT-4o、Anthropic的Claude 3.5 Sonnet和Google的Gemini 2.0 flash）以及9个开源模型。
- 开源模型包括4个小模型（参数少于11B）和5个大模型（参数多于11B）。所有模型的选择基于其处理完整评估运行的能力，能够将所有步骤保持在上下文中。
人类研究：
- 为了提供人类基线，分别对FS-1城市和FS-2进行了用户研究，样本量分别为111和51。参与者通过在线服务进行实验，他们需要按照VLM的Prompt完成相同的任务。

结果分析

FS-1场景：
- VLMs的表现显著低于人类，人类平均成功率为67%，而表现最佳的Gemini 2.0模型成功率为42%。大型开源模型如Pixtral表现稍差，小型开源模型则几乎无法完成任务。
- 小型模型的糟糕表现主要归因于它们无法遵循指令，即使目标在范围内，它们也经常不声明已找到目标。
FS-2场景：
- 人类与VLMs的性能差距进一步扩大，人类平均成功率比最佳VLM模型高出约835%。这表明VLMs在需要系统性探索的复杂任务中表现不佳，它们往往随机移动，缺乏有效的探索策略。
微调结果：
- 经过GRPO微调的Qwen2.5-VL-7B模型在FS-1城市场景中的表现显著提升，但在FS-2场景中仍未取得成功。

定性分析：
- 分析失败的探索轨迹发现，即使是SOTA的模型也存在空间推理问题。例如，当模型失去目标视野时，它往往会回溯其移动或开始幻觉，而不是朝目标的最后已知位置移动。

目标类别分析：
- 对于FS-1中的特定目标类别，大型目标（如建筑物）的成功率高于小型目标（如单个人）。此外，VLMs在森林中寻找垃圾堆的成功率高于在城市中，尽管垃圾堆在城市中从远处更易被发现。
FS-Anomaly-1场景：
- 模型平均成功率低于FS-1，表明模型难以识别出环境中不寻常的对象。当明确指定异常对象类型时，模型性能有所提高。
步数限制的影响：
- 改变每集的步数限制对模型性能也有影响。将步数限制从10步减少到5步时，Gemini和Pixtral的性能分别下降了10%和17%；而将步数限制增加到20步时，Gemini的性能下降了6%，Pixtral的性能下降了17%。这表明模型在需要长时间推理和信息收集时表现不佳。

结论与未来工作

结论：
- FlySearch通过在复杂三维环境中导航和寻找目标对象的任务，揭示了VLMs在探索能力上与人类基线相比存在显著差距，尤其是在需要系统性探索的复杂任务中。
- 尽管VLMs具备基本的导航和视觉理解能力，但它们在形成和执行有效的探索策略方面存在不足，即使经过微调，这些根本性问题仍然存在。
未来工作：
- 虽然本文主要关注纯VLM的探索能力，但未来可以测试更复杂的ObjectNav方法在FlySearch中的表现，以获得更深入的见解。
- 此外，还可以探索通过少样本学习或Prompt优化工具来提高VLMs在该任务中的表现。