arXiv-2024 | 当视觉语言导航遇见自动驾驶！doScenes：基于自然语言指令的人车交互自主导航驾驶数据集-EW帮帮网

作者：Parthib Roy, Srinivasa Perisetla, Shashank Shriram, Harsha Krishnaswamy, Aryan Keskar, Ross Greer
单位：加州大学默塞德分校Mi实验室
原文链接：doScenes: An Autonomous Driving Dataset with Natural Language Instruction for Human Interaction and Vision-Language Navigation (https://arxiv.org/pdf/2412.05893)
代码链接：https://www.github.com/rossgreer/doScenes

doScenes数据集专门设计用于研究人机指令交互，特别是短期直接影响车辆运动的指令。支持在真实世界场景中的细微和灵活响应，推动了安全有效的人车协作。
doScenes集通过自然语言指令和引用标签对多模态传感器数据进行标注，弥合了指令和驾驶响应之间的差距，实现了上下文感知和自适应规划。
doScenes强调与静态和动态场景对象相关的可执行指令，解决了现有研究中依赖于模拟数据或预定义动作集的局限性，帮助研究人员针对特定类型的对象进行模型训练或评估。

自动驾驶车辆必须有效整合人类指令以规划运动。本文聚焦于人车指令交互，尤其是影响车辆运动计划的短期直接指令。

通过分析人类与车辆交互的属性（如源位置、模态、参照性和时间性）来描述指令，并强调这些属性的组合多样性，例如：

论文专注于影响小于10秒的短期互动，并基于此建立doScenes数据集，结合传感器数据、车辆轨迹和地图信息，与人类交互指令和参照性标签配对，旨在促进自然语言指令与自动驾驶响应之间的研究。

该问题的研究难点包括：

论文对自动驾驶车辆中人类指令交互相关的数据集和研究进展进行了调研：

NatSGD数据集通过语音和手势模拟人类沟通，旨在使机器人理解和执行现实世界任务。
BridgeData V2提供了多样化的轨迹数据，支持任务条件化。HandMeThat基准测试评估了指令理解与任务执行，但限于纯文本环境。
nuScenes是一个多模态自动驾驶数据集，包含360度视场传感器套件和夜间、雨天条件数据。
nuScenes-QA和nuScenes-MQA扩展了nuScenes的自然语言注释。
Rank2Tell数据集通过相关性和动态上下文对交通场景进行排序，但限于场景级理解。
doScenes通过提供与交通场景中重要对象相关的指令，弥补了多模态推理和实用指令之间的差距。
GPT-Driver框架利用GPT-3.5模型将运动规划转换为语言建模任务，提高了可解释性和泛化能力。
DriveMLM和LMDrive框架利用大型语言模型进行自主驾驶，但依赖于模拟数据。DriveGPT4整合视频输入和文本查询预测车辆控制信号，并提供自然语言解释。
DRAMA数据集通过自然语言描述风险，推动了情境感知。

本文提出的doScenes数据集则首次提供了实际世界数据集，建立了驾驶指令和自适应驾驶风格之间的联系，对于自动驾驶车辆在动态环境中的响应至关重要。

论文提出了doScenes数据集，用于解决人类指令与自主驾驶系统运动规划之间的集成问题。doScenes数据集通过对nuScenes数据集的每个12秒片段进行回溯注释，生成自然语言指令和指令参考性标签。

追溯性注释方法：利用nuScenes数据集，通过回放片段并从乘客角度转录指令，模拟出租车司机的启发式方法生成自然语言指令。
指令注释：每个nuScenes场景由五名独立注释者提供指令注释，可能包含多个注释以涵盖多种可能的指令。
参考性标签：提供额外参考性标签来标注指令是否指向动态或静态对象，以指示指令是否需要对场景中对象的进一步观察。静态引用指令指向场景中的静态对象，动态引用指令指向场景中的动态对象。
指令分布：在doScenes数据集中，静态引用指令有214个，动态引用指令有159个。大多数场景只有一个或两个指令注释。

doScenes提供的指令主要指示车辆移动方向，而非具体的驾驶方式，如速度或风格，这归因于其追溯性注释方法。
鉴于nuScenes中12秒的场景可能超出单一指令的覆盖范围，准确响应可能仅在nuScenes路径的初期显现，随后因场景变化或多步运动计划的进展而变得不相关。
doScenes创建了静态和动态参照标签，以便在特定数据子集上训练和评估模型。例如，依赖栅格化地图的模型可能适用于非参照性指令，但在理解物体参照时可能需要额外的传感器输入。
doScenes旨在学习指令与车辆运动间的关联，为未来研究提供了基于自然语言生成轨迹或为车辆轨迹分配自然语言描述的可能性，推动了可解释、交互式自动驾驶运动规划的发展。
SpatialRGPT模型展示了如何从视觉-语言模型扩展到视觉-语言-动作模型，通过整合3D场景图和深度信息增强空间感知和推理能力，而doScenes的注释为探索这些模型提供了新的可能性，特别是在自动驾驶领域。

doScenes数据集通过注释多模态传感器数据与自然语言指令和参考性标签，桥接了指令与驾驶响应之间的差距，支持上下文感知和自适应规划。

该数据集填补了现有研究的空白，特别是在可操作指令和实时性方面的不足，为开发和评估无缝集成人类指令的自动驾驶系统奠定了基础。

arXiv-2024 | 当视觉语言导航遇见自动驾驶！doScenes：基于自然语言指令的人车交互自主导航驾驶数据集