近年来,随着端到端的技术快速发展将自动驾驶带到了一个新高度,并且取得了非常亮眼的成绩。由于感知限制和极端长尾场景下训练数据覆盖不足,模型在高密度复杂交通场景下和不规则交通情况下的处理能力不足,导致在开放道路上大规模部署此类系统仍存在一些问题。
尽管目前传统的感知-规划-控制范式已经非常成熟,但这类方法限制了算法模型对交通上下文的语义理解能力以及与异构交通参与者进行交互推理的能力。基于此,已经有相关的工作为了增强个体间交互能力,通过数学形式和手工制定的规则系统来构建车辆交互。但这种规则驱动的框架在计算可扩展性和边缘情况泛化方面面临固有的局限性,比如计算复杂度呈指数级增长;在建模以动态不确定性为特征的边缘场景时,存在根本性的数学难题。
最近,大语言模型的出现为场景理解和交互式推理引入了新的范式,并在场景理解和认知推理方面展现出卓越的能力。然而,在部署LLM时出现了一个根本性的挑战:维持其知识密度和推理保真度本质上会将运行频率限制在极低的水平。这种延迟瓶颈会导致关键决策延迟,从而可能导致严重的碰撞事故。
基于此,本文提出了LeAD,一种双速率自动驾驶架构,融合了基于模仿学习的端到端框架和大语言模型技术。在CARLA模拟器中进行的实验评估证明了LeAD对非常规场景的卓越处理能力,在Leaderboard V1基准测试中获得了71分,路线完成率达到 93%。
图1|LeAD算法模型的整体架构图
本文的主要贡献如下
● 本文提出了一种创新型自动驾驶系统,它利用LLM进行场景认知和类人的逻辑推理,进而实现基于场景理解的规划。
● 本文利用双向自然语言编码器-解码器实现感知/决策数据与语言表征之间的转换,从而增强大语言模型的可靠信息理解和逻辑决策能力。
● 本文提出了一种双速率系统架构,将实时的E2E框架与具备场景理解和推理能力的LLM增强模块协同集成,并成功完成CARLA仿真环境上的自动驾驶闭环测试。
本文提出的LeAD算法框架如图2所示。该算法包括两个平行的结构,分别是高频的端到端系统,以及低频的LLM系统,二者通过异步耦合机制集成。
图2|LeAD算法模型的流程图
整个系统主要通过端到端系统运行,持续生成轨迹点,并反馈到基础安全控制器,以便车辆立即执行操作。
当遇到边缘场景时,车辆首先尝试通过端到端系统决策流进行解析;如果场景仍未解析,安全控制器将启动保护性停止。如果当超过预设的等待阈值时,LLM冗余系统将启动;接下来LLM处理当前环境状态和感知数据,以制定高级决策,最后通过慢系统的安全控制器执行车辆操作。
此外,本文考虑到直接执行LLM推理解码的决策可能会引发安全风险,因此将安全控制器集成到慢速系统决策流水线中,确保了低速下高级LLM决策具有足够的执行自由度。
端到端快速规划系统
整个系统采用ResNet+Transformer架构,如图3所示。输入数据包括前、前左、前右的摄像头数据、激光雷达点云和导航路径点。输出结果包括交通参与者的感知数据、自车的轨迹以及交通标志、路口检测结果等等。
图3|端到端系统的神经网络架构图
感知描述
本文为了利用大语言模型实现更加可靠、精准的决策,所设计的编码器可以处理两个不同的输入流。一个是来自E2E系统的感知输出,包括检测到的目标、交通信号和部分道路特征。另一个是从高清地图中提取的车道级定位数据,用于提供自车定位和决策空间约束。
● 道路拓扑:车辆的运行环境是影响驾驶决策的主要因素。在相同的感知输入下,位于交叉路口和行驶车道内的车辆可能会表现出截然不同的行为策略。本文采用了道路环境、车道配置、交通信号以及停车标志四种场景提示对环境进行表征。
● 交通参与者:除了车辆的直接环境之外,交通参与者的感知信息是影响驾驶行为的另一个关键因素。本文考虑到大语言模型固有的数值不敏感性(直接输入目标尺寸和坐标会导致模型错误决策),因此采用了目标相对于自身车辆的位置关系、目标类型分类等离散属性。
推理决策
为了充分利用LLM的场景理解和逻辑推理能力,LeAD将基于CoT的决策过程分为三个连续的阶段。
● 感知目标分析阶段:该过程首先描述驾驶环境,然后分析每个目标的潜在车道/区域占用情况。随后,利用目标的航向角和近似速度预测其在未来时间窗口内的可能位置。
● 决策可行性评估:此阶段将系统地分析每个选项的可执行性,并评估其操作后果。
● 最终决策合成与解码:此组件将LLM生成的自然语言决策转换为可执行命令,随后由安全控制器进行处理。
图4|LeAD中的LLM提示流程
本文采用CARLA仿真环境对提出的算法模型的性能进行评估。评估包括7个城镇和26条不同的路线,涵盖各种交通场景和城市类型,包括乡村小路、城市主干道、多车道林荫大道、复杂的信号交叉口和非信号交叉口。
图5展示了LeAD与CARLA中四个模型的比较结果。可以看出LeAD实现了最佳的驾驶得分,取得了最佳的性能。
图5|各个算法模型在CARLA上的表现性能
为了评估集成的基于LLM的冗余决策模块的贡献,本文进行了相关消融实验,结果如图6所示。
图6|消融实验结果汇总
同时本文也对算法在处理不规则场景的情况进行了可视化分析,如图7所示。通过可视化结果可以看出,LeAD在双车道的双向道路场景中具有很好的表现。
图7|样例条件展示
此外,如图8所示,当基线端到端规划器未能解决意外障碍物造成的路径阻塞,导致车辆完全无法行驶时,冗余决策系统会通过多阶段安全触发器启动。自然语言推理系统会在对交通法规和空间限制进行思路链分析后,生成“右变道”命令。
图8|样例场景描述
本文提出了一种双速率系统自动驾驶架构LeAD,有效的将实时端到端规划与基于LLM的高级推理相结合。在复杂场景下的实验结果证明了LeAD的卓越性能,其表现超越了许多强大的基准模型,最高驾驶得分达到71.96,路线完成率达到93.43%,证明了其强大的规划能力和出色的场景通过性。