地平线AlphaDrive:首个基于GRPO的自动驾驶大模型,仅用20%数据,性能超越SFT 35%!

发布于:2025-03-25 ⋅ 阅读:(35) ⋅ 点赞:(0)

人类具有终身学习的显著能力,能够持续获取知识并适应新的任务场景。这种终身学习的能力被认为是实现通用智能的关键机制。尽管现有人工智能技术在图像生成、文章写作和自动驾驶等领域取得了显著成就,但它们主要专注于特定领域的任务,普遍缺乏终身学习能力。

©️【深蓝AI】编译

论文标题:AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning

论文作者:Bo Jiang, Shaoyu Chen, Qian Zhang, Wenyu Liu, Xinggang Wang

论文地址:https://arxiv.org/pdf/2503.07608

代码仓库:GitHub - hustvl/AlphaDrive: Unleashing the Power of VLMs in Autonomous Driving via Reinforcement Learning and Reasoning

1,背景介绍

端到端自动驾驶成为最具代表性的模型之一。它们以传感器数据为输入,利用可学习的神经网络规划车辆的未来轨迹。得益于大规模驾驶演示数据,端到端模型通过扩展训练数据和增加模型参数,不断提升了其规划能力。然而,由于其黑盒性质和缺乏常识,端到端模型在处理复杂和长尾驾驶场景时仍面临重大挑战。同时,大语言模型(LLMs)展现出卓越的理解和推理能力。它们的能力已从单模态的文本理解扩展到多模态的视觉语言处理。VLMs 的常识和推理能力可以弥补端到端模型的局限性。将VLMs应用于自动驾驶的研究当前分为两个方向。第一个方向侧重于利用 VLMs 进行驾驶场景的理解。第二个方向探索将VLMs用于规划。

本文主要探讨以下问题:如何将强化学习和推理技术应用于自动驾驶,特别是在规划中,以提升 VLMs 在自动驾驶中的性能,同时降低训练成本。

通过实验,作者发现直接将现有的RL和推理技术应用于规划会导致性能不佳,主要原因有:首先,通用任务中的强化学习奖励设计并不适合规划。其次,与数学或计数不同,规划的解决方案通常并不唯一。最后,自动驾驶领域缺乏现成的能够捕捉推理过程的数据集。收集此类数据的成本非常高,并且需要大量的人工标注。因此,直接将现有的推理技术应用于规划仍然具有挑战性。

图 1 | AlphaDrive框架

为了解决上述挑战,作者提出AlphaDrive。具体来说,本文主要贡献如下:

● 本文提出了AlphaDrive,它是一个专门为自动驾驶中的高层规划设计的 VLM。首个将基于 GRPO 的强化学习与规划推理相结合并应用于自动驾驶的框架,显著提升了性能和训练效率。

● AlphaDrive 引入了四种用于规划的 GRPO 奖励:规划准确性奖励、动作加权奖励、规划多样性奖励和规划格式奖励。这些优化后的奖励使 GRPO 更适合自动驾驶。

● 作者又提出了一种基于知识蒸馏的两阶段推理训练策略,结合了 SFT 和 RL。与仅使用 RL 或不进行推理的训练相比,该方法实现了更好的规划性能。

● 在大规模驾驶数据集上的实验验证了 AlphaDrive 的优越性。与经过 SFT 训练的模型相比,AlphaDrive 的规划准确性显著提升了 25.52%,并且仅使用 20% 的训练数据,就比 SFT 训练的模型高出 35.31%。而且,经过 RL 训练后,AlphaDrive 表现出了一些多模态规划能力,这对于提升驾驶安全性和效率具有广阔的前景。

2,相关工作

视觉语言模型(VLMs)

大模型的能力逐渐从单一模态扩展到多模态,大型视觉语言模型(VLMs)在视觉理解和推理方面展现出卓越的能力。一些尝试将视觉模型与大型语言模型(LLMs)结合,例如BLIP 引入了 Q-Former 架构和跨模态对比学习任务,以桥接视觉编码器和 LLMs。LLaVA 提出使用简单的 MLP 作为视觉编码器和 LLMs 之间的连接器,在相对有限的数据下实现了令人印象深刻的视觉理解能力。

强化学习与推理  

自回归学习目前是 LLMs 的主流预训练策略。此外,强化学习(RL)和推理技术进一步增强了大型模型的能力。例如,GPT 采用基于人类反馈的强化学习(RLHF),将人类反馈整合到训练过程中,使LLMs生成的输出更符合人类的习惯和偏好。直接偏好优化(DPO)通过直接优化偏好反馈来提升模型性能。在此基础上,组相对策略优化(GRPO)引入了组相对优化策略,考虑多个输出组之间的相对优劣,进一步提高了训练过程的稳定性和有效性。

最近的 DeepSeek R1 在基于GRPO的训练中经历了一个“顿悟时刻”,在没有明确指导的情况下,模型自主分配更多思考时间并重新评估其初始方法。这凸显了 RL 在使大型模型从单纯模仿演变为新兴智能方面的潜力。

在推理方面,思维链(Chain-of-thought)通过将复杂问题分解并逐步推理,展现了出色的性能。基于思维链的OpenAI o1引入了推理时扩展技术,通过增加推理时的计算成本并结合蒙特卡洛树搜索(MCTS)和束搜索(Beam Search)等搜索策略,在科学和编程等需要复杂推理的领域取得了显著进展。这也表明,除了扩展模型参数和训练数据,扩展推理时的计算也是一个值得探索的方向。

自动驾驶规划  

规划是自动驾驶的最终任务。最早的规划算法是基于规则的,在泛化性和效率方面存在显著局限性。近年来,端到端模型通过统一的神经网络直接从传感器数据输出规划轨迹或控制信号。通过利用大规模驾驶演示数据,端到端模型以数据驱动的方式进行训练,取得了不错的规划性能。然而,由于端到端模型是缺乏常识和推理能力的黑盒模型,它们仍然难以解决自动驾驶中的长尾问题。

VLMs 与自动驾驶  

大模型的常识和推理能力可以有效弥补端到端模型在自动驾驶中的局限性。在机器人领域,视觉-语言-动作(VLA)模型在理解语言指令和执行复杂动作方面取得了显著进展。在自动驾驶领域,DriveGPT4 利用VLMs以前视视频为输入,直接预测控制信号。ELM 利用大规模跨领域视频训练 VLMs,表明使用多领域数据可以有效提升VLMs在驾驶相关任务中的性能。OmniDrive提出使用稀疏的3D标记表示驾驶场景,然后将其输入VLMs进行场景理解和规划。除了上述直接应用VLMs的工作外,DriveVLM首次将VLMs与端到端模型结合,其中VLMs预测低频轨迹,而端到端模型生成高频轨迹。

图 2 | AlphaDrive整体训练框架

3,架构精析

3.1,框架概述

与以往仅依赖监督微调(SFT)的方法不同,AlphaDrive结合强化学习(RL)和推理技术,以更好地适应驾驶规划的特性:

(1)  不同驾驶行为的重要性差异;

(2)  存在多个可行的解决方案;

(3)  规划决策的推理数据稀缺。

它涉及四种基于 GRPO 的 RL 奖励,专门为规划任务设计,并引入了一种两阶段的规划推理训练策略,将 SFT 与 RL 结合。

3.2,强化学习

强化学习算法选择:目前常用的 RL 算法包括 PPO、DPO 和 GRPO。给定查询,GRPO 从旧策略$\pi_{\theta_{\text{old}}}$中采样一组输出$\{o_1, o_2, \dots, o_G\}$,并通过最大化以下目标函数来优化新策略$\pi_{\theta}$

AlphaDrive选GRPO作为RL 算法,主要基于:(1) DeepSeek R1 已证明 GRPO 在通用领域中的有效性,与其他算法相比,GRPO 提供了更高的训练稳定性和效率;(2) GRPO 引入的组相对优化策略特别适合规划任务。

规划奖励模型

四种 GRPO 规划奖励,专门为自动驾驶规划任务设计:​​​​​​​

规划准确性奖励:在数学或编程等领域,GRPO 的奖励可以直观地根据最终答案是否正确来确定。然而,规划更为复杂,涉及横向(方向)和纵向(速度)两个维度,且动作集合受到约束。因此,使用 F1 分数分别评估横向和纵向决策的准确性,并据此分配奖励。采用 F1 分数进行评估,因为它不仅防止模型学习捷径解决方案(输出所有决策可能导致高召回率但低准确率),还提高了训练初期的稳定性。

动作加权奖励:规划中不同行为的重要性不同。例如,减速和停车比保持速度对安全更为关键。因此,为不同动作分配不同的重要性权重,并将其作为加权组件纳入最终奖励。

规划多样性奖励:由于规划本质上是多模态的,在基于 GRPO 的 RL 训练中,模型会生成多个解决方案以进行组相对优化。在训练后期,模型的输出往往收敛到同一解决方案。目标是鼓励模型生成多种可行的解决方案,而不仅仅是与训练数据中的真实动作对齐。规划多样性奖励的目的是当模型的输出不同时分配更高的奖励;否则,减少奖励。

规划格式奖励:最后一个奖励用于规范输出,使其更容易提取推理过程和最终答案。该方法的灵感来自 R1。推理过程封装在 `<think></think>` 标签中,而规划结果则包含在 `<answer></answer>` 标签中。如果最终输出不符合此格式,格式奖励将设置为 0。

有关规划奖励建模的详细信息,如算法1所示。

算法 1 | 规划奖励建模过程

3.3,推理

规划推理训练策略:自动驾驶的规划过程难以记录,且人工标注成本高,因此目前没有大规模、现成的规划推理数据集。将推理步骤直接纳入 RL 训练过程,无法达到理想效果,主要存在以下问题:(1) 对关键要素(如交通灯)的感知不足;(2) 推理过程混乱,因果关系薄弱;(3) 推理输出过于冗长且无效。

因此,采用更强大的云端大模型(如 GPT-4o),从少量驾驶片段中生成高质量的规划推理数据。具体而言,为模型提供包含真实驾驶动作、车辆当前状态和导航信息的提示,促使模型生成简洁的决策过程。经过人工质量检查并过滤掉明显错误的样本后,模型可以基于该数据的知识蒸馏来提升规划推理能力。

3.4,训练

RL依赖于稀疏的奖励信号,而SFT基于密集的监督,更适合知识蒸馏。此外,仅依赖 RL会导致训练初期的不稳定性。因此使用少量数据进行基于SFT的预热阶段,然后使用完整数据集进行RL训练。这种方法提高了训练初期的稳定性,并增强了模型的规划推理性能,可以实现更好的整体规划能力。

4,实验分析

4.1,实验设置

数据集:实验使用MetaAD作为训练和评估基准,这是一个大规模的真实世界驾驶数据集。该数据集包含120k个驾驶片段,每个片段持续三秒,支持多传感器数据和感知标注。

训练:使用Qwen2VL-2B作为基础模型。Qwen2VL是目前性能最佳的开源模型之一,其 2B 版本更好地满足了自动驾驶的延迟要求。

评估:评估指标包括两个方面。首先,通过计算所有横向和纵向元动作类别的 F1-Score 来衡量元动作规划的准确性,然后是整体规划准确性。此外,对于规划推理用 BLEU-4、CIDEr 和 METEOR 分数计算生成的规划推理过程与数据集中标注的推理过程之间的相似性。

4.2,实验结果

结果分析:表1展示了AlphaDrive在高级规划中的性能。前四行显示了直接评估相应预训练模型的结果。可以看出,虽然这些模型在通用能力上表现较强,但它们在规划中的表现不佳,这表明需要进一步使用驾驶数据进行训练。接下来的五行展示了在 MetaAD 数据集上微调后的模型结果。AlphaDrive显著优于其他模型,与表现第二好的 Qwen2VL-7B 相比,规划准确性提高了25.5%。在转向和加速/减速等关键决策上有明显提升。此外,规划推理的质量在所有模型中最佳,证明了提出的两阶段 RL 训练和推理策略的有效性。

表1 | MetaAD数据集实验评估结果

4.3,消融实验

规划奖励:表2 验证了四种GRPO规划奖励的有效性。使用基础准确性奖励的模型在所有指标上显著落后(ID1),而结合规划格式奖励后略有改善(ID2)。采用提出的规划准确性奖励后,性能显著提升(ID3)。进一步结合动作加权奖励后,加速/减速决策得到了增强(ID4)。最终,结合规划多样性奖励,实现了最佳规划性能(ID5-6)。

表2 | GRPO规划奖励消融实验结果

推理训练策略: 表3展示了推理训练策略的消融研究。引入规划推理在不同训练策略下均有效提升了模型性能,尤其是对加速和减速等复杂动作的改善显著,表明推理可以极大地增强复杂场景下的决策能力。此外,仅使用RL训练的模型在推理能力上不如使用 SFT训练的模型,这可能是因为较小模型的参数规模有限,导致感知和推理能力不足。因此,将SFT作为预热阶段,并通过知识蒸馏从更大模型中学习推理过程,可以有效解决这一问题。结合SFT和RL后,模型实现了最佳的规划推理能力。

表 3 | 不同推理训练策略的消融实验结果

训练数据量:表4展示了训练数据量对不同训练策略的影响。当训练数据量减少时,SFT受到的影响更大。仅使用20k训练样本时,使用RL训练的模型规划准确性达到 46.08%,显著高于SFT训练的模型。当使用近一半数据(50k样本)时,AlphaDrive的规划准确性已达到 70.83%,证明了训练策略的高效性。

表 4 | 不同训练数据量的消融实验结果

4.4,多模态规划能力

图3 展示了AlphaDrive 在RL训练后的多模态规划能力。在复杂场景中,它可以有效生成多个可行解决方案,而SFT训练的模型只能生成单一的规划决策。AlphaDrive可以与下游动作模型集成,动态地从多个选项中选择最优解决方案。

图 3 | AlphaDrive 定性实验结果

5,总结展望

AlphaDrive一种用于自动驾驶高级规划的 VLM。与之前仅使用 SFT 的模型相比,它将高级 RL 和推理技术集成到规划中。具体而言,AlphaDrive 引入了基于 GRPO 的规划导向 RL 策略,并进一步设计了两阶段规划推理训练范式,显著提升了性能和训练效率。

但是,目前由于缺乏丰富的数据标注,AlphaDrive 仍无法输出更复杂的驾驶行为(如变道或避让)。此外,当前的规划推理数据来自基于真实驾驶动作的大模型生成的伪标签,仍然存在感知不准确和未能捕捉关键因素的问题。因此,需要进一步系统性验证以提高数据质量,并验证 AlphaDrive 的性能上限。