Senna:连接大型视觉-语言模型和端到端自动驾驶

发布于:2025-05-17 ⋅ 阅读:(21) ⋅ 点赞:(0)

《Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving》

2024年10月发表,来自华中理工和地平线的论文。

 

        端到端自动驾驶在大规模数据方面表现出强大的规划能力,但由于常识有限,在复杂、罕见的场景中仍存在困难。相比之下,大型视觉语言模型(LVLM)在场景理解和推理方面表现出色。前进的道路在于融合两种方法的优势。以前使用LVLM预测轨迹或控制信号的方法会产生次优结果,因为LVLM不太适合精确的数值预测。本文介绍了Senna,这是一种将LVLM(Senna VLM)与端到端模型(Senna-E2E)相结合的自动驾驶系统。Senna将高级规划与低级轨迹预测脱钩。Senna VLM以自然语言生成规划决策,而Senna-E2E则预测精确的轨迹。Senna VLM利用多图像编码方法和多视图提示来实现高效的场景理解。此外,我们引入了以计划为导向的QA和三阶段培训策略,在保持常识的同时提高了Senna VLM的计划绩效。对两个数据集的广泛实验表明,Senna实现了最先进的规划性能。值得注意的是,通过在大规模数据集DriveX上进行预训练和在nuScenes上进行微调,Senna显著降低了与未经预训练的模型相比,平均规划误差提高了27.12%,碰撞率提高了33.33%。我们认为,Senna的跨场景泛化和可转移性对于实现全自动驾驶至关重要。

 

研究背景与动机
  • 问题:端到端自动驾驶模型在大规模数据驱动下具备较强的规划能力,但在复杂、罕见场景中因缺乏常识推理能力表现不足;而大型视觉语言模型(LVLM)擅长场景理解与逻辑推理,但不擅长精确数值预测(如轨迹预测)。

  • 核心思想:结合LVLM的常识推理与端到端模型的轨迹预测优势,提出分层规划框架,将高层决策(自然语言)与低层轨迹解耦。


方法创新

  1. 系统架构

    • Senna-VLM

      • 输入多视图图像序列、用户指令、导航命令,生成自然语言的高层决策(如“减速左转”)。

      • 采用多视图编码策略,通过环绕视角提示增强空间感知(如 <FRONT VIEW>: \n<image>)。

      • 设计规划导向的问答(QA)(如场景描述、交通信号检测、意图预测),通过自动标注生成大规模训练数据。

    • Senna-E2E

      • 基于VADv2改进,输入多视图图像、导航命令及Senna-VLM的高层决策特征,生成精确轨迹。

      • 通过注意力机制融合元动作特征,实现端到端轨迹预测。

  2. 训练策略

    • 三阶段训练

      1. 混合预训练:冻结LVLM参数,训练视觉适配器,映射图像特征到LLM空间。

      2. 驾驶微调:引入多视图输入,使用规划导向QA(除元动作QA)微调模型。

      3. 规划微调:仅用元动作QA数据微调,优化高层决策能力。

  3. 数据策略

    • 构建大规模数据集DriveX(100万段3秒驾驶片段),覆盖多样化场景与驾驶行为。

    • 利用自动标注系统生成3D检测框、跟踪轨迹等数据,结合GPT-4生成场景描述QA。


实验结果
  • 性能对比

    • nuScenes数据集:Senna相比基线模型(如VADv2、DriveVLM),平均规划误差降低27.12%,碰撞率降低33.33%。

    • DriveX数据集:Senna的规划准确率(71.21%)显著优于其他LVLM(如QwenVL、LLaVA)。

  • 消融实验

    • 多视图输入提升规划准确率6.3%(64.91%→71.21%)。

    • 三阶段训练策略对性能提升至关重要(混合预训练+微调)。

    • 图像令牌压缩(128 token/图)在保证性能的同时减少计算开销。


局限性与未来方向
  • 实时性不足:LVLM推理速度可能无法满足实时驾驶需求,未来可通过轻量化模型(如2B参数)与硬件优化解决。

  • 数据规模限制:实验表明模型性能随数据量增长持续提升,更大规模数据有望进一步突破性能瓶颈。

  • 扩展性:未来可探索非预定义的自然语言指令控制轨迹生成,增强系统灵活性。


总结

Senna通过结合LVLM的常识推理与端到端模型的轨迹预测能力,提出了一种分层规划的自动驾驶框架。其核心贡献包括:

  1. 结构化规划策略(高层决策+低层轨迹),规避LVLM的数值预测弱点。

  2. 多视图编码与规划导向QA,提升场景理解与决策准确性。

  3. 三阶段训练策略与大规模数据集DriveX,验证方法的泛化性与可迁移性。
    实验表明,Senna在规划精度与安全性上达到SOTA,为自动驾驶系统的多模态融合提供了新思路。

如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!!