DiffAD: A Unified Diffusion Modeling Approach for Autonomous Driving,25年3月来自 Carion 公司和北航的论文。
端到端自动驾驶(E2E-AD)已迅速成为实现完全自主的一种有前景的方法。然而,现有的E2E-AD系统通常采用传统的多任务框架,通过单独的任务特定负责人来解决感知、预测和规划任务。尽管以完全不同的方式进行培训,但他们仍然会遇到任务协调问题,系统复杂性仍然很高。在这项工作中,我们介绍了DiffAD——一种新的扩散概率模型,它将自动驾驶重新定义为一种条件图像生成任务。通过将异构目标光栅化到统一的鸟瞰图(BEV)上并对其潜在分布进行建模,DiffAD统一了各种驾驶目标,并在单个框架中联合优化了所有驾驶任务,显著降低了系统复杂性并协调了任务协调。反向过程迭代地细化生成的BEV图像,从而产生更稳健和逼真的驾驶行为。卡拉的闭环评估证明了所提出方法的优越性,实现了最新的成功率和驾驶分数。该代码将公开发布。
1. 研究背景与问题
现有端到端自动驾驶(E2E-AD)的局限:
模块割裂:传统方法(如UniAD、VAD)采用多任务头独立优化感知、预测、规划,导致误差传播和协调困难。
低效查询建模:基于查询的方法(如数千个可学习查询)计算资源分配不均(感知占34.6%运行时,规划仅占5.7%)。
系统复杂性:多任务头独立优化目标函数,训练过程碎片化。
2. 核心创新:DiffAD框架
核心思想
将自动驾驶重构为条件图像生成任务:通过栅格化异质目标(感知、预测、规划)到统一鸟瞰图(BEV),利用扩散模型学习其条件潜分布,实现端到端联合优化。
关键技术
统一BEV表示:
感知(边界框、地图元素)、预测(交通参与者轨迹)、规划(自车轨迹)分别栅格化为三通道RGB图像,沿通道维度拼接。
优势:保留时空关系,支持跨任务物理与社会交互推理。
潜扩散模型(LDM):
训练流程:
用VAE编码器压缩BEV图像至潜空间(降维)。
多视角图像→BEV特征提取(BEVFormer)。
扩散模型预测噪声(条件:BEV特征 + 驾驶指令 + 历史潜变量)。
推理流程:从高斯噪声生成去噪潜BEV图像,提取规划轨迹。
动作引导机制(Action-Guidance):
引入历史潜变量 zbevt−1zbevt−1 约束当前决策,建模时序依赖 q(at∣st,at−1)q(at∣st,at−1)。
添加 50% Dropout 防止网络过度依赖历史信息而忽略当前观测。
轨迹提取网络(TEN):
基于Transformer的查询机制,从潜BEV图像解码向量化轨迹(避免后处理)。
损失函数:
统一损失:L=Ldenoising+LextractionL=Ldenoising+Lextraction
去噪损失(MSE):噪声预测精度。
轨迹损失(MSE):规划轨迹回归。
3. 实验与性能
数据集与指标
数据集:Bench2Drive(CARLA仿真),使用1,000片段训练。
指标:
闭环评估:成功率(SR)、驾驶分数(DS)。
生成质量:FID(评估BEV图像真实性)。
主要结果
SOTA性能(表1):
DS: 67.92(DiffAD) vs. 64.22(DriveAdapter*)。
SR: 38.64(DiffAD) vs. 33.08(DriveAdapter*)。
交互场景优势:汇入(+1.18%)、超车(+9.17%)。
效率(表5):
参数量545.6M(大于VAD的58.1M),但通过TensorRT-FP16优化达 23.8 FPS(42ms)。
消融实验
去噪步数(表2):
步数=10时最优(DS=66.96,SR=37.27),步数>10时性能饱和。
任务联合优化(表3):
全任务联合优化(感知+预测+规划)提升DS 37.85%。
动作引导Dropout(表4):
Dropout=0.95时最佳(DS=67.92,SR=38.64),平衡历史依赖与当前观测。
4. 优势与创新点
统一生成式框架:
替代多任务头设计,消除误差传播,提升任务协调性。
计算效率优化:
VAE压缩BEV图像减少Token量,共享去噪头降低级联推理开销。
多模态决策能力(图4):
扩散模型生成多样且合理的规划轨迹(如避让、超车)。
闭环性能突破:
在动态交互场景(汇入、紧急制动)显著优于现有方法。
5. 局限与未来方向
局限:
CARLA仿真与现实差距(如交通灯渲染质量导致闯红灯故障)。
成功率仍有提升空间(碰撞占故障主因)。
未来方向:
融合专家特征蒸馏缓解过拟合。
探索多模态生成预测与人类偏好对齐。
实车部署验证真实场景性能。
6. 总结
DiffAD通过扩散模型+统一BEV表示,首次将端到端自动驾驶重构为条件图像生成任务,解决了传统方法的协调性与效率问题。其核心贡献在于:
提出任务无关的栅格化表示与潜扩散学习框架。
设计动作引导机制保障时序一致性。
在闭环测试中实现SOTA性能,为生成模型在自动驾驶中的应用开辟新路径。
如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!!