《VLM-MPC: Model Predictive Controller Augmented Vision Language Model for Autonomous Driving》2024年8月发表,来自威斯康星大学的论文。
受视觉语言模型(VLM)的紧急推理能力及其提高自动驾驶系统可理解性的潜力的启发,本文介绍了一种名为VLM-MPC的闭环自动驾驶控制器,该控制器将模型预测控制器(MPC)与VLM相结合,以评估基于模型的控制如何增强VLM决策。所提出的VLM-MPC由两个异步组件组成:上层VLM根据前置摄像头图像、自我车辆状态、交通环境条件和参考存储器生成驾驶参数(例如,期望速度、期望车头时距),用于下层控制;下级MPC使用这些参数实时控制车辆,考虑发动机滞后并向整个系统提供状态反馈。基于nuScenes数据集的实验验证了所提出的VLM-MPC在各种环境(如夜间、降雨和十字路口)中的有效性。结果表明,与基于VLM的控制造成碰撞风险的某些情况相比,VLM-MPC始终将侵占后时间(PET)保持在安全阈值以上。此外,与现实世界的轨迹和基于VLM的控制相比,VLM-MPC增强了平滑度。通过比较不同环境设置下的行为,我们强调了VLM-MPC理解环境并做出合理推断的能力。此外,我们通过消融测试验证了参考记忆和环境编码器这两个关键组件对响应稳定性的贡献。
1. 研究背景与动机
问题:现有自动驾驶系统(基于规则或学习的方法)存在适应性差、对分布外(OOD)数据鲁棒性不足、响应速度慢等问题,且缺乏可解释性。
解决方案:结合视觉语言模型(VLM)的推理能力和模型预测控制(MPC)的动态优化能力,提出 VLM-MPC 框架,旨在提升自动驾驶的安全性、平滑性和环境适应性。
2. 核心贡献
异步分层架构:
上层 VLM:通过环境编码器(提取天气、光照、道路条件)、场景编码器(车辆状态、前车信息)、参考记忆(历史驾驶参数聚合)生成驾驶参数(如目标速度、车距)。
下层 MPC:基于VLM生成的参数和车辆动力学模型(考虑发动机延迟)实时控制车辆,实现高频闭环反馈。
异步机制:VLM以低频(0.2Hz)更新参数,MPC以高频(10Hz)执行控制,解决VLM响应速度慢的问题。
抗幻觉设计:
参考记忆:通过历史数据统计场景平均参数,减少VLM输出不稳定。
环境编码器:利用CLIP模型从摄像头图像中提取环境描述,增强上下文感知。
实验验证:
数据集:基于nuScenes数据集,覆盖雨、夜、交叉路口等复杂场景。
指标:
安全性:通过“侵入后时间”(PET)衡量,VLM-MPC在所有场景中PET均高于安全阈值(1秒)。
平滑性:通过加速度均方根(RMSa)衡量,VLM-MPC优于真实轨迹和基线模型(如LLM直接生成动作)。
完成率:VLM-MPC使用Llava 1.6模型完成率达99.7%,GPT系列模型达100%。
3. 实验关键结果
安全性(表4):
VLM-MPC在雨天交叉路口等复杂场景中PET值(1.36–1.92秒)显著高于基线模型(如LLM to Action的0.05–2.65秒)。
平滑性(表5):
VLM-MPC的RMSa(0.33–0.43 m/s²)接近真实轨迹(0.51–0.68 m/s²),远优于LLM直接控制(0.93–3.13 m/s²)。
消融实验(表7、8):
移除参考记忆(VLM-MPC without M)导致参数偏向高风险(更高速度、更大车距),雨天/夜间平滑性下降。
移除环境编码器(VLM-MPC without E)显著降低完成率(87.5%),因VLM无法理解道路信息。
4. 创新点
VLM与MPC的协同:通过分层架构,将VLM的语义推理与MPC的物理约束结合,兼顾决策智能与动态优化。
抗幻觉机制:参考记忆和环境编码器显著提升输出稳定性,减少语言模型常见的不合理生成。
可解释性增强:通过可视化注意力机制(图10),展示VLM在生成参数时对图像关键区域的关注(如道路、障碍物)。
5. 局限与未来方向
局限:
实验依赖仿真数据(nuScenes),未覆盖真实场景的动态不确定性。
当前VLM响应时间(Llava 1.6约3.42秒)仍需优化以满足更高频率需求。
未来:
模型轻量化:优化参数规模,提升实时性。
真实路测:验证系统在复杂天气、低光照等极端场景的鲁棒性。
多模态扩展:融合雷达、LiDAR等多传感器数据,增强环境感知。
6. 总结
VLM-MPC 通过结合VLM的语义理解和MPC的动态控制,为自动驾驶提供了一种安全、平滑且可解释的解决方案。其分层异步架构和抗幻觉设计有效弥补了纯学习方法的不足,实验验证了其在复杂场景下的优越性,为未来自动驾驶系统的智能化与可靠性提供了重要参考。
如果此文章对您有所帮助,那就请点个赞吧,收藏+关注 那就更棒啦,十分感谢!!!