51c自动驾驶~合集20-EW帮帮网

自己的原文哦~ https://blog.51cto.com/whaosoft/11811737

#WaterSplatting

快速重建水下世界

水下重建的挑战

神经辐射场（NeRFs）能够提供逼真的3D场景重建质量，3DGS在渲染质量方面可以与NeRF媲美，并且提供了实时渲染速度、更好的可编辑性和控制能力。

散射场景的重建，如雾霾和水下环境，是一个有趣的研究领域，应用范围从海军机器人到虚拟现实体验。在水体体积中重建几何结构具有挑战性，因为散射介质的属性与空气不同。在典型场景中，主要要求是表示表面。NeRFs和高斯散点方法都优化了表面表示，从而提高了效率。对于NeRFs，由于它们是全体积的，因此理论上它们应该能够完全体积化地表示介质。然而，NeRFs为加速训练过程而使用的采样器阻止了它们对体积的良好学习。

为了解决这个问题，一种名为SeaThru-NeRF[2]的NeRF方法被提出，它使用两个场：一个用于几何，一个用于中间的体积。然而，这种方法在渲染和训练上都很慢。

本文介绍一种新方法WaterSplatting[1]，通过使用3DGS显式表示几何，并使用体积表示中间体积。提出的渲染器不仅在渲染质量上超越了全体积表示，还在渲染和训练速度上达到了与3DGS相当的水平。其主要贡献如下：

介质中的散点：引入了一种结合高斯散点（GS）和体积渲染的新方法。该方法采用GS进行显式几何表示，并使用单独的体积场捕捉散射介质。这种双重表示允许在散射介质中合成新的视角，并在无介质的情况下恢复清晰的场景。

损失函数对齐：提出了一种新的损失函数，旨在将3DGS与人类对高动态范围（HDR）和低光场景的感知对齐。

高效合成与恢复：证明了在合成现实世界的水下数据的新视角和恢复合成的背散射场景中的清晰场景方面优于其他模型，同时大大缩短了训练和渲染时间。

项目主页：https://water-splatting.github.io

具体方法

预备知识

3D高斯散点（3D Gaussian Splatting, 3DGS）使用可学习的显式原语来建模场景。每个高斯原语由中心位置和协方差矩阵

3DGS原语还具有两个附加的参数化属性：不透明度和球谐系数，后者用于表示方向外观成分（各向异性颜色）。为了渲染像素颜色，将通过视图变换将原语转换到摄像机空间，并使用投影变换的仿射近似的雅可比矩阵对进行变换，然后得到投影的2D均值和2D协方差矩阵：

以及

2D高斯核

其中是像素的坐标。对于光栅化，每个高斯在3倍标准差范围内截断，仅考虑与该范围内的16×16像素块相交的高斯原语，因为约99.7%的概率落在均值的3倍标准差范围内。因此，像素颜色通过对不透明度

其中是给定视图方向的颜色，是Sigmoid函数，是参与alpha混合的高斯数目。在优化过程中，3DGS会通过分割大的高斯并复制小的高斯来周期性地密化在2D坐标上具有高平均梯度的高斯，同时通过修剪低不透明度的原语来加速渲染，并周期性地将所有高斯的

在散射介质中的场景渲染，我们使用了修订过的水下图像形成模型【1】，其中最终图像

其中是在无介质下在深度捕获的清晰场景，是水在无限远处的背散射颜色。颜色乘以衰减系数，其中和是图像直接成分和背散射成分的衰减系数，分别表示介质对颜色的影响。向量表示直接成分的依赖关系，包括深度、反射率、环境光、水的散射特性和水的衰减系数。向量

介质中的散点渲染

方法流程如图2所示。模型输入是一组具有散射介质的图像和相应的摄像机姿态。通过结构化运动（SfM）初始化一组3D高斯原语，并通过神经网络对其进行优化，以编码介质属性。在考虑到原语和介质的遮挡情况下，模型能够获得沿射线的透射率，并能够在新视角下合成介质成分和物体成分。

考虑沿摄像机射线从摄像机到无限远处积分的像素期望颜色，由于3DGS的无界渲染，通过添加介质项来释放光在散射介质中传播的约束：

其中，透射率

其中，和分别表示物体和介质的密度，而和

将和设置为每条射线上的常量，并且每个颜色通道分别处理。为了在3DGS中应用离散表示，前第个高斯（在第个高斯之后）的透射率在深度的区间

其中，

是从摄像机到深度

高斯

其中，是基于像素与的相对位置计算得到的不透明度（参考公式(5)），而是基于射线方向的颜色。介质在第个高斯和高斯

为了精确估算介质属性，还包括从最后一个高斯

在累积颜色中。

广色域相机在捕捉场景时的有效介质密度在物体颜色和介质颜色中表现不同。为物体衰减和介质背散射使用两组参数，分别应用于和。通过将

其中：

损失函数对齐

在原始的3D高斯散点（3DGS）方法中，损失函数结合了L1损失和D-SSIM损失，适用于没有共享参数的原语。该方法提出了一种正则化损失函数，以增强优化过程中暗区域的权重，使其与人类对动态范围的感知对齐。更具体地说，在渲染的估计值和目标图像上应用逐像素权重，其中，其中是像素坐标，

因此得到正则化的L1损失：

该损失减少了模糊，并使边缘更加锐利。还得到了正则化的D-SSIM损失：

该损失鼓励和

该损失函数鼓励高斯优化更好地与人眼对动态范围的感知对齐。

实验效果

总结一下

WaterSplatting重点研究了水下重建问题，该问题此前是通过体积表示解决的，但训练和渲染速度较慢。它将显式点散射方法（3DGS）与体积渲染结合起来的方法，实现了快速训练和实时渲染速度。在散射介质通过光线段进行整合的同时，交替使用高斯散点的alpha合成。该方法能够在实现实时渲染的同时，达到最先进的效果。此外，显式场景表示还使几何和散射介质的解耦成为可能。

未来工作方向：将该方法扩展到包含水和雾的大型场景中 , 开发板商城天皓智联 TB上有视觉设备哦支持AI相关~ 大模型相关也可用 whaosoft aiot自动驾驶也可以哦

局限性：

在区分远处背景物体和介质时存在一些困难，如图3和图7顶部所示。然而，在前景中，本方法能够很好地修剪与介质相关的原语，而SeaThru-NeRF无法防止几何场适应介质，从而导致波纹状伪影。
依赖于可用的摄像机姿态数据，这在水下3D场景中可能难以获得。
基于3DGS的方法在缺乏观察的区域会产生伪影，这也是NeRF基于模型的问题，如图8左侧和图4顶部所示，而基于NeRF的SeaThru-NeRF方法（右侧图像）则会引入一些模糊、失真和插值效果。
从场景中恢复的颜色不能保证精确（尤其是对于背景物体），因为在介质的作用下，物体的颜色和衰减属性在训练过程中会相互纠缠，如图5所示。

#仅需10ms的动态点云剔除方法

论文题目：A Fast Dynamic Point Detection Method for LiDAR-Inertial Odometry in Driving Scenarios

论文作者：Zikang Yuan, Xiaoxiang Wang, Jingying Wu, Junda Cheng, Xin Yang

导读：

本文实现了一种十分快速的动态点剔除方法，仅需要10ms以内就能剔除扫描点云中的动态点，十分便捷高效。

现有基于3D点云的动态点检测与移除方法存在显著的时间开销，这使得它们难以适应于LiDAR-惯性里程计系统。本文提出了一种基于标签一致性的动态点检测与移除方法，用于处理自动驾驶场景中的行人和移动车辆，并将所提出的动态点检测与移除方法嵌入到一个自设计的LiDAR-惯性里程计系统中。三个公开数据集上的实验结果表明，该方法可以在LiDAR-惯性里程计系统中以极低的计算开销（即1至9毫秒）实现动态点的检测与移除，同时达到与最先进的方法相当的保留率和拒绝率，并显著提高姿态估计的准确性。

在自动驾驶领域，3D激光雷达（LiDAR）和惯性测量单元（IMU）是用于实时定位的关键传感器。LiDAR-惯性里程计（LIO）已成为实时状态估计的主要框架。大多数现有LIO系统假定环境是静态的，但在实践中，车辆通常会在包含行人和移动车辆的动态环境中行驶。动态对象的点云数据会干扰状态估计并影响地图重建质量。

为了解决动态环境对LIO性能的影响，之前的研究工作中已提出了一些3D点云的动态点检测方法，这些方法分为离线和在线两种。离线方法需要预建地图，而在线方法虽不要求预建地图，但计算成本高，难以实现实时运行。

因此，本文提出了一种基于标签一致性的动态点检测和移除方法，适用于自动驾驶场景中的移动车辆和行人。该方法首先快速分离地面点，并根据点是否位于地面进行标签化。对于位于移动对象上的点，其最近邻点的标签会出现不一致性。如果一个点自身是非地面点，但其最近邻点多为地面点，则判定为动态点，并从地图中移除。

实验结果表明，本方法在semantic-KITTI数据集上实现了先进的保留率和拒绝率，且计算时间显著低于其他在线方法。在ULHK-CA和UrbanNav数据集上的实验也证明了本方法能够显著提升估计姿态的准确性，超越了当前最先进的LIO系统。

本文的主要贡献有：

1）提出了一种低计算成本的动态点检测和移除方法；

2）将提出的方法整合到LIO系统中以增强估计姿态的准确性。

▲图1｜a：展示了一个含有动态点的示例点云地图，其中绿色点是移动车辆的鬼影轨迹；b：静态点云地图，其中动态点已被本文的基于标签一致性的动态点检测和移除方法检测并移除

3D点云动态点检测与去除方法可分为离线和在线两类。

离线方法包括Removert、ERASOR和DORF等，需要预构建地图：Removert使用多分辨率距离图像来迭代恢复静态点；ERASOR通过伪占用概念来区分不同占用度的空间；DORF则采用由粗到细的框架来生成清洁的静态点云地图。

在线方法包括Dynamic Filter、Dynablox和RH-Map等，不依赖预构建地图：Dynamic Filter针对动态环境提出了在线去除框架；Dynablox能实现在复杂环境中稳健检测移动物体；RH-Map基于3D区域范围哈希映射结构来构建地图。

最近几年，机器人领域发展出了许多激光雷达惯性组合（LIO）系统。LIO-SAM将LIO里程计问题公式化为因子图；LINs在ESIKF框架内集成了6轴IMU和3D激光雷达；Fast-LIO通过优化卡尔曼增益计算来减少计算负担；Fast-LIO2引入了ikd-tree算法来提高效率；DLIO提高了状态预测精度；Semi-Elastic-LIO提供了一种半弹性的状态估计方法；SR-LIO通过扫掠重建方法增加了扫掠频率；RF-LIO和ID-LIO能够处理动态场景下的状态估计，但计算开销大，难以实时稳定运行。

此外，本文还用、和分别表示世界坐标系、激光雷达坐标系和惯性测量单元坐标系中的3D点。在起始位置时，世界坐标系与惯性测量单元坐标系重合。

本文将第次惯性测量单元测量所在时刻的惯性测量单元坐标系表示为，那么从激光雷达坐标系惯性测量单元坐标系的变换矩阵（即外部参数）表示为，其中包含一个旋转矩阵和一个平移向量。通常假设外部参数矩阵已经通过离线方式被足够准确地标定，因此在后续过程中不再进一步优化。因此，本文简化记号为。

▲图2｜本文的Dynamic-LIO系统概览

图2展示了本文系统的框架，该系统包括四个模块：点云处理、静态初始化、基于ESIKF的状态估计和动态点移除。

点云处理模块分离地面点并进行空间降采样；静态初始化模块利用IMU测量来估计状态参数；状态估计模块与SR-LIO的状态估计模块一致；动态点移除模块使用基于标签一致性的方法检测并移除动态点。

图中还显示系统维护两个全局地图：跟踪地图和输出地图，后者更彻底地过滤动态点。本文使用Hash体素地图来管理这些地图。

■4.1 地面拟合

本文利用与LeGO-LOAM相同的地面分割方法来从当前输入扫描中分离出地面点，这种方法计算成本非常低，这对LIO系统来说非常重要。分离地面点的可视化在图3中展示，其中橙色点标记为“地面点”，白色点标记为“非地面点”。

▲图3｜从当前输入扫描中分离地面点的可视化

■4.2 背景分离

在执行标签一致性检测时，需要为当前扫描中的每个点找到最近邻。靠近车辆的点可以可靠地找到它们的最近邻，而远离车辆的点可能由于它们的位置尚未被重建而找不到最近邻。本文设定了30米的阈值，将距离车辆30米内的点定义为前景点，30米外的点定义为背景点。对于前景点和背景点，本文采用了针对其特性的基于标签一致性的动态点检测方案。

■4.3 标签一致性检测

标签一致性检测基于动态对象接触地面的前提。

静态点通常能在全局地图中找到最近邻，而从动态物体扫描得到的LiDAR点通常找不到最近邻，因此被分类为动态点。对于可能找到地面点作为最近邻的点，本文根据最近邻中地面点的比例来决定是否将其分类为动态点。背景点可能因位置未被重建而找不到最近邻，对于这样的点，本文将它们标记为不确定点并放入容器中，待后续重构位置结构后再进行判断。对于前景点、背景点和不确定点，本文采用三种不同的模式进行标签一致性检测。

▲图4｜检测动态点的两个标准：绿色点被检测为动态点是因为它们在配准过程中无法找到最近邻，粉色点被检测为动态点是因为它们的标签与其最近邻不一致

前景点模式：如果最近邻的数量低于某个阈值5，则表明的位置原本为空，因此将其分类为动态点。如果最近邻数量足够大（大于5），则计算所有最近邻中非地面点的比例。如果这一比例足够低（小于30%），被分类为静态点并加入跟踪地图和输出地图。相反，如果比例大于30%，被分类为动态点而不加入地图。前景点动态点检测结果的可视化见图5。

▲图5｜前景点动态点检测结果的可视化

背景点模式：如果最近邻的数量低于某个阈值5，本文无法确定这是由于动态点未能找到最近邻还是因为位置尚未被重建，从而阻止了最近邻的查找。这种点被标记为不确定点，随着车辆继续移动并在这些点的位置结构恢复后做出判断。为了确保状态估计过程中新获取的点云能够正确配准，有必要将不确定点纳入跟踪地图。这不会对状态估计的准确性有太大影响，即使背景点中有动态物体，扫描到它们的LiDAR点也非常稀疏。至于最终的输出地图，必须尽可能少包含动态点，因此对于不确定点的判断将在之后进行。当最近邻数量足够大（大于5）时，处理方式与前景点相同，静态点加入跟踪地图和输出地图。背景点动态点检测结果的可视化见图6。

▲图6｜背景点动态点检测结果的可视化

不确定点模式：随着车辆继续前进，全局地图中先前未重建的位置的几何结构信息得以恢复（如图7所示）。当不确定点容器中的某点接近车辆的当前位置（小于30米），其周围几何结构信息极有可能已经被重建。此时本文可以判断是否为动态点。如果最近邻数量低于某个阈值5，表明的位置原本为空，导致被分类为动态点。如果最近邻数量大于5，则计算所有最近邻中非地面点的比例。如果这一比例远小于30%，则将其分类为静态点并加入输出地图。反之，如果比例不低于30%，则将其分类为动态点而不包括在内。如果一个不确定点连续10次扫描都距离车辆位置超过30米，则直接将其分类为静态点并加入输出地图。

▲图7｜不确定点动态点检测结果的可视化

本文在三个自动驾驶场景数据集上评估了所提出方法的整体性能：Semantic-KITTI、ULHK-CA和 UrbanNav。

Semantic-KITTI 数据集由一个64线Velodyne LiDAR收集而成，每个LiDAR点都有其独特的语义标签。因此，Semantic-KITTI用于评估本文提出的基于标签一致性的动态点检测和移除方法的保留率（PR）和拒绝率（RR）。ULHK-CA数据集由一个32线Robosense LiDAR和IMU收集，UrbanNav数据集由一个32线Velodyne LiDAR和IMU收集。这两个数据集用于评估动态点检测和移除对位姿估计绝对轨迹误差（ATE）的改进。所有实验均在一个配备Intel Core i7-11700和32 GB RAM的消费级计算机上完成。

■5.1 与最先进方法的PR和RR比较

本文将基于标签一致性的动态点检测和移除方法与三种最先进的三维点云基础的动态点检测和移除方法进行了比较，即Removert、Erasor和Dynamic Filter。表I和表II的结果显示，本文的基于标签一致性的动态点检测和移除方法在更高的PR和RR方面对比Dynamic Filter在几乎所有序列上表现出更好的性能。尽管Dynamic Filter在序列00上实现了比本文更高的RR，但本文的结果与他们的非常接近，仅相差0.36%。

▲表I｜与最先进方法在Semantic-KITTI数据集上的保留率（PR）

▲表II｜与最先进方法在Semantic-KITTI数据集上的拒绝率（RR）比较

■5.2 与最先进方法的ATE比较

本文将提出的动态点检测和移除方法集成到一个自设计的LIO系统中以获得Dynamic-LIO，并在ULHK-CA和UrbanNa数据集上将其与四种最先进的LIO系统进行比较，即LIO-SAM、Fast-LIO2、RF-LIO和ID-LIO。Dynamic-LIO都有环路检测模块，并使用GTSAM来优化因子图。表III的结果显示，本文的Dynamic-LIO在MarketStreet和RussianHill上的精度优于 LIO-SAM、Fast-LIO2、RF-LIO和ID-LIO。由于RF-LIO既不是开源的也没有在UrbanNav数据集上进行测试，本文无法获得它在序列TST和Whampoa上的结果。虽然ID-LIO在UrbanNav数据集上实现了比本文系统更小的 ATE，但本文开源代码的做法更好地证明了本文结果的可复现性。

▲表III｜与最先进方法在ULHK-CA和UrbanNav数据集上的绝对轨迹误差（ATE）比较

■5.3 对不确定点的消融研究

在本文的系统中，包含不确定点的目的是尽可能多地移除动态点，从而增加输出地图中静态点的比例。本节通过比较包含和不包含不确定点情况下Dynamic-LIO的PR和RR值来验证包含不确定点的必要性。表IV和表V的结果显示，包含不确定点可以略微提高本文动态点检测和移除方法的PR和RR。

▲表IV｜不确定点对保留率（PR）的影响

▲表V｜不确定点对拒绝率（RR）的影响

■5.4 对位姿估计的动态点移除的消融研究

本节通过比较包含和不包含动态点移除情况下Dynamic-LIO的ATE结果来评估动态点移除对位姿估计的有效性。表VI的结果显示，移除动态点可以显著提高本文Dynamic-LIO的位姿估计精度。

▲表VI｜移除动态点对绝对轨迹误差（ATE）的影响

■5.5 与最先进方法的时间消耗比较

本文比较了本文的基于标签一致性的动态点检测和移除方法与两种最先进的三维点云基础的动态点检测和移除方法的时间消耗，表VII的结果显示，无论是Dynamic Filter还是RH-Map都无法保证实时能力，而本文的方法可以稳定地实时运行。表VIII的结果显示，本文Dynamic-LIO的时间消耗明显小于RF-LIO和ID-LIO，而本文的系统运行速度大约是RF-LIO和ID-LIO的5倍。由于RF-LIO既不是开源的也没有在UrbanNav数据集上进行测试，本文无法获得它在序列TST和Whampoa上的结果。

▲表VII｜与最先进方法在Semantic-KITTI数据集上的时间消耗比较

▲表VIII｜与最先进LIO系统在ULHK-CA和UrbanNav数据集上的时间消耗比较

■5.6 各模块的时间消耗

本文评估了本文系统的运行时间分解（单位：ms）。对于每个序列，本文测试了点云处理（除地面拟合外）、位姿估计和动态点移除的时间消耗。动态点移除模块可以进一步分解为两个子步骤：地面拟合和标签一致性检测。表IX的结果显示，本文的系统仅需1~9ms 即可移除一次扫描中的动态点，而完成LIO其他任务所需的总时间是16~46ms。这意味着本文的方法可以在LIO系统中以极低的计算开销完成动态点检测和移除。

▲表IX｜各模块的时间消耗

■5.7 地图可视化

图8展示了本文的Dynamic-LIO在示例序列（semantic-KITTI-05）上重建静态点云地图的能力。如图8（a）所示，在移除动态点之前，移动物体的幽灵轨迹（绿色点）在地图上清晰可见。如图8（b）所示，在移除动态点之后，输出地图几乎不再含有幽灵轨迹。

▲图8｜a：移除动态点之前的输出地图可视化；b：移除动态点之后的输出地图可视化

本文提出了一种基于标签一致性的动态点检测和移除方法，该方法根据特定点与其最近邻的一致性来确定该点是否为动态点。本文将提出的动态点检测和移除方法嵌入到一个自设计的LIO系统中，该系统能够准确估计状态并以极低的成本排除动态物体的干扰。实验结果表明，所提出的基于标签一致性的动态检测和移除方法可以实现与最先进的动态点检测和移除方法相当的保留率（PR）和拒绝率（RR），同时确保更低的计算成本。此外，本文的Dynamic-LIO在动态环境下的运行速度大约是最先进的LIO系统的5倍。

#GaussianOcc

渲染速度提高5倍！GaussianOcc：没有标注也能做Occ（东京大学）

GaussianOcc是一种系统方法，它研究了Gaussian Splatting的两种用途，用于在环视图中实现完全自监督且高效的3D占用率估计。首先，传统的自监督3D占用率估计方法在训练过程中仍然需要来自传感器的真实6D姿态。为了克服这一限制，这里提出了用于投影的Gaussian Splatting（GSP）模块，以通过相邻视图投影为完全自监督训练提供准确的尺度信息。此外，现有方法依赖于volume渲染，利用2D信号（深度图、语义图）进行最终的3D体素表示学习，这既耗时又低效。这里提出了来自体素空间的Gaussian Splatting（GSV），以利用Gaussian Splatting的快速渲染特性。

因此，所提出的GaussianOcc方法能够以具有竞争力的性能实现完全自监督（无需真实姿态）的3D占用率估计，同时计算成本较低（训练速度提高2.7倍，渲染速度提高5倍）。相关代码将发布在：https://github.com/GANWANSHUI/GaussianOcc.git。

领域背景一览

近年来，无论是以视觉为中心还是以网格为中心的感知方法，在自动驾驶行业和学术界都受到了广泛关注。其中，环视3D占用率估计已成为一项核心感知任务，并有望成为鸟瞰图（BEV）方法的有前途的替代方案。为了促进3D占用率估计，已经开发了几种用于监督训练的基准，但这些基准在3D标注方面需要付出巨大努力。为了减轻标注负担，已经提出了基于volume渲染的自监督和弱监督学习方法。volume渲染允许使用2D监督信号（如2D语义图和深度图）进行3D表示学习，从而消除了训练过程中需要大量3D标注的需要。

现有方法通过volume渲染实现自监督学习，其中2D语义图监督来源于开放词汇集的语义分割，而深度图监督则来自自监督深度估计。然而，这些方法面临两个重大限制。首先，volume渲染是在现实世界尺度上进行的，这需要真实6D姿态的可用性来计算连续图像之间的多视图光度损失。其次，volume渲染的低效性是一个挑战，这与新视图合成任务中的情况相同，因为需要密集的采样操作。这些限制阻碍了更通用且高效的自监督3D占用率估计范式的发展。

为了解决上述限制，这里探索了一种使用Gaussian Splatting的完全自监督且高效的3D占用率估计方法。引入了Gaussian Splatting来进行跨视图splatting，其中渲染的图像构建了一个跨视图损失，该损失在与6D姿态网络联合训练时提供尺度信息，这消除了训练过程中对真实6D姿态的需求。为了提高渲染效率，摒弃了传统volume渲染中所需的密集采样。相反，这里提出了直接从3D体素空间进行Gaussian Splatting。在这种方法中，体素网格中的每个顶点都被视为一个3D高斯函数，直接在体素空间内优化这些高斯函数的属性：如语义特征和不透明度。通过这种新颖的方法，提出的方法GaussianOcc朝着完全自监督且高效的3D占用率估计迈进了一步，如图1所示。

主要贡献总结如下：

• 引入了首个完全自监督的高效环视3D占用率估计方法，该方法以Gaussian Splatting的探索为特点。

• 提出了用于跨视图投影的Gaussian Splatting，该方法可以提供尺度信息，从而消除训练过程中对真实6D姿态的需求。

• 提出了从体素空间进行Gaussian Splatting的方法，与volume渲染相比，该方法在训练速度上快了2.7倍，在渲染速度上快了5倍，同时实现了具有竞争力的性能。

#xGen-MM (BLIP-3):

BLIP家族再添成员！模型架构、训练集多维升级！

xGen-MM (BLIP-3): A Family of Open Large Multimodal Modelshttps://arxiv.org/abs/2408.08872

大型多模态模型（Large Multimodal Models, LMM）通过结合视觉和语言信息，展现出在多种应用场景中的泛化能力。在这一领域，专有模型如以及开源LMM例如所取得的显著进展，但开源模型与专有模型之间在某些关键资源的获取上存在不小差距，特别是在开放权重、训练方法和精选数据集的访问方面。这种差异阻碍了开源社会群体在复制、理解以及对LMM进行进一步改进方面的努力。

对此，Salesforce AI Research团队和华盛顿大学合作开发了一个名为xGen-MM（也称为BLIP-3）的框架，它是用于开发大型多模态模型（LMMs）的一套系统。这个框架包括了精心策划的数据集、训练方法、模型架构以及一系列由此产生的LMMs。相比于BLIP-2，BLIP-3做了以下改进：

（1）在数据集的选取上，BLIP-3使用多模态交错数据集、策划的字幕数据集和其他公开数据集来扩展LMM训练；

（2）BLIP-3简化了模型架构，用更可扩展的视觉标记采样器（感知器重新采样器）替换了Q-Former层；

（3）将每个训练阶段的多个训练损失函数统一为单个损失来简化训练过程，仅关注多模态上下文中文本标记的自动回归损失。

此外，BLIP-3团队引入了两个大规模、高质量的数据集：MINT-1T，一个万亿标记规模的交错数据集；BLIP3-KALE，一个知识增强的高质量密集标题数据集。文章还介绍了两个额外的专用数据集：BLIP3-OCR-200M，一个具有密集OCR注释的大规模数据集；BLIP3 - ground - 50M，一个大规模的视觉定位数据集。

BLIP-3和BLIP-2的简要对比

BLIP-2（Bootstrapping Language-Image Pre-training 2）是Salesforce AI Research团队开发的一种大型多模态模型（LMM），旨在通过结合视觉和语言模型来提升对多模态数据的理解。

BLIP-2利用了合成数据来实现当时令人印象深刻的结果，主要使用了COCO-style image caption data数据集（包含图像及其相应的描述文本）。COCO数据集因其丰富的注释和多样性而被广泛用于图像描述和多模态任务。然而，BLIP-2使用的数据集在规模、质量和多样性方面存在局限性，这限制了它与更现代的LMMs相比的竞争力。为了克服这些限制，BLIP-3（xGen-MM）采用了更大规模、更高质量、更多样化的数据集。

BLIP-2用Q-Former连接视觉和语言模态，Q-Former通过复杂的注意力机制来整合视觉和语言信息，这使得模型能够深入理解多模态数据。BLIP-2采用了多种训练目标，包括图像-文本匹配（ITM）、图像-文本对比（ITC）和图像-文本生成（ITG）损失，这些目标共同优化了模型的性能。BLIP-2支持单图像输入，这限制了它处理交错多模态数据的能力。

在BLIP-3（xGen-MM）中，Q-Former被更可扩展的视觉标记采样器（如感知器重采样器）所取代，以简化训练过程并提高模型的可扩展性，具体如下：

任意分辨率视觉标记采样：模型采用了动态高分辨率图像编码策略，通过将图像分割成多个小块（patches），并分别对这些小块进行编码，以保留原始图像的尽可能多的分辨率信息。编码后的图像小块与缩小尺寸的原始图像（提供全局信息）拼接在一起，该原始图像提供了全局信息。在视觉-语言连接器中，使用感知器重采样器对视觉标记进行下采样。如此，可以将视觉标记的序列长度减少五倍或更多。
视觉-语言连接器：在视觉Transformer和语言模型之间，使用感知器重采样器作为连接器，它将视觉标记与文本标记结合起来，并将它们输入到语言模型中。
文本标记化器：输入的文本数据通过文本标记化器处理，将文本分割成标记，然后与视觉标记一起输入到预训练的LLM。
损失函数：在训练过程中，模型使用标准的自回归损失函数，仅针对文本标记进行优化。视觉Transformer在训练期间保持冻结，而其他参数（包括标记采样器和预训练的LLM）会被训练。

与之前的BLIP-2框架相比，xGen-MM (BLIP-3) 通过将训练目标统一为每个训练阶段的单一损失，简化了训练过程。通过使用更简单的架构和统一的训练目标，xGen-MM (BLIP-3) 可以更容易地扩展以处理更大规模的数据集和更复杂的任务。

训练流程

在展示结果之前，还要对训练流程和数据集先做简要说明。xGen-MM (BLIP-3) 的训练分为几个关键阶段：

预训练（Pre-training）：预训练的目标是在预训练的数据集混合上预测下一个文本标记。预训练使用大规模、多样化的数据集进行训练，包括MINT-1T、OBELICS等。生成的基础模型（xGen-MM-Phi3-mini-base-r）在多模态token上预训练了约1000亿个token，展现出强大的上下文学习能力。
监督微调（Supervised Fine-tuning, SFT）：在公开可用的指令遵循数据集上进行微调，采用任意分辨率视觉标记采样策略，进一步对指令遵循示例上的预训练模型进行微调，使它们更好地理解和遵循用户查询。
多图像监督微调（Interleaved Multi-Image Supervised Fine-tuning）：在多图像和单图像指令遵循样本的混合数据集上进行第二阶段微调，目的是增强模型理解交错图像-文本输入的能力。
后训练（Post-training）：执行直接偏好优化（DPO）和安全性微调，以改善模型的无害性和有用性。

数据集预训练数据配方

如图3所示，在xGen-MM (BLIP-3)中，文章使用指定的采样比率在不同多模态数据集的集合上进行预训练。

多模态交错数据集：（1）MINT-1T数据集：是一个万亿标记规模的多模态交错数据集，包含来自HTML、PDF和ArXiv的数据源，以7:5:1的比例混合。（2）OBELICS数据集：完全由HTML文档构建的大规模多模态交错数据集。与MINT-1T在域覆盖上略有不同，通过特定的预处理步骤获得。
标题混合数据集：（1）BLIP3-KALE：一个大规模、高质量且经过策划的标题数据集。（2）BLIP3-OCR-200M：一个大规模OCR数据集，用于解决大型多模态模型在处理文本丰富图像（如文档和图表）时的局限性。使用PaddleOCR引擎对图像进行OCR注释，提取文本元素并标注其在图像中的位置。标题中的文本片段被修改为包含OCR信息，如边界框坐标。

（3）BLIP3-grounded-50M：一个大规模定位数据集，旨在增强视觉特征中语义概念的定位能力，支持物体检测、语义分割等任务。使用开放世界图像标记和目标检测模型识别物体及其位置信息，并在标题中标注。

监督微调数据配方：微调阶段使用的数据集来自不同领域的公共数据集，包含100万个样本。文章对不同领域的数据进行采样，包括多模态对话、图像字幕、视觉问答、图表/文档理解、科学和数学。除了多模态图像-文本数据外，文章还在视觉指令调优期间混合了纯文本指令跟随数据。多图像指令调优阶段从对单图像样本进行微调的模型开始，使用公共多图像/交错图像-文本指令数据的混合。
后训练数据配方：（1）VLFeedback 数据集：旨在通过直接偏好优化提高训练后数据配方的真实性。使用现成的视觉-语言模型（VLM）生成对多种多模态指令组合的响应。利用GPT4-V模型对生成的响应进行评分，评分沿着三个轴进行：帮助性、视觉忠实度和道德性。通过选择模型中平均得分最高（首选）和最低（不首选）的响应，并过滤掉得分较低的首选响应，构建出偏好数据。最终数据集包含80k个这样的指令及其响应评分。（2）VLGuard 数据集：旨在通过安全微调提高视觉-语言模型的安全性。数据集分为两种类型的不安全示例：（a）令人反感的图像与安全指令和理想弃权响应的配对（b)安全图像与两种类型指令响应的配对，一种是安全的，另一种是不安全的。数据集由多个子类别的不安全示例组成，如侵犯隐私、风险/敏感主题（政治、性和暴力）、欺骗和歧视等。

实验预训练

在预训练阶段之后，文章在经典字幕和VQA任务上评估文章的预训练模型，并与之前支持少样本学习多模态评估的模型进行比较。文章给出了零样本和少样本(4样本和8样本)的结果，如表1所示。总体而言，文章的模型在同等大小的LMM上实现了具有竞争力的多模态上下文学习性能。对于OCR任务(TextCaps和TextVQA)和VQA-v2，它明显优于MM1-3B甚至更大的模型，如Idefics-9B和MM1-7B。在所有基准测试中，增加样本数可以提高性能，证明模型适应上下文分布的能力。

监督微调

单幅图片评估：在表2中，文章与同等规模(< 5B)的模型进行了比较，包括闭源模型和SoTA开源模型。文章报告单个基准分数和两个平均分数：“Avg.(all)”是所有基准的平均值，“Avg.(perc.)”是关注一般VQA和视觉感知的基准的平均值。xGen-MM-instruct在一般VQA和视觉感知基准上都优于以前的基准。此外，文章发现xGen-MM- instruction -interleave虽然在多图像数据上进行了进一步的微调，但在单图像基准测试中保持了良好的性能，并获得了最高的总分。

多图像评估：在表3中，文章在多图像基准测试中比较了xGen-MM-instruct和xGen-MM-instruction-interleave。虽然xGen-MM-instruct在xGen-MM-base基础上进行了微调，可以理解交错的图像-文本数据，但它在多图像基准测试中表现不佳。文章怀疑这是因为仅仅对单个图像数据进行微调就会损害这种能力。使用多图像SFT，文章看到分数显著提高。此外，文章还在单图像基准测试上对Xgen-MM-interleave进行了评估(见表2)，发现它在所有基准测试中都保持了良好的性能，并获得了最高的总分。

后训练

表4总结了xGen-MM-instruct两种训练后策略的结果。文章通过VLGuard测试分裂的ASR%(攻击成功率)和使用HallusionBench(图像-上下文推理的准确性)和POPE(二元实体存在问题的平均F1分数)来衡量安全性能。为了确保训练后不会影响有用性，文章报告了一些理解基准的性能作为对照。DPO通过提高幻觉基准(第二行)来增强真实性，而安全微调显着降低ASR(第三行)。如对照基准所示，有用性也略有改善。最终xGen-MM-DPO实现了这两项改进。

消融研究预训练

消融研究缩放

预训练数据

通过将数据规模从2B个多模态标记改变为100B个多模态标记，文章进行了一项消融研究，以探索预训练数据量与预训练评估指标之间的关系。如图7所示，文章发现将多模态标记的数量从2B扩展到60B，可以为图像-文本(COCO-Caps)和OCR (Text-Caps, TextVQA)任务带来可观的增益，并且进一步将数据大小增加到100B，在少样本评估指标上仍能带来些许改进。

预训练数据配方

文章讨论了不同的数据配方对预训练的影响。具体来说，文章在基本数据配方的基础上进行消融研究：使用Obelics作为多模态交错数据源，同时保持标题数据集混合相同。文章还考虑了另外两种方法:(1)使用MINT-1T作为交错数据替换，以及(2)混合额外的纯文本指令调优数据作为预训练数据集。如表5所示，文章看到使用MINT-1T进行图像-文本对齐(COCO-Caps)和OCR (Text-Caps, TextVQA)的性能有所提高，而知识密集型任务OK-VQA的性能略有下降。文章还发现，添加文本数据有助于提高更多依赖LLM容量的OK-VQA的性能。

视觉backbone

文章还探讨了不同的视觉backbone是否对视觉语言任务的表现有影响。文章比较了两种类型的视觉编码器，DFN和SigLIP。根据经验，文章发现SigLIP提供了更好的视觉表示，提高了OCR任务的性能。

视觉标记的数量

另一种方法是研究不同数量的视觉标记的影响，即输入图像标记到语言模型中。文章发现将视觉标记的数量从128个减少到64个仍然可以获得类似的性能，如表7所示。这使得给定一个固定的上下文窗口，模型可以吸收更多的视觉图像。

指令微调(SFT)消融研究

SFT消融研究是在简化的SFT数据混合上进行的，因此本节的结果与监督微调部分的主要结果不能直接比较。

任意分辨率视觉标记采样

文章的任意分辨率策略与之前的工作不同之处在于，每组图像嵌入(相同图像patch)都使用感知器重采样器进行下采样，这确保了输入到LLM的视觉标记数量保持相对较小。在本节中，文章通过将任意分辨率策略与“固定分辨率”基线和其他降采样设计进行比较，来削弱其有效性。

“固定分辨率”基线将所有图像调整为视觉编码器的默认输入大小，同时保持原始宽高比。文章还使用感知器重采样器尝试了另一种降采样策略:文章考虑“固定采样”(在图8a中表示为anyres-fixed-sampling)，而不是对每个patch独立进行降采样。在固定采样中，文章将所有图像补丁中的图像嵌入连接起来，然后将它们作为单个序列输入到感知器重采样器中，以获得整个图像的固定数量的视觉标记。

文章对该设计的评估侧重于文本丰富的任务(例如，文档理解)，这些任务将受益于具有视觉细节的高分辨率编码。从图8a中，文章可以看到分辨率图像编码策略的显著改进，即使使用了下采样的视觉标记。固定采样策略虽然在基本分辨率基线上有所改进，但不如逐块采样好。文章怀疑这可能是由于两个原因:(a)在固定采样的情况下，一个可以有超过3000个嵌入标记的视觉标记序列将被压缩到128个标记，这可能太少而无法保留信息。(b)感知器重采样器可能不能很好地处理不同图像嵌入的串联。

指令感知视觉标记采样（Instruction-Aware Vision Token Sampling）

InstructBLIP提出了一种指令感知的Q-Former用于视觉标记采样，并在一些基准测试中表明它可以提高模型性能。使用感知器重采样器作为VL连接器，文章可以采用类似的修改来使该过程具有指令感知。为了使文章的感知重采样器具有“指令感知”能力，文章将文本指令标记附加到感知重采样器的查询标记上。与Q-Former不同，感知重采样器内部只有交叉注意力层，因此指令（文本标记）将通过交叉注意力与查询标记和图像嵌入进行交互。

从图8b的比较中，文章没有观察到文章的模型与其指令感知版本在各种基准测试中的显著差异。由于文章在消融研究中观察到的差异很小，为了简单起见，文章在模型中保留了原始的感知器-重采样器结构。

纯文本指令数据的质量

在这个实验中，文章研究了纯文本子集如何影响多模态基准测试的性能。在指令调优阶段，文章比较了纯文本数据的多样性是否会影响多模态性能。在文章的主要实验中，纯文本指令数据的默认集合涵盖了不同的领域，包括对话、数学和代码。在表8中，观察到添加数学和编码数据，虽然是纯文本格式，但可以帮助在MathVista等相关基准测试上改进模型，而对一般VQA基准测试的影响较小。

#姿态估计

HRNet 之后，姿态估计还有研究空间么？1. 人体姿态估计Sota项目（DWPose）

它是目前2D人体姿态估计在COCO-WholeBody上的SOTA方法（paperwithcode）

这是一个新的两阶段知识蒸馏框架（Two-stage Distillation Framework, TPD），旨在提高全身姿态估计的效果和效率。这个方法的第一阶段通过预训练的教师模型从特征和逻辑层面指导学生模型学习，强制学生模型模仿教师模型的特征和输出。第二阶段则引入了一种自蒸馏（self-KD）方法，学生模型通过自身的逻辑输出来进一步优化其头部特征，这显著提高了模型的性能，且只需20%的训练时间。该方法在COCO-WholeBody和UBody数据集上取得了最先进的表现，并且具有显著的时间和资源效率。已发表在ICCV 2023

2. 项目链接

GitHub：github.com/IDEA-Research/DWPose/tree/onnx

demo：可直接测试图片和视频openxlab.org.cn/apps/detail/mmpose/RTMPose

Colab：可能会遇到环境安装问题，可以跳过到测试步骤，有其他问题可以私信我共同探讨colab.research.google.com/drive/1A_62XOy2pdDyk9gpAPR6nwO74KbUuLIo?usp=sharing

3. 测试场景与结果

单人背影测试：

耗时：2.0秒

多人场景测试：

耗时：2.9秒

4. 其他模型的测试结果

rtmpose（body）：

耗时：1.7秒

rtmo（body）：

耗时：3.3秒

rtmw（wholebody）：

耗时：2.3秒

5. 总结

优点：使用姿态估计的方法进行人体姿态估计耗时较长但精度较高，可以直接对原始图片进行检测，无需先行人检测。特别是DWPose方法在识别背影中的人体姿态上表现出色。
缺点：当行人重叠时，存在漏检情况。

#OASIS SIM V3.0

道不尽的长尾，数不尽的CornerCase | 一文看懂OASIS SIM V3.0交通流如何大杀四方

OASIS SIM自然交通流能够在仿真环境中自定义交通流，重现真实世界的交通情景，帮助测试和优化自动驾驶算法，OASIS SIM自然交通流如下图所示。

自然交通流示例

丁字路口交通流

拥堵交通流

OASIS SIM自然交通流主要由交通流场景编辑（生成）和场景控制两部分功能组成。交通流编辑功能支持个性化配置车辆生成区域（如主车周围生成、指定区域生成等），车辆生成密度，车辆类型比例，以及车辆行驶分布，并支持保守，正常，激进等多种驾驶风格。OASIS SIM交通流编辑功能如下图所示。

OASIS SIM动态场景交通流配置

交通流场景控制功能支持基于规则的控制模型以及基于AI的控制模型。

基于规则的控制模型：能够自动识别并适配不同道路拓扑结构，可以根据周车的交互行为做出相应的驾驶行为，如车辆跟驰、换道、车道侵入、超车、避障、遵守交通规则等，无需预先定义原子场景。

基于AI的控制模型：采用了先进的模仿学习和强化学习技术。该技术通过模拟和学习人类驾驶策略，创建出的驾驶员模型，能够更加智能、自然的与主车和周车交通环境进行交互。同时，AI控制模型可以动态适应不同道路拓扑结构下交通流分布的变化，支持高速、城区等不同场景模式下的交通流生成，也可基于路采交通流数据对交通流模型进行持续进化，不断学习特定区域交通流特征，实现更加精确的交通流生成能力，从而提升交通流整体智能水平，AI控制模型流程如下图所示。

AI控制模型技术流程图

用户可以通过基于规则的控制模型和基于AI的控制模型自定义交通流，从而进行低成本、灵活且高效的仿真测试，大幅降低研发成本，加快开发进度。

AI对抗交通流

ADVERSARIAL TRAFFIC FLOW

自动驾驶落地之前需要开展大规模测试以从统计学角度验证其安全性。但是，在真实世界中安全关键场景稀疏且难以获取。路采数据中往往缺少真实车辆之间的关键交互场景。然而，自动驾驶算法在对抗场景中的应急处置能力又直接决定了是否有交通事故的发生。因此，急需在仿真环境中搭建各种对抗场景来验证自动驾驶车辆的应变能力。。

连续换道对抗

多车连续对抗

弯道处超车对抗

OASIS SIM对抗交通流主要由对抗场景生成模块和对抗场景执行模块两部分组成，对抗场景生成模块主要作用是为对抗执行模块创造对抗条件。对抗场景执行模块主要作用则是保证对抗车能够根据主车当前与对抗车的相对位姿状态（位置，速度，航向角等）做出相应的决策，并保证当前的动作是有效的对抗行为。举个简单例子，如下图所示，在不同的道路拓扑结构中，我们感兴趣的对抗区域可能是不同的，十字路口主要对两车的交汇点感兴趣，此时我们可能希望对抗车能主动与主车抢占交汇点，从而测试主车的应急处置能力，而在匝道场景则是对汇流点与分流点感兴趣，我们可能希望对抗车能够干扰主车正常行驶，迫使主车汇入/汇出匝道失败，从而触发有效的对抗博弈，达到测试主车应对突发状况能力的目的。因此，对抗场景生成模块需要识别不同的对抗场景，并根据主车的运动状态，不断调整对抗车的位姿，以便对抗场景执行模块能够顺利接管并控制对抗车，并产生有效的对抗。

对抗效果示意图

OASIS SIM对抗交通流支持设置对抗时长、对抗范围以及对抗激进程度等。同时，OASIS SIM对抗交通流考虑了不同道路拓扑结构的差异性，通过对路网共性的抽象，用户可以创建对抗使能点trigger，相遇点trigger以及冲突点trigger来生成用户感兴趣的对抗场景。我们设计并部署了正常模式，截止路模式，并行模式，行人模式以及路口模式等5种对抗模式。可通过所设置的trigger点以及对抗车辆与主车的相对位姿关系，自动切换到相应的对抗模式下，并做出有效的对抗行为。可有效泛化到上下匝道、交叉路口（十/丁字路口）、车道增减、环岛、行人等不同场景中去。如上图所示，对抗交通流能够高效地测试自动驾驶系统在对抗场景下的应变能力，有效解决了传统测试成本高，泛化性差，缺乏交互等问题。

集成与部署

INTEGRATION AND DEPLOYMENT

OASIS SIM自然交通流及对抗交通流与CARLA、VTD、VISSIM等仿真器高度解耦，独立性较强，只需人工进行少量的API调试，可灵活与不同仿真器集成部署。同时，我们还支持交通流镜像部署和本地部署两种方式，方便大家使用。

不同仿真器下不同场景对抗效果

#通过直接BEV特征注意力加速在线建图和行为预测

开源代码：https://github.com/alfredgu001324/MapBEVPrediction

摘要

了解道路几何形状是自动驾驶汽车（AV）堆栈的关键组成部分。虽然高清（HD）地图可以很容易地提供此类信息，但它们的标签和维护成本很高。因此，许多最近的工作提出了从传感器数据在线估计HD地图的方法。最近的绝大多数方法将多相机观测值编码为中间表示，例如鸟瞰图（BEV）网格，并通过解码器生成矢量地图元素。虽然这种架构是高性能的，但它会大量抽取中间表示中编码的信息，从而阻止下游任务（例如行为预测）利用它们。

在这项工作中，我们建议揭示在线地图估计方法的丰富内部特征，并展示它们如何将在线地图与轨迹预测更紧密地结合起来。

通过这样做，我们发现直接访问内部BEV特征可以使推理速度提高73%，对真实世界nuScenes数据集的预测准确率提高29%

问题

最近的绝大多数方法将多相机观测值编码为中间表示，例如鸟瞰图（BEV）网格，并通过解码器生成矢量地图元素。虽然这种架构是高性能的，但它会大量抽取中间表示中编码的信息，从而阻止下游任务（例如行为预测）利用它们

方法

我们提出探索在线地图估计中丰富的中间特征，展示在线地图构建同下游任务紧密结合

可以提高推理速度以及预测准确性

Introduction

在线构建高精度地图中广泛采用编码器解码器架构

“employ an encoder-decoder neural network architecture” (Gu 等, 2024, p. 2)

“The resulting road geometries are commonly structured as combinations of polylines and polygons per map element type (e.g., road boundaries, lane dividers, pedestrian crosswalks).” (Gu 等, 2024, p. 2)

在线构建高精度地图的输出结果是折线和多边形的组合，用折线和多边形的组合表示地图中的每个不同的元素（道路边界，车道分割线以及人行横道）

“the attention mechanisms employed in decoding are computationally expensive” (Gu 等, 2024, p. 2)

在线构建高精度地图中的解码器中的注意力操作是耗费时间的

“do not produce outputs with associated uncertainty” (Gu 等, 2024, p. 2)

同时，这种操作不会产生相关联的不确定性

“perspective-view-to-bird’s-eye-view (PV2BEV)” (Gu 等, 2024, p. 2)

这种架构使得下游的任务无法利用编码器的透视图到鸟瞰图转换过程中生成的丰富中间特征

Leveraging Online Mapping Features in Trajectory Prediction

论文中首先介绍了常见的Online Mapping的基本流程，分为encoding以及decoding

Encoding

在线地图构建器的编码器的目的在将多传感器输入转换到统一的特征空间中

“transformation. The two most common PV2BEV approaches are based on BEVFormer [20] and Lift-Splat-Shoot (LSS) [28].” (Gu 等, 2024, p. 4)

基本流程是首先使用 backbone 对各个相机的图像进行编码特征，然后使用 PV2BEV 转换，将各个相机的图像特征转换为 BEV 视角下的特征，两种主流的 PV2BEV 方法，一个是基于 BEVFormer，另一个是基于 LSS 变换。

下图为BevFormer的结构图

BEVFormer 中使用一个增强版 Tranformer Encoder，包含三个部分

基于DeformAttn机制进行时间和空间维度上的特征提取

Decoding Map Elements

通常包含一个分层查询hierarchical query嵌入机制，以及多头注意力和deformable attn机制，从bev特征中准确预测复杂，不规则的地图元素

实例级和点级查询相结合，用于动态特征交互，然后是分类和回归头，分别预测地图元素定点类型和位置

疑问：此处实例级和点级的query具体如何应用，尚未理解

本文提出了三种策略，用于将BEV特征同下游的行为预测相结合

策略1——Modeling Agent-Lane Interactions via BEV Feature Attention

本小节本文首先介绍策略1的具体做法，其次介绍策略1如何具体应用的

做法

本文将每个patch中所有grid的特征进行flatten，共有N个patch，最终得到所有patch的维度为N X D

经过一个linear层将特征维度降为D维，得到N X D

论文中选择出同agent位置相关的bev grid组成的patch作为agent patch，agent patch的个数为M，所有agent patch元素的维度为M X D

疑问：如何选择出同agent位置相关的bev grid，如何通过每个bev特征得到该grid是agent的位置20240819更新：此处需要有其他车辆的位置才可以实现；经过确认，作者是通过trajdata API提取其他车辆坐标（可能直接从nuscenes源数据获得信息）这样做的话实际部署到车上时，其他agent的位置获取又是一个需要解决的问题了

除了agent patch之外，其余的patch认为其为map patch，map patch的个数为N，所有map patch元素的维度为M X D，以agent patch特征为query，map patch特征为key和value，两者进行多头的交叉注意力，如下所示，最终得到agent-bev embedding

策略1在HIVT中的具体应用

策略1中产生的agent-bev特征会替代hivt中局部的agent-lane交互编码，这样使得hivt可以避免使用高精地图

agent-bev特征同agent-agent的交互特征之间进行concat，经过一个linear后进入全局交互模块

理解：此处含义为原本hivt中agent-agent的交互特征concat上公式3.1中的agent-bev特征，实现一种对hivt的增强。此外，尽管HiVT中全局交互模块Global Interaction中各个local region之间的位置关系是可以得到的（笔者推测：可以使用对应agent的bev grid之间的相对位置替代），但是local region之间的角度关系尚不可知20240819更新：此处hivt中的global interaction部分使用原有的方式，即通过local region的位置进行计算

策略2——Augmenting Estimated Lanes with BEV Features

策略1中的做法是完全不使用高精度地图，策略2在于利用bev feat增强现有的高精度地图

首先使用1D的CNN对bev feat进行refine，以匹配与原始车道息息相关的潜在空间的维度

疑问：匹配与原始车道息息相关的潜在空间的维度？将bev feat的维度同原始车辆编码后的特征维度保持一致？

匹配对应位置的bev grid的特征以及地图元素节点位置，即将相同位置的地图元素节点的位置同该位置下的bev grid的特征相concat

策略2在DenseTNT中的具体应用

论文中提到由于DenseTNT的pipeline中的各个阶段中非常依赖高精度地图，因此并不能直接使用策略1，丢弃任何高精地图信息，而是采样策略2

在DenseTNT中的input layer中将bev 特征同地图元素节点特征进行concat，concat之后的特征再送入Vectornet进行编码（DenseTNT中原本采用的就是vectornet backbone）

策略3——Replacing Agent Information with Temporal BEV Features

StreamMapNet流式地图构建中引入了一个memory buffer，该buffer中保存了过往帧中的query data和BEV features，将这些过往信息同当前帧获得的BEV特征结合起来。

StreamMapNet通过对过往一个时间步上bev特征的融合来捕获时间信息，这使得streammapnet可以捕获动态agent的信息。

策略3就是使用temporal bev特征来替代agent的特征，基于此还可以继续使用策略1，用agent的temporal bev特征参与到agent同map patch之间的多头交叉注意力中

策略3在DenseTNT中的具体做法

本文的具体做法就是将DenseTNT中Vectornet的agent subgraph替换成策略1中公式得到的agent-bev特征

思考：笔者认为论文此处是笔误，策略1中的agent-bev特征是agent特征同map特征之间交叉注意力得到的特征，在vectornet中subgraph是用于对象内部进行特征提取的，如agent的历史轨迹，车道线等等。agent同环境之间的交互则是通过global interaction graph实现的，故笔者认为此处应该替代的是vectornet中的global interaction模块20240819更新：经过确认，此处是笔者想多了，实验时就是用agent-bev特征代替vectornet中的agent的特征，然后再进行global interaction，实现增强效果

实验

论文介绍了三种用于将在线构图和轨迹预测结合起来的策略

在线构建地图的baseline选择了MapTR，MapTRv2以及StreamMapNet，其中MapTR +Unc表示使用论文Producing and leveraging online map uncertainty in trajectory prediction中提到的方法

MapTR+Ours表示使用上文中提到的三种策略中的一种

轨迹预测方法选择了DenseTNT以及HiVT

本文提出策略结合不同Online Mapping以及预测方法的量化结果

总体结论：引入bev特征有用！

上图中的实验结果显示，对于所有mapping/prediction组合，与baseline以及带有不确定性Unc增强的方法相比，使用本文提出的策略结合BEV特征，均能带来指标上的提升。最大的提升能达到25%

比较不同mapping方法得到了一个额外的结论：MapTR的解码器中引入了噪声导致表现变差！

MapTRv2以及StreamMapnet相较于MapTR在mapping任务上表现更好，但是在论文中的实验显示，结合bev特征之后，MapTR+bev的提升是最大的。这表明MapTR中的解码器引入了噪声，导致了MapTR在online mapping任务上的表现逊于MapTRv2以及StreamMapnet

消融实验

BEV编码器选择：包含时间信息的bev特征对轨迹预测的表现提升大！

论文中提到了mapping方法中不同bev编码器的选择，主要有两种，一种是利用Bevformer，如MapTR以及StreamMapNet；另一种是基于LSS，如MapTRv2

上表中的量化结果表明，结合BEV特征对MapTRv2的提升远远小于结合bev特征的MapTR以及StreamMapnet

原因在于bevformer中会使用过去帧的bev特征，包含了时间信息，而LSS方式并没有引入时间信息

定性比较

论文通过首先使用主成分分析（PCA）将每个BEV网格单元的维度降低到单个值，然后归一化为[0, 255]，创建灰度图像。依照此方法将bev网格特征表示在图像上

下图为StreamMapNet+Hivt得到的可视化结果图，下图中可以看到bev特征中清晰补货到了道路边界信息，其中灰色为可行驶区域，白色为不可行驶区域。

这种现象表明了引入时间信息的 bev 特征可以捕获车辆周围的地图特征

总结

本文提出将在线构图以及轨迹预测更加紧密的结合起来，让下游的轨迹预测能够直接利用在线构图中的 bev 特征，提高下游轨迹预测的精度。具体来说，提出了三种策略

无高精地图情况下：agent patch 对应的 bev 特征同 map patch 对应的 bev 特征之间的 cross attn，建模 agent 同地图元素之间的交互
已有高精度地图情况下：地图元素的 bev 特征同现有地图元素位置进行 concat ，然后再用于轨迹预测
使用引入时间信息的 bev 特征作为 agent 的特征

论文通过实验证明了三种策略的有效性，以下为笔者认为的关键结论

引入时间信息的bev特征能够极大提高下游预测模块的性能表现。引入时间信息的bev特征一方面能够更好的表示agent的历史特征，同时也能让模型捕获到周围的环境信息

#AutoDrive-R²

阿里：自反思思维链&物理奖励，突破VLA泛化瓶颈

近期自动驾驶VLA通过融合多模态感知与决策能力，已经展现出下一代智能驾驶量产方案的潜力。然而，决策过程的可解释性、连贯性以及动作序列的合理性仍未得到充分研究。为解决这些问题，阿里巴巴和昆士兰大学的团队提出AutoDrive-R²——一种新型VLA框架，该框架通过思维链处理与强化学习，同时增强自动驾驶系统的推理与自反思能力。具体而言：

首先构建了一个用于监督微调SFT的全新CoT数据集，命名为nuScenesR²-6K；该数据集通过包含自反思验证的四步逻辑链，有效搭建了输入信息与输出轨迹之间的认知桥梁。
其次为在RL阶段最大化模型的推理与自反思能力，本文进一步在基于物理的奖励框架内采用GRPO算法；该奖励框架整合了空间对齐、车辆动力学与时间平滑性准则，以确保轨迹规划的可靠性与真实性。

在nuScenes和Waymo两个数据集上的大量评估结果表明，所提方法具备SOTA的性能与强大的泛化能力。

论文链接：https://arxiv.org/abs/2509.01944

引言

近年来，自动驾驶技术取得了快速发展。这类系统通常以传感器数据为输入，以规划轨迹为输出。传统流水线方法大多采用“感知-建图-预测-规划”模块化的架构，该设计存在两个关键局限性：一是误差累积，二是各组件间缺乏联合优化，最终导致性能下降。与之相比，现代方法将这些复杂系统统一为单一的端到端范式，天然具备三大优势：系统简化、鲁棒性增强与误差累积减轻。

然而，这些端到端方法的核心聚焦于轨迹规划，缺乏复杂驾驶场景所需的情景推理能力。为解决这一局限，近期研究将视觉-语言模型（Vision-Language Models, VLMs）集成到自动驾驶系统中，借助VLM的预训练推理能力，提升复杂场景下的决策性能。与传统“从零开始训练感知-策略模块”的方法不同，基于VLM的方法通过在数百万图像-文本对上预训练，对预训练模型进行微调，使车辆能够理解动态交通场景并制定复杂的导航策略。尽管已取得良好效果，现有系统在持续生成准确规划输出方面仍存在不足。

在VLM的基础上，视觉-语言-动作（VLA）模型进一步将推理能力扩展到最终动作预测，使机器人与自动驾驶车辆能够从视觉输入和文本指令中生成精确动作。这一进展推动自动驾驶领域采用类似的动作生成机制，例如π0提出了“action tokenizers”，用于预测精确轨迹。

但当前自动驾驶领域的VLA方法仍面临两个阻碍实际部署的关键局限：

轨迹生成框架常产生物理不可行输出：现有通过VLM直接生成文本指令或路径点的方法，频繁出现物理不可行输出与模型坍缩问题。尽管有研究提出“元动作”或“潜在动作token”等中间表示以缓解这些问题，但此类设计违背了端到端优化原则，且大幅增加模型复杂度开销。
复杂场景下推理能力不足：多数方法采用简单推理策略，无法同时兼顾复杂道路状况与车辆运动学约束，导致预测轨迹严重偏离现实需求。

这些局限凸显了研发新型VLA框架的迫切性——该框架需平衡架构简洁性、强大的情境理解能力与严格的物理约束。

为克服上述挑战，本文提出AutoDrive-R²，一种新型VLA框架，通过两阶段训练方法同时提升推理质量与物理可行性。核心思路在于：有效的自动驾驶需要可系统验证与优化的结构化推理过程。具体而言，为解决复杂场景下情境推理不足的问题，本文首先构建了用于监督微调的思维链（CoT）数据集nuScenesR²-6K。nuScenesR²-6K是自动驾驶领域首个同时激发VLA模型推理与自反思能力的数据集；与以往自动驾驶数据集不同，该数据集不仅提供真值轨迹，还包含推理与自反思步骤，确保驾驶行为的正确性与因果合理性。

此外，为解决物理不可行轨迹生成的难题，本文进一步针对自动驾驶任务的组相对策略优化（GRPO），设计了基于物理的奖励框架。该框架通过明确纳入空间对齐、车辆动力学与时间平滑性约束，使强化学习能够适应不同驾驶场景与车辆动力学特性，同时保证轨迹的物理可行性与行驶舒适性。在nuScenes和Waymo数据集上的全面实验表明，AutoDrive-R²实现了最先进的性能。本文的主要贡献如下：

提出AutoDrive-R²——一种新型VLA框架，能够基于视觉信息与语言指令，实现带自反思步骤的语义推理与轨迹规划。
构建nuScenesR²-6K数据集：该创新性CoT数据集采用含自反思的四步逻辑链，助力模型在监督微调后建立基础感知能力。
提出基于GRPO的RL后续训练方法：该方法将基于物理的奖励作为约束，优化不同场景下的规划轨迹。

相关工作回顾

自动驾驶

近年来，自动驾驶技术已从传统的“感知-在线建图-预测-规划”模块化流水线，逐步向端到端基于学习的方法演进。UniAD首次将所有子任务集成到一个级联模型中，相比传统模块化方法实现了显著性能提升。部分方法通过提取BEV特征，并通过多阶段交互建模预测规划轨迹。

随着视觉-语言模型的兴起，研究人员越来越多地将大语言模型与VLMs集成到自动驾驶系统中，以提升整体系统性能。已有多种方法引入预训练LLM，生成驾驶动作及可解释的文本说明。此外，DriveVLM通过集成专用推理模块提升场景理解能力；DriveMM处理多视图视频与图像输入，以增强车辆控制的泛化性；DriveMLM则引入行为规划模块，生成带合理依据的最优驾驶决策。

此外，视觉-语言-动作（Vision-Language-Action, VLA）模型在机器人领域的近期成功，为自动驾驶提供了新的研究视角。DriveMoE基于xxAI框架π0构建，通过训练路由网络激活针对不同驾驶行为的专家模块，引入了动作专家混合（Action-MoE）机制。此外，OpenDriveVLA提出“智能体-环境-自车”交互模型，用于精确轨迹规划；AutoVLA则直接从视觉输入与语言提示中预测语义推理结果与轨迹规划方案。

通用视觉-语言模型

近年来，大型语言模型（LLMs）的成功推动研究人员将其扩展为视觉-语言模型（VLMs）——这类模型融合文本与视觉数据，实现更丰富的多模态表示。开创性工作CLIP（对比语言-图像预训练）通过图像编码器与文本编码器结合，采用零样本学习策略，预测图像-文本样本对的正确匹配关系。类似地，BLIP与BLIP-2通过图像-文本对比（image-text contrastive, ITC）损失实现视觉与语言表示的对齐，并借助图像-文本匹配（image-text matching, ITM）损失区分正负图像-文本对，从而增强基于文本上下文的视觉表示能力。

受这些方法启发，许多VLMs（如LLaVA与Qwen2.5-VL）通过将大型语言模型作为文本编码器（如LLaMA），进一步提升了预训练视觉编码器的鲁棒性与表示能力。OmniGen2是另一类典型VLMs，其为文本与图像模态设计了两条独立的解码路径，采用非共享参数与解耦图像token化器。值得注意的是，DeepSeekV3引入了鲁棒的专家混合（Mixture-of-Experts, MoE）语言模型，采用无辅助损失策略实现负载均衡，在推理效率与成本效益上均有优势。

用于后续训练的强化学习

强化学习（Reinforcement Learning, RL）已被广泛应用于大型语言模型，研究人员发现，基于人类反馈的强化学习 - RLHF能显著提升模型的推理能力。在这些方法中，PPO最初用于模拟机器人运动与Atari游戏环境，随后被OpenAI用于微调GPT，在文本生成任务中实现了大幅性能提升。

与传统RLHF方法不同，DPO提出了一种新的奖励模型参数化方式，无需在微调过程中进行采样。奖励微调（Reward Fine-Tuning, RFT）是另一种基于RL的方法，在数学推理任务中表现出优异性能。此外，GRPO无需依赖外部工具包或投票机制，即可有效提升LLMs的推理能力。例如，DeepSeek-R1利用GRPO对模型进行微调，性能优于现有方法。组策略梯度（Group Policy Gradient, GPG）是一种极简RL方法，无需监督微调或复杂技巧即可提升大型语言模型的推理能力，且在多种任务中表现出强性能。受这些方法启发，近期有研究采用类似微调策略，以提升多模态模型的推理能力。

AutoDrive-R²算法详解

概述

本节将对AutoDrive-R²进行概述。轨迹规划任务的目标是让模型基于车辆的历史传感器数据与上下文信息，预测其未来运动状态。形式化定义为：给定车辆历史状态序列（包含位置、加速度、速度、转向角等信息）与相机图像，模型输出未来3秒内、以0.5秒为时间间隔的BEV轨迹坐标，其数学表达式为。

如图2所示，我们的训练过程分为两个阶段。第一阶段，构建高质量冷启动数据集nuScenesR²-6K，通过包含自反思验证的四步逻辑链，搭建输入信息与输出轨迹之间的认知桥梁；第二阶段，采用基于物理的强化学习框架，该框架整合了空间对齐、车辆动力学与时间平滑性准则，以确保生成物理可行且安全的轨迹。

含自反思的逻辑思维链（CoT）数据集

视觉-语言-动作（VLA）模型在自动驾驶领域的成功，关键在于其能否同时生成可解释的推理过程与物理可行的动作。然而，现有训练方法往往难以满足这一双重需求，导致模型要么缺乏可解释的决策过程，要么生成不切实际的轨迹。为探究这一问题，我们最初借鉴基于推理的强化学习（RL）最新进展，尝试直接通过强化学习优化轨迹规划，但初步实验表明，仅通过强化学习训练的模型，其轨迹规划性能显著低于先经过监督微调（SFT）再进行强化学习的模型。因此，我们提前构建了高质量冷启动数据集nuScenesR²-6K，以训练模型在轨迹规划方面的基础理解能力。

具体而言，我们从nuScenes训练集中手动标注了6000个“图像-轨迹”样本对，随后利用先进的Qwen2.5-VL-72B模型合成思维链（CoT）推理序列。如图2（a）所示，给定前视图图像、车辆历史状态（作为输入）与对应的真值轨迹（作为输出），我们预先定义了特定的CoT提示词，引导模型按照以下格式构建推理序列：“推理过程在此处((x₁, y₁), ..., (xₙ, yₙ))”。

此外，我们观察到，现有许多方法依赖通用提示词实现“问题-答案”的推理，缺乏用于理性分析的结构化引导。这种策略在简单任务中虽有效果，但在面对复杂数学或逻辑问题时往往失效。为解决这一局限，我们的CoT提示词设计将轨迹规划系统地分解为三个相互关联的推理阶段：

图像驱动分析：建立基础场景理解（如障碍物与车道定位、交通标志检测），为后续推理奠定基础。
基于物理的计算：利用运动学方程（如角动量守恒）将抽象观测转化为可量化的预测结果。
上下文逻辑综合：整合领域特定知识（如交叉路口交通规则），确保预测结果符合真实世界的驾驶规范。

为进一步提升模型的鲁棒性与答案正确性，我们借鉴数学推理框架中“通过反向验证结论”的思路，明确引入“自反思”作为第四步。这一步骤使模型能够验证自身推理的连贯性，并修正潜在矛盾。因此，我们的提示词实现了四步逻辑链：
可视化 → 计算 → 逻辑 → 反思
该逻辑链可实现系统性且抗误差的推理，详细内容见补充材料。

最终，nuScenesR²-6K数据集用于Qwen2-VL-7B模型的监督微调，从而得到第一阶段模型。该预训练模型能够通过“结构化、分步式且包含自反思”的推理机制，有效实现轨迹规划。

GRPO

我们遵循GRPO算法对模型进行训练。与依赖评论家网络（critic networks）估计价值函数的传统方法不同，GRPO引入了候选响应间的成对比较（pairwise comparison）机制。这种设计不仅简化了架构，还降低了训练过程中的计算开销。该方法的流程为：对于给定的输入问题，通过策略采样生成个不同的候选响应₁。针对我们的特定任务，我们设计了两个基于规则的可验证奖励函数，用于评估响应质量。

准确性奖励

为更好地适配轨迹规划任务，我们定义了基于物理的准确性奖励，该奖励整合了空间、运动学与时间约束以进行评估，具体细节将在下文章节中说明。

格式奖励

格式奖励用于强制模型严格遵守要求的输出格式。模型必须按照以下形式生成响应：“推理过程在此处(x₁, y₁), ..., (xₙ, yₙ)”。若格式正确，赋值为1；若格式错误，则赋值为0。

综上，响应的总奖励定义为：

为量化所有响应₁的相对质量，GRPO通过“减去组均值并除以标准差”对这些分数进行归一化。因此，每个响应的优势函数可表示为：

其中为第个答案的相对优势。随后，优化目标进一步引入正则化项，以确保更新后的策略与原始参考策略保持接近。这一目标通过在损失函数中加入KL散度项实现：

其中为超参数，用于平衡优化过程中“探索”与“稳定性”之间的权衡。

基于物理的准确性奖励

在自动驾驶任务中，传统奖励函数设计往往仅关注轨迹位置误差，而忽略了几何、动力学与时间维度的复杂约束。为解决这一问题，我们提出基于物理的奖励框架，该框架整合了空间对齐、车辆动力学与时间连续性，全面引导模型生成安全、可行且舒适的驾驶策略。这种多维度方法不仅确保几何准确性，还明确纳入了真实车辆的物理限制与运动平滑性感知需求，形成了整体优化目标。

空间对齐：平衡机动性

任何轨迹奖励函数的核心，在于使其预测路径与目标路线对齐。我们将空间准确性项定义为“预测坐标与真值坐标之间的平均平方欧氏距离”：

其中表示时间步数，、分别为第个时间步的预测坐标，、分别为对应时间步的真值坐标。该公式通过惩罚所有时间步的偏差，优先保证全局路径贴合度，确保车辆沿预定路线行驶。然而，仅关注位置误差最小化可能导致物理不可行的结果——例如，严格遵循最短路径可能引发急转向或急加速，这不仅违反车辆运动学规律，还会降低乘客舒适性。因此，我们引入基于车辆动力学的额外约束，以平衡几何精度与实际可行性。

车辆动力学：连接感知与控制

自动驾驶系统必须遵循真实世界的物理限制，这些限制由转向运动学与纵向动力学决定。忽略这些限制可能导致轨迹无法执行（例如，需要无穷扭矩实现急转向）或影响乘客舒适性。为确保运动学可行性，我们通过以下公式定义转向角偏差惩罚项：

其中与分别表示第个时间步的预测转向角与真值转向角。此外，为解决非物理加速/制动模式的问题，我们引入了额外的速度约束项：

其中与分别表示第个时间步的预测速度与真值速度。

综上，与共同强制模型遵守车辆特定约束，确保生成的轨迹既具备物理可执行性，又能在混合交通场景中满足社会接受度。这些约束明确连接了“感知驱动规划”与“执行器级控制”，确保预测轨迹在符合物理边界的同时，维持良好的行驶质量。

时间平滑性：保障导航可靠性

轨迹预测中的时间不连续性，会从根本上削弱自动驾驶系统的可靠性。当转向或加速指令在时间步之间出现突变时，预测轨迹可能失去连贯性，进而影响系统维持安全导航所需的稳定、可预测运动模式的能力。为解决这一问题，我们引入时间平滑性项，对连续控制信号的急剧变化进行惩罚：

这种设计确保了预测轨迹的时间连贯性。通过明确约束转向角与速度的变化率，奖励函数过滤掉了可能导致车辆状态估计不稳定的振荡，增强了模型在不同驾驶场景下的泛化能力，同时在执行过程中维持了安全余量。

综合奖励函数

最终奖励函数通过可学习权重整合了所有维度：

其中、、、为可学习系数，用于平衡不同目标之间的权衡。在实验中，我们将所有系数均设为1。这种整体公式确保模型生成的轨迹具备几何准确性、动力学可行性与时间平滑性，从而应对自动驾驶的多方面挑战。

实验结果分析

实验设置

数据集

训练阶段，我们采用nuScenesR2-6K数据集。该数据集包含6000个“图像-轨迹”样本对，每个样本对均包含一张前视图图像和一段时长3秒、时间间隔为0.5秒的轨迹规划数据。为在强化学习（RL）前建立基础感知能力，我们基于这些样本对对Qwen2.5-VL-7B模型进行监督微调（SFT）。评估阶段，我们在nuScenes和Waymo两个数据集上测试所提方法，二者均提供了全面的自动驾驶数据：nuScenes数据集包含1000个城市驾驶场景，配备6个同步摄像头视角以支持规划任务；Waymo数据集包含4021个驾驶片段，涵盖8个摄像头视角和自车轨迹数据。

实验细节

我们在Qwen2.5-VL-3B和Qwen2.5-VL-7B两个模型上开展实验。两个训练阶段的学习率均设为5e-7，累计总批次大小（accumulated total batch size）为1。组相对策略优化（GRPO）的最大生成长度设为4096个token，每个输入样本生成6个候选响应。

评估指标

我们采用预测轨迹与真值轨迹在未来1秒、2秒、3秒时间跨度下的L2距离（单位：米），以及平均L2误差作为评估指标。所有模型均使用官方检查点（checkpoint），并在相同的评估代码下进行性能测试。

评估结果

nuScenes数据集上的结果

表1对比了所提方法与现有方法在nuScenes数据集上的预测误差。值得注意的是，我们的方法在所有时间跨度下均持续取得最佳性能，超越了EMMA+等现有领先方法——这些方法的训练依赖包含10.3万个场景的大规模内部数据集，而我们的训练数据仅包含第一阶段6000个精心构建的思维链（CoT）样本和第二阶段另外6000个样本，规模约为EMMA+数据集的11.65%。此外，尽管所提模型的参数量远小于Qwen2-VL-7B，但性能仍实现显著提升，将L2误差降低了86.9%。

Waymo数据集上的零样本性能

此外，表2展示了所提模型强大的零样本能力：相较于最新的EMMA+方法和Qwen2-VL-72B基准模型，我们的方法分别将L2误差降低了33.3%和90.7%。总体而言，所提模型在多个数据集上均能稳定生成精确的轨迹预测，展现出最先进（state-of-the-art, SOTA）的性能和泛化能力。

模型规模影响

在表1和表2中，我们在两阶段训练框架下对比了Qwen2.5-VL的3B和7B两个版本，以分析模型规模的影响。尽管7B模型性能更优，平均L2误差仅为0.19米，但3B版本相较于其基准模型仍实现了显著提升。这种性能差异表明，更大规模的模型本质上能捕捉更复杂的模式，而两阶段框架（SFT + GRPO）通过施加严格的轨迹约束和上下文逻辑综合，有效弥补了3B模型的能力局限。

可视化结果

图4展示了所提方法与其他方法在nuScenes数据集上的对比分析。可以发现，Qwen2.5-VL-7B在特定场景（如（b）和（d））中无法生成准确预测，EMMA+则存在显著的轨迹偏移；与之相反，所提方法在不同光照环境和复杂运动模式下，均能稳定生成可靠且物理可行的轨迹规划。

消融实验

训练阶段的必要性

受DeepSeek-R1-Zero启发，我们最初尝试仅通过强化学习训练模型。如表3所示，纯强化学习训练的模型（7B + RL）在平均L2误差上比监督微调模型（7B + SFT）低22.2%。我们认为这一性能差距源于模型无法建立结构化推理链——强化学习难以探索多步计算和上下文逻辑综合所需的高维推理空间，这一观察验证了两阶段训练的必要性。

监督微调（SFT）的作用

第一阶段中，基准模型Qwen2.5-VL-7B（7B）的平均L2误差为1.45米，而基于nuScenesR²-6K数据集训练的监督微调模型（7B + SFT）将该误差降至0.27米，性能提升81.4%，这充分证明监督微调在建立基础推理能力方面的有效性。此外，移除四步推理结构（w/o. Four.）会导致误差升至0.25米，相较于AutoDrive-R²下降31.5%；移除自反思（w/o. Self.）则使误差达到0.23米，相较于AutoDrive-R²下降21.1%。这一结果凸显了四步逻辑链与自反思机制在构建高质量思维链数据集过程中的相互依赖性。

强化学习（RL）中奖励组件的贡献

第二阶段，我们评估了AutoDrive-R²基于物理的奖励框架中各奖励组件的作用。具体而言，空间对齐对维持全局几何路径精度至关重要——移除空间对齐奖励（w/o. (r_{pos})）会使误差升至0.53米，远高于完整模型；转向角正则化通过惩罚急转向确保运动学可行性，移除该组件（w/o. (r_{ste})）会导致性能下降10.5%（误差0.21米）；速度一致性约束通过惩罚预测速度与真值速度的偏差确保贴合目标速度曲线，移除该约束（w/o. (r_{vel})）会使误差升至0.22米；时间平滑性惩罚通过抑制转向和速度在时间步间的突变来消除不稳定控制模式，移除该组件（w/o. (r_{tem})）会导致误差增加26.3%（误差0.24米）。将四个组件整合到基于物理的奖励框架后，AutoDrive-R²实现了0.19米的最优L2误差，证明了每个组件在满足轨迹规划的空间、运动学和时间准则方面的必要性。

输入样本候选响应数量的影响

我们还实验分析了第二阶段强化学习（GRPO）训练中“候选响应生成数量”的影响。如表4所示，将候选响应数量从2增加到6时，所有时间跨度下的L2误差均持续降低：当每个输入生成6个候选响应（w/. num = 6）时，模型实现最低平均L2误差（0.19米），性能优于生成4个（0.20米）和2个（0.23米）候选响应的情况。然而，当候选响应数量超过6个（w/. num = 8）时，性能提升逐渐减弱，这表明计算成本与性能提升之间存在权衡关系。因此，我们选择“每个输入生成6个候选响应”以平衡精度与效率。

更多可视化：

结论

本文提出AutoDrive-R²——一种面向自动驾驶领域“推理引导型轨迹规划”的新型视觉-语言-动作（VLA）框架。AutoDrive-R²通过两阶段训练框架，有效平衡了语义理解与真实世界约束：

监督微调（SFT）阶段：采用nuScenesR²-6K数据集，通过四步思维链（CoT）流程培养模型的结构化推理能力，并引入自反思进行验证；
强化学习（RL）阶段：利用组相对策略优化（GRPO）训练，结合基于物理的奖励框架优化轨迹规划。

实验验证了AutoDrive-R²的有效性：该方法在nuScenes和Waymo两个数据集上均实现最先进（SOTA）性能，并展现出强大的零样本泛化能力。未来研究将聚焦于多智能体协同和实时传感器融合集成，以进一步提升模型在复杂环境中的适应性。

#VLA和World Model世界模型，哪种自动驾驶路线会胜出？

目前VLA占据主流地位，95%以上世界模型都是在生成视频用于自动驾驶训练而非直接用于自动驾驶，VLA已经可以量产上车。不过从理论上讲，世界模型拥有明显优势。VLA本质还是模仿学习，而世界模型是类脑学习。VLA最大的缺点是基于文字（语言），也就是离不开L，中间多了一个转接层，世界模型则是跳过这个L，直接到Action，这才是真正意义上的端到端。

世界模型的拥趸认为，仅凭文字与图像生成，AI无法真正「理解」世界。它们虽然能对提问给出看似合理的回答，却缺乏对物理现实的感知与推理能力。智慧的核心不在于对像素或文字的模仿，而在于抽象层级的理解与预测。人类开车不是基于语言或文字，而是基于对驾驶环境的理解与预测。与其预测影片中每个像素的变化，不如学会在抽象层面理解事件的因果与动态，这才是智能的基础。换句话说，VLA没有智慧，它只是在模仿，只是记忆力比较好，而世界模型拥有智慧，拥有对物理世界的理解，能够推导出因果关系，能做到零样本学习，无需标注的数据。

图灵奖得主Judea Pearl的科普读物The book of why中绘制了一副因果阶梯，最下层是“关联”，也就是今天大部分LLM/VLM模型主要在做的事；中间层是“干预”，强化学习中的探索就是典型的干预；最上层是反事实，通过想象回答 what if 问题。Judea为反事实推理绘制的示意图，就像科学家靠推理想象来找出世界运行的规律，即世界模型。

META AI负责人，AI界大神杨立昆对世界模型推崇备至，对LLM/VLM是不屑一顾。

世界模型不是新生事物，它比LLM还要古老，早在1994年基本定型了。

该框架图有三个主要的模块组成，即 Vision Model（V）， Memory RNN（M）和 Controller (C)。首先是Vision Model (V)，这个模块的主要作用是学习视觉观测的表示，这里用的方法是VAE，即变分自编码器，其主要作用是将输入的视频（早期是图片）抽取特征，Transformer兴起后则转换为Token，这个过程变成Tokenizer。在1994年，Christopher M. Bishop就提出Mixture Density Networks，MDN 结合了常规的深度神经网络和高斯混合模型GMM。它在网络的输出部分不再使用线性层或softmax作为预测值，为了引入高斯分布模型的不确定性，每个输出都是一种高斯混合分布，而不是一个确定值或者单纯的高斯分布，高斯混合分布可以解决高斯分布不好解决的多值映射问题。以回归问题为例，输入和输出均是可能有多个维度的矢量。目标值的概率密度可以表示成多个核函数的线性组合。看到这里，熟悉强化学习的朋友就知道了，世界模型实际就是基于模型的强化学习即Model-based RL，MBRL。

世界模型这种RNN架构，非常不适合GPU加速，所以前期发展缓慢。

2019年进一步演化出了RSSM。

RSSM将确定和随机结合，既有确定部分防止模型随意发挥，又有随机部分提升容错性。

另外演化出了JEPA，RSSM和JEPA是目前的主流世界模型核心架构。JEPA是在2023年才提出的，目前最新的是2025年6月推出的V-JEPA2，JEPA的设计灵感源自人类认知方式。人类并不逐像素记忆世界，而是通过观察和互动，形成对物理世界的抽象理解，例如「推倒瓶子可能导致它翻滚」。这种理解基于高层次表征，而非精确的细节再现。与生成式模型（如LLM或扩散模型）试图重建数据（如文本或图像）的做法不同，JEPA专注于预测抽象表征，从而更高效地仿真世界动态。

具体而言，JEPA通过自我监督学习（self-supervised learning），从输入数据（如影片、传感器数据）中提取高维表征，并预测未来状态的表征，而非生成像素级细节。例如，在分析一段影片时，JEPA不会试图预测下一帧的每个像素，而是预测场景的抽象状态（如「有人坐下」或「物体移动」）。这种方法大幅降低计算需求，并更接近人类的认知效率。

V-JEPA2

模型先「看」超过一百万小时的无标注的网络影片，以及大量静态图片。透过一种名为「遮蔽潜在特征预测」的技术，V-JEPA 2学会在不完整的影像片段中，推测被遮蔽的动态与结果。例如，看见球滚动到桌边的片段时，它能在心中「补齐」球掉下去的情景。接着，V-JEPA 2只用了来自 Droid 开放数据集、不到62小时的机器人影片（就是针对特定任务的微调），就学会了如何在现实环境中操控机械手臂。它会根据任务目标生成路径，并在执行过程中不断预测下一步的可能结果，根据情况动态调整策略。这种训练方式打破了传统依赖大量专家示范数据的做法，让机器人在零样本（Zero-Shot）条件下，也能在新场景中完成任务。

世界模型两大优势，一是非逐点像素计算，所需运算资源低于VLA，而是训练数据无需任何标注，可以全部使用网络资源。然而为什么没有量产部署世界模型，只有在云端训练呢？

首先是在于数据的采集与多样性，世界模型要学会准确地理解物理世界，就需要大量涵盖各种道路、天气、交通密度等场景的高质量多样化数据。而有些如暴雨天的道路积水、急弯处突然出现的行人或者车辆失控等极端或风险场景在真实环境下往往难以收集到足够样本。如果模型只在“平时”的数据上学得很好，到真正出现罕见场景时可能就会力不从心。为应对这一点，就有技术提出将现实数据与仿真数据结合起来，先用虚拟仿真器生成极端工况的“补充样本”，再用现实数据做微调；同时，还会采用域适应（Domain Adaptation）等技术，让模型在不同数据源之间迁移时损失更低，减少“模拟到真实”的性能差距。

其次是token化的视觉或点云难以表达物理世界的全部信息，理论上世界模型泛化能力很强，具备因果推理，但还是受限于传感器的信息，物理世界不只有视觉，视觉也不是像摄像头这样，有帧率，有FOV，人眼类似于事件相机，只在意有价值的信息，而目前摄像头和激光雷达做不到。

再次是表征崩溃，Representation Collapse。崩溃指系统忽略输入数据，生成无意义的表征，例如将所有输入映像到相同的向量。这种现象在早期联合嵌入模型中常见，限制了模型的有效性。为解决崩溃问题，需要多种正则化技术，通过限制参数值域空间，显式地控制了模型复杂度，从而避免了过拟合。这意味着模型的学习边界被确定了，换句话说，有些因果关系无法学习得到。再有是长期预测的误差累积。因为世界模型在潜在空间里一次又一次地根据上一步的结果预测下一步，随着预测步数的增加，小小的误差就会不断叠加，最终导致与真实环境严重偏离。这在做短期预测（比如一两秒）时还可以接受，但如果要做更长时间范围的规划时，就需要特别关注。对此可采用在训练时用“半监督、自回归”和“教师强制”相结合的策略，即让模型既学会用自己预测的产出作为下一个输入，也偶尔用真实观测数据来校正；另外，在损失函数里加入对多步预测误差的惩罚，让模型对长距离时序的稳定性更敏感。这意味着世界模型又回到了典型的监督学习，失去泛化能力。

最后，VLM/VLA有CoT，模型是可以自我解释的，世界模型完全是黑盒子，没有任何可解释性，当车辆决策出现异常时很难追根溯源。此外，模型可能会被对抗攻击扰乱，使其对同一个路况输出完全不同的预测，这会对行车安全造成严重威胁。也就是说，世界模型无法迭代，只有相关性，没有确定性，彻底坠入炼丹的境界，增加训练数据可能会提高性能，也可能不会。

VLA最大的好处是它可以微调，可以用世界模型或者说基于模型的强化学习微调，它可以吸收世界模型的优点，而世界模型无法利用VLM/VLA的优点，当然VLM/VLA最大缺点是运算资源特别是存储带宽消耗比较多。

目前，几乎所有的VLA都有强化学习微调增强阶段。典型例子如博世上海研究院提出了IRL-VLA，一个全新的闭环强化学习方法，通过逆向强化学习奖励世界模型结合设计的VLA方法。具体可以看论文IRL-VLA: Training an Vision-Language-Action Policy via Reward World Model for End-to-End Autonomous Driving。

几种VLA对比

IRL-VLA框架

VLA和世界模型相互增强。这里需要指出Semantic reasoning使用了地平线的SENNA VLA，其基础模型是META的小羊驼。

机器人领域亦是如此，例如阿里达摩院的WorldVLA。详细可见论文：WorldVLA: Towards Autoregressive Action World Model。

WorldVLA框架

世界模型和VLA，VLA大概率胜出，不过这个VLA不是纯粹VLA，是结合了世界模型增强的VLA。

免责说明：本文观点和数据仅供参考，和实际情况可能存在偏差。本文不构成投资建议，文中所有观点、数据仅代表笔者立场，不具有任何指导、投资和决策意见。

#某新势力的智驾赛马

众所周之，智驾行业每一次技术路线的变更，都会引发一次对技术人才的洗牌。不过，洗牌洗的更多的是技术中层和大头兵，洗到智驾一号位身上的并不常见。

某新势力却出现了这种状况，智驾一号位的未来存疑，风头逐渐被手下高管盖过。

某新势力智驾部门出现了两派人马在PK赛马。一派是智驾一号位领衔的，主要是传统手写规则的人；另一派是世界模型负责人领衔的，主要是这两年的空降兵新人，包括前沿算法的人才以及产品总监等。

按理说世界模型负责人应该归智驾一号位领导和管理，但世界模型负责人却赢得了大BOSS的青睐，直接向大BOSS汇报，绕开了智驾一号位。

最核心的前沿算法在世界模型负责人手里，所以在内部的上升势头很猛。另外，资源投入都开始侧重于世界模型负责人。所以，在内部出现了“东升西落”的局面。

这家新势力智驾团队的人事架构在未来充满了不确定性。

在几年前，这家新势力就曾出现过智驾内部赛马的情况，当时也是两派人马相互竞争，也导致相互掣肘，算法研发推进的不顺。后来这家新势力又挖来了一个，也就是后来闻名业界的明星大牛。这一下内部就存在三股智驾研发的力量了。

不过，明星大牛来了之后，重新搭建技术框架，确定技术方案，很快做出来了在业界拔尖的成绩。明星大牛靠着拔尖的成绩赢得了全部信任，也彻底掌舵了这家新势力的智驾，而另外两派则是陆续走人。

后来明星大牛走了之后，推荐了现在的智驾一号位接班。不过，这几年该新势力在智驾上没了明星大牛时期的声势，没有掉队，也没有再拔尖。

这可能也是世界模型负责人受到青睐的原因，希望凭借前沿算法重新回到拔尖的地位。

#World model +

理想汽车智驾方案, 强化学习重建自动驾驶交互环境

01 前言

前文中，笔者已经比较详细地介绍了 V、L、A 模块，本帖介绍World Model + 强化学习打通自动驾驶闭环仿真链路。

自动驾驶达到人类驾驶水平是远远不够的，这项技术的使命是超越人类的驾驶水平，使得驾驶过程更加安全、可靠、轻松。通常大家认为强化学习是自动驾驶超越人类驾驶水平的核心技术，但是以往的一些尝试都没有取得比较明显的成果。理想认为这里主要有两个限制因素：

无法实现车端端到端训练：传统的车端架构不能实现端到端的可训练，强化学习做一种稀疏的弱监督过程，在当前的架构上无法实现高效无损的信息传递，强化学习的效果的大大降弱；
缺乏真实的自动驾驶交互环境：过去都是基于 3D 的游戏引擎，场景真实性不足，缺少真实的交互自动驾驶交互环境，而且场景建设效率低下且场景建设规模小，模型很容易学偏，发生 hack reward model，模型往往不可用。

VLA 模型的出现解决了上述第一个限制，第二个限制则依赖于真实、良好的 3D 交互环境数据做 3D 重建和生成。

纯生成模型的具备良好的泛化能力能够生成多变的场景，但也会出现不符合物理世界规律的幻觉，必然不满足自动驾驶场景的严格要求。纯重建模型依赖于真实数据呈现出 3D 场景，在大视角变幻下可能出现空洞和变形，也无法满足自动驾驶场景的需求。

理想的解决方案是：以真实数据的 3D 重建为基础，在不同的视角下添加噪音来训练模型的生成能力，从而恢复模糊的视角，这样的话生成模型就具有了多视角的生成能力。

自动驾驶场景重建和生成结合的相关技术细节可参见理想团队今年 CVPR2025 中的四篇论文：StreetCrafter、DrivingSphere、DriveDreamer4D 与 ReconDreamer，参考文献中贴出了链接。

本帖将以 DrivingSphere 为例来解析这个过程。

02 DrivingSphere

2.1 python 端推理 hbm

开环模拟在动态决策评估方面的问题：目前的开环模拟方式（例如根据公开数据集进行固定路线的路点预测），虽然能生成很逼真的传感器数据，但它没有动态反馈机制，无法评估自动驾驶系统在动态场景下的决策能力。此外，它的数据分布是固定的，数据种类不多，很难检验算法在不同情况下的适应能力。
闭环模拟在视觉真实性和传感器兼容性上的问题：传统的闭环模拟方法（例如基于交通流或游戏引擎的方法），虽然支持通过反馈来驱动多个智能体之间的交互，但存在两个主要问题：

它无法处理视觉传感器传来的信息，与基于视觉的端到端模型不太适配。
它输出的传感器数据与真实世界的情况差异较大，导致训练场景和验证场景存在“差异”，难以有效检验算法在输入真实数据时的表现。

2.2 创新点

1. 闭环仿真框架与 4D 世界表示：

a. DrivingSphere 是首个融合了几何先验信息的生成式闭环仿真框架。它构建 4D 世界表示（就是把静态背景和动态对象融合成占用网格），能生成逼真且可控制的驾驶场景。这样就解决了开环仿真没有动态反馈，以及传统闭环仿真视觉效果和真实数据有差距的问题。

b. 我们首次将文本提示和 BEV 地图结合起来，用于驱动 3D 占用生成。借助场景扩展机制，我们可以构建城市规模的静态场景，而且这个场景的区域可以无限扩大。

2. 多维度仿真能力突破；

3. 模块化设计与技术整合。

2.3 python 端推理 hbm模型结构

如上图所示，DrivingSphere 由动态环境组成模块（Dynamic Environment Composition）、视觉场景合成模块（Visual Scene Synthesis）和闭环反馈机制（Agent Interplay and Closed-Loop Simulation）组成，下面将逐一对这 3 个模块进行介绍。

2.3.1 动态环境组成模块

该模块构建包含静态背景与动态主体的 4D 驾驶世界，核心技术围绕 OccDreamer 扩散模型与动作动态管理展开。

将 4D 世界表示定义为：

其中为静态背景，为动态智能体，为智能体时空位置序列。

所有元素以占用网格（Occupancy Grid）形式存储，支持空间布局与动态智能体的统一建模。

OccDreamer 结构如下图所示，基于 BEV 地图与文本提示，生成城市级 3D 静态场景，解决传统方法依赖固定数据集的局限。其技术路径为 3 阶段架构，即：

占用标记器（Occupancy Tokenizer）：使用 VQVAE 将 3D 占用数据映射为潜在特征，通过组合损失函数（CE 损失、Lovász 损失）优化重建精度。
可控区域生成：结合 CLIP 文本嵌入与 ControlNet 驱动的 BEV 地图编码，通过扩散模型实现文本 - 几何联合控制的区域占用生成。
场景扩展机制：利用相邻区域重叠掩码作为条件约束，通过扩散模型迭代扩展场景，确保城市级空间一致性。

2.3.2 视觉场景合成模块

该模块将 4D 占用数据转换为高保真多视图视频，核心在于双路径条件编码与 ID 感知表示。

VideoDreamer 框架

VideoDreamer 的输入数据为 4D 驾驶世界和智能体增强嵌入；输出为多视图、多帧的高保真视频序列，支持自动驾驶系统的感知测试。其结构如下图所示：

主要由时空扩散 Transformer（ST-DiT）、条件编码机制、噪声处理与视频生成组成，下面进行逐一介绍。

1. 时空扩散 Transformer（ST-DiT）：作为核心网络架构，包含多个 ST-DiT 模块，每个模块集成。

视图感知空间自注意力（VSSA）：处理多视图特征的空间一致性，将视图、高度、宽度维度合并为序列，降低跨视图注意力的计算复杂度。
时间自注意力：捕捉视频帧间的时间依赖关系，确保动作连续性（如车辆运动轨迹平滑）。
交叉注意力：注入场景上下文与智能体身份信息（如），增强生成视频的语义准确性。
前馈网络（FFN）：特征非线性变换，提升表示能力。

2. 条件编码机制：

全局几何特征：通过 4D 占用编码器提取场景的整体空间结构（如道路布局、建筑物位置）。
智能体 ID 与位置编码：使用傅里叶编码将智能体的 3D 位置和唯一 ID 转换为特征向量，确保不同帧中同一智能体的外观一致性（如红色车辆在各视角中保持颜色和形状）。
文本描述嵌入：通过 T5 模型编码智能体的文本说明（如 “一群行人”），指导语义细节生成。

3. 噪声处理与视频生成流程：

输入随机噪声，通过扩散模型的去噪过程逐步生成视频帧。
自回归生成策略：基于前一帧生成后续帧，确保时间维度的连贯性（如车辆转弯动作的平滑过渡）。

2.3.3 闭环反馈机制

闭环反馈机制是 DrivingSphere 实现动态仿真的核心模块，通过自动驾驶代理与模拟环境的双向交互，形成 “代理动作 - 环境响应” 的实时循环，支持算法在真实场景下的验证。其技术核心与创新点为：

1. 双向动态反馈：

代理动作直接影响环境（如自我代理转向导致周边车辆避障），环境变化又反作用于代理感知，模拟真实交通中的交互复杂性。

2. 多智能体协同控制：

通过交通流引擎实现大规模智能体协同（如车流、行人集群），支持复杂场景（如十字路口通行、环岛绕行）的仿真。

3. 数据闭环验证：

支持 “仿真 - 测试 - 优化” 的迭代流程：通过闭环反馈暴露算法缺陷（如紧急制动误触发），指导模型改进。

03 参考文献

StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models
Balanced 3DGS: Gaussian-wise Parallelism Rendering with Fine-Grained Tiling
ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration
DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation
DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation

#QuantV2X

UCLA车路协同新模型：首个全量化V2X协同感知系统，延迟降低3.2倍，性能反超全精度模型！

车路协同（V2X）感知技术通过让车辆与车辆、车辆与路侧设施“对话”，极大地扩展了自动驾驶车辆的感知范围，解决了单车智能难以处理的遮挡问题。然而，学术界的研究大多在理想化的“象牙塔”中进行，专注于提升精度，却忽视了高昂的计算和通信成本，导致这些先进算法难以在资源受限的车载硬件上真正落地。

为了打破这一困境，来自 加州大学洛杉矶分校（UCLA）、威斯康星大学麦迪逊分校、北卡罗来纳州立大学 等多所顶尖高校的研究者们，共同推出了 QuantV2X —— 业界首个专为高效、可扩展部署而设计的全量化多智能体协同感知系统。该系统通过对模型和通信进行端到端量化，在保持高精度的同时，将系统延迟降低了 3.2倍，甚至在真实部署场景下实现了 +9.5 mAP 的惊人性能提升，为V2X技术的实际应用铺平了道路。

论文标题: QuantV2X: A Fully Quantized Multi-Agent System for Cooperative Perception
作者: Seth Z. Zhao, Huizhi Zhang, Zhaowei Li, Juntong Peng, Anthony Chui, Zewei Zhou, Zonglin Meng, Hao Xiang, Zhiyu Huang, Fujia Wang, Ran Tian, Chenfeng Xu, Bolei Zhou, Jiaqi Ma
机构: 加州大学洛杉矶分校; 威斯康星大学麦迪逊分校; 北卡罗来纳州立大学; 普渡大学; 加州大学伯克利分校; 德州大学奥斯汀分校
论文地址: https://arxiv.org/abs/2509.03704
项目地址: https://github.com/ucla-mobility/QuantV2X

V2X协同感知的“部署之痛”

当前的V2X协同感知研究存在一个核心矛盾：算法很美好，现实很骨感。大多数系统都基于全精度（FP32）模型，这带来了两大部署难题：

计算成本高: 全精度模型计算量巨大，车载GPU等边缘设备的算力和内存难以承受。
通信开销大: 智能体之间需要交换庞大的浮点型特征图（BEV Features），这会占用大量V2X通信带宽，并引入不可忽视的传输延迟。

这两个问题共同导致了极高的系统端到端延迟，使得现有系统在真实世界的动态环境中难以实现实时、可靠的感知。

QuantV2X：模型与通信的统一量化革命

QuantV2X直面部署挑战，提出了一个统一的、端到端的全量化策略，同时优化计算和通信两大瓶颈。

1. 模型量化：为车载计算减负

QuantV2X采用训练后量化（Post-Training Quantization, PTQ）技术，将预训练好的全精度模型（包括骨干网络、融合模块和检测头）转换为低比特（如INT8/INT4）的紧凑表示。这使得模型推理速度更快，内存占用更小，能够轻松部署在资源受限的边缘设备上。

2. 消息量化：为V2X通信瘦身

这是QuantV2X的另一个关键创新。它不再直接传输庞大的浮点特征图，而是引入了一个共享的码本（Codebook）。发送方智能体只需将自己的BEV特征量化为码本中的索引（Code Indices），然后将这些极其紧凑的索引（而非原始特征）发送出去。接收方则利用共享的码本，将收到的索引重建为高保真的特征图。这一过程极大地压缩了通信数据量，显著降低了传输延迟。

3. 对齐模块：量化后性能不降反升的秘密

简单地对模型和消息进行量化会导致严重的精度下降。QuantV2X成功的关键在于其设计的对齐模块（Alignment Module），该模块在量化校准过程中通过两个专门的损失函数来解决特征不一致的问题：

异构对齐损失 (L_hetero): 解决了不同智能体（如配备不同LiDAR的车辆和路侧单元）因传感器和模型异构性导致的特征分布不一致问题。
空间对齐损失 (L_spatial): 解决了量化过程可能引入的空间信息损失，确保检测框的定位精度。

正是这个对齐模块，使得QuantV2X在低比特量化下依然能保持甚至超越全精度模型的性能。

实验结果：真实世界指标下的全面胜利

论文的实验部分摒弃了传统的“唯精度论”，重点评估了系统在真实部署环境下的综合表现。

系统延迟：实现3.2倍的飞跃

在真实的V2X测试平台上，QuantV2X的端到端系统延迟相比全精度基线降低了 3.2倍。从下方的延迟分解图可以看出，无论是在本地推理、通信传输还是融合阶段，量化都带来了显著的速度提升。

系统性能：低延迟带来意外之喜

最令人惊讶的结果是，在考虑系统延迟的真实世界测试中，QuantV2X的性能不仅没有因为量化而下降，反而比全精度基线在mAP30指标上提升了 +9.5个点！这证明了在动态场景中，由低延迟带来的“信息新鲜度”优势，足以弥补甚至超越量化带来的微小精度损失，凸显了系统级优化的重要性。

可扩展性：在有限资源下发挥更大潜能

QuantV2X还展示了更强的可扩展性。如下图所示，在严格的GPU内存预算下（如4GB），全精度系统只能运行非常小的模型，而QuantV2X则可以部署更大、性能更强的模型，从而在有限的硬件资源下实现更高的感知能力。

写在最后

QuantV2X是V2X协同感知领域的一项里程碑式的工作。它首次系统性地解决了从模型到通信的端到端量化问题，并用详实的、面向真实部署的实验数据证明：一个全量化的V2X系统不仅是可行的，而且在系统级性能上可能优于传统的全精度系统。

CV君认为，这项研究的价值不仅在于其提出的具体技术方案，更在于它将社区的关注点从单纯追求精度指标拉回到了对效率、延迟和可部署性的系统级思考上。这对于推动V2X协同感知技术从实验室走向大规模实际应用具有至关重要的意义。

51c自动驾驶~合集20

#WaterSplatting

#仅需10ms的动态点云剔除方法

#GaussianOcc

#xGen-MM (BLIP-3):

#姿态估计

#OASIS SIM V3.0

#通过直接BEV特征注意力加速在线建图和行为预测

#AutoDrive-R²

#VLA和World Model世界模型，哪种自动驾驶路线会胜出？

#某新势力的智驾赛马

#World model +

#QuantV2X

#xxxx

#xxxx

#xxxx

#xxxx

#xxxx

#xxxx

#xxxx

#xxxx

网站公告

今日签到

热门文章

最新发布