51c自动驾驶~合集24-EW帮帮网

我自己的原文哦~ https://blog.51cto.com/whaosoft/11926510

#DriveArena

上海AI Lab又放大招：首个高保真闭环生成仿真平台

仓库链接：https://github.com/PJLab-ADG/DriveArena

项目链接：https://pjlab-adg.github.io/DriveArena/

DriveArena是首个为高保真度闭环模拟系统设计的驾驶agent，用于在真实场景中进行导航。DriveArena具有灵活、模块化的架构，可无缝交换其核心组件：交通管理器（Traffic Manager），这是一种能够在全球任何街道地图上生成逼真车流的交通模拟器；以及World Dreamer，这是一个具有无限自回归特性的高保真条件生成模型。这种强大的协同作用使任何能够处理现实世界图像的驾驶agent都能够在DriveArena的模拟环境中进行导航。agent通过世界梦想家生成的图像感知周围环境并输出轨迹。这些轨迹被输入到交通管理器中，以实现与其他车辆的逼真交互并产生新的场景布局。最后，最新的场景布局被传回World Dreamer，从而延续模拟循环。这一迭代过程促进了在高度逼真的环境中的闭环探索，为在不同且具挑战性的场景中开发和评估驾驶agent提供了一个宝贵的平台。DriveArena标志着在利用生成图像数据构建驾驶模拟平台方面取得了重大飞跃，为闭环自动驾驶提供了新见解。

DriveArena与现有自动驾驶方法和平台在交互性和逼真度方面的比较。交互性表示平台对车辆的控制程度，范围从开环、不可控闭环到可控闭环。逼真度反映了驾驶场景的真实性，从下到上分为：仅交通流、不现实场景、现实场景和多样场景。DriveArena独特地占据了右上方的位置，是第一个为所有车辆生成多样交通场景和环视图像并具有闭环可控性的模拟平台。

当前领域背景

近几十年来，自动驾驶（AD）算法取得了飞速发展，从模块化流程发展到端到端模型和知识驱动方法。尽管这些算法在各种基准测试中表现出色，但在使用回放的开环数据集进行评估时，仍存在重大挑战，掩盖了它们在现实世界中的有效性。公共数据集虽然提供了真实的驾驶数据、真实的传感器输入和交通行为，但本质上偏向于简单的直线行驶场景。在这种情况下，agent只需保持当前状态即可获得看似良好的表现，从而使在复杂情况下评估实际驾驶能力变得复杂。此外，在开环评估中，agent的当前决策不会影响执行或后续决策，这阻止了它反映现实世界驾驶场景中的累积错误。此外，记录的数据集具有静态特性，其他车辆无法对自车的行为做出反应，这进一步阻碍了在动态、真实世界条件下对自动驾驶算法进行评估。

如图1所示，这里对现有的自动驾驶方法和平台进行了分析，发现其中大多数都不足以进行高保真度的闭环模拟。理想情况下，作为具身智能的一部分，agent应在闭环环境中进行评估，在该环境中，其他agent会对自车（ego vehicle）的行为做出反应，而自车也会相应地接收到变化的传感器输入。然而，现有的模拟环境要么无法模拟传感器输入，要么与现实世界存在显著的领域差异，这使得算法难以无缝集成到现实世界中，从而对闭环评估构成了巨大挑战。我们认为，模拟器不仅应紧密反映现实世界的视觉和物理特性，还应在探索性闭环系统中促进模型的持续学习和进化，以适应各种复杂的驾驶场景。为实现这一目标，建立一个符合物理定律并支持交互功能的高保真模拟器至关重要。

因此，我们推出了DriveArena，这是一款基于条件生成模型的开创性闭环模拟器，用于训练和测试驾驶agent。具体而言，DriveArena提供了一个灵活的平台，可以与任何基于摄像头输入的驾驶agent集成。它采用模块化设计，自然支持每个模块的迭代升级。DriveArena由交通管理器（Traffic Manager）和基于自回归生成的“世界梦想家”（World Dreamer）组成。交通管理器可以在全球任何道路网络上生成逼真的交互式交通流，而World Dreamer是一个具有无限自回归能力的高保真条件生成模型。驾驶agent应根据“World Dreamer”生成的图像做出相应的驾驶动作，并将这些动作反馈给交通管理器以更新环境中车辆的状态。新的场景布局将返回给“World Dreamer”进行新一轮的模拟。这一迭代过程实现了驾驶agent与模拟环境之间的动态交互。具体贡献如下：

高保真闭环模拟：我们提出了首个针对自动驾驶的高保真闭环模拟器DriveArena，该模拟器能够提供逼真的周围图像，并与现有的基于视觉的驾驶agent无缝集成。它能够紧密反映现实世界的视觉和物理特性，使agent能够以闭环方式持续学习和进化，适应各种复杂的驾驶场景。

可控性和可扩展性：我们的交通管理器（Traffic Manager）可以动态控制场景中所有车辆的移动，并将道路和车辆布局输入给World Dreamer。“World Dreamer”利用条件扩散框架以稳定且可控的方式生成逼真的图像。此外，DriveArena支持使用全球任何城市的道路网络进行模拟，能够创建具有不同风格的各种驾驶场景图像。

模块化设计：驾驶agent（Driving Agent）、交通管理器（Traffic Manager）和World Dreamer通过网络接口进行通信，构建了一个高度灵活且模块化的框架。这种架构允许使用不同的方法替换每个组件，而无需特定的实现。作为这些参与者的竞技场，DriveArena促进了基于视觉的自动驾驶算法和驾驶场景生成模型的全面测试和改进。

DriveArena框架

如图2所示，提出的DriveArena框架包含两个关键组件：一个是作为后端物理引擎的交通管理器（Traffic Manager），另一个是作为现实世界图像渲染器的World Dreamer。与传统方法不同，DriveArena不依赖于预建的数字资产或重建的3D道路模型。相反，交通管理器能够适应OpenStreetMap（OSM）格式中任何城市的道路网络，这些网络可以直接从互联网下载。这种灵活性使得在不同城市布局上进行闭环交通模拟成为可能。

交通管理器接收自动驾驶agent输出的自车轨迹，并管理所有背景车辆的移动。与依赖扩散模型来进行图像生成和车辆运动预测的世界模型方法不同，我们的交通管理器采用显式的交通流生成算法。这种方法能够生成更广泛的不常见且可能不安全的交通场景，同时也便于实时检测车辆之间的碰撞。

“World Dreamer”能够生成逼真的camera图像，这些图像与交通管理器的输出精确对应。此外，它还允许用户自定义提示来控制生成图像的各种元素，如街景风格、一天中的时间和天气状况，从而增强了生成场景的多样性。具体来说，它采用了一种基于扩散的模型，该模型利用当前的地图和车辆布局作为控制条件来生成环视图像。这些图像作为端到端驾驶agent的输入。鉴于DriveArena的闭环架构，扩散模型需要保持生成图像中的跨视图一致性和时间一致性。

当前帧生成的多视图图像被输入到端到端自动驾驶agent中，该agent可以输出自车（ego vehicle）的运动情况。随后，将规划的自车轨迹发送给DriveArena进行下一步的模拟。当自车成功完成整个路线、发生碰撞或偏离道路时，模拟结束。完成后，DriveArena执行全面的评估过程，以评估驾驶agent的能力。

值得注意的是，DriveArena采用了分布式模块化设计。交通管理器（Traffic Manager）、World Dreamer和自动驾驶（AD）agent通过网络使用标准化接口进行通信。因此，DriveArena并不强制要求World Dreamer或自动驾驶agent的具体实现方式。我们的框架旨在为这些“参与者”提供一个“竞技场”，促进端到端自动驾驶算法和真实驾驶场景生成模型的全面测试和改进。

方法介绍1）Traffic Manager

大多数现有的真实驾驶模拟器依赖于公共数据集中有限的布局，缺乏动态环境的多样性。为了应对这些挑战，我们利用LimSim作为底层交通管理器来模拟动态交通场景，并为后续的环境生成生成道路和车辆布局。LimSim还提供了一个用户友好的前端图形用户界面（GUI），该界面直接显示鸟瞰图（BEV）地图以及来自World Dreamer和驾驶agent的结果。

我们的交通管理器能够实现交通流中多辆车的交互式模拟，包括全面的车辆规划和控制。我们采用了一个层次化的多车决策和规划框架，该框架对流中的所有车辆进行联合决策，并通过高频规划模块迅速响应动态环境。该框架还融入了合作因子和轨迹权重集，在社交和个人层面为交通中的自动驾驶车辆引入了多样性。

此外，动态模拟器支持从OpenStreetMap获取任何城市的各种自定义高清地图，便于构建多样化的道路图以进行便捷的模拟。交通管理器控制所有背景车辆的移动。对于主体车辆（即自动驾驶车辆本身），提供两种不同的模拟模式：开环和闭环。在闭环模式下，驾驶代理为主体车辆进行规划，交通管理器则使用agent输出的轨迹来相应地控制主体车辆。在开环模式下，驾驶agent生成的轨迹并不实际用于控制主体车辆；相反，交通管理器以闭环方式保持控制。

2）World Dreamer

与最近使用神经辐射场（Neural Radiance Fields, NeRF）和3DGS（3D Gaussian Splatting）从记录的视频中重建环境的自动驾驶生成方法不同，我们设计了一个基于扩散的World Dreamer。它利用来自交通管理器的地图控制条件和车辆布局来生成几何和上下文上准确的驾驶场景。框架具有以下几个优势：（1）更好的可控性。生成的场景可以通过交通管理器中的场景布局、文本提示和参考图像来控制，以捕捉不同的天气条件、光照和场景风格。（2）更好的可扩展性。框架可以适应各种道路结构，而无需事先对场景进行建模。理论上，通过利用OpenStreetMap的布局，支持为世界上任何城市生成驾驶场景。

在图3中展示了基于扩散的“World Dreamer”。在稳定的扩散流程的基础上，“World Dreamer”利用了一个有效的条件编码模块，该模块可接受包括地图和车辆布局、文本描述、相机参数、自我姿态和参考图像在内的多种条件输入，以生成逼真的环视图像。考虑到对于驾驶agent而言，确保跨不同视图和时间跨度的合成场景一致性至关重要，这里借鉴了MagicDrive的灵感，集成了一个跨视图注意力模块，以保持不同视图之间的一致性。此外，采用了一种图像自回归生成范式来强制时间一致性。这种方法使“World Dreamer”不仅能够最大限度地保持生成视频的时间一致性，还能在无限流中生成任意长度的视频，为自动驾驶模拟提供了极大的支持。

条件编码。先前的工作将鸟瞰图（BEV）布局作为条件输入来控制扩散模型的输出，这增加了网络学习生成几何和上下文准确的驾驶场景的难度。本工作提出了一种新的条件编码模块来引入更多的指导信息，这有助于扩散模块生成高保真度的环视图像。具体来说，除了使用与MagicDrive类似的条件编码器对每个视图的相机姿态、文本描述、3D目标边界框和BEV地图布局进行编码外，还明确地将地图和目标布局投影到每个相机视图上，以生成更准确的车道和车辆生成指导的布局画布。具体来说，文本嵌入是通过使用CLIP文本编码器对文本描述进行编码获得的。每个相机的参数（其中K、R、T分别代表相机内参、旋转和平移）和3D边界框的8个顶点通过傅里叶嵌入编码为和。2D BEV地图网格使用与MagicDrive中相同的编码方法获得嵌入。然后，将高清地图和3D边界框的每个类别分别投影到图像平面上，以获得地图canvas和边界框canvas。这些canvases被连接起来以创建layout canvas。最后，通过条件编码网络对layout canvas进行编码，得到最终的特征。

此外，这里还引入了一个参考条件来提供外观和时间一致性指导。在训练过程中，随机从过去的L帧中提取一帧作为参考帧，并使用预训练的CLIP模型从多视图图像中提取参考特征。编码后的参考特征隐含了语义上下文，并通过交叉注意模块整合到条件编码器中。为了使扩散模型能够感知到自车的运动变化，还将自车相对于参考帧的姿态编码到条件编码器中，以捕捉背景的运动变化趋势。相对姿态嵌入通过傅里叶嵌入进行编码。通过整合上述控制条件，我们可以有效地控制周围图像的生成。

自回归生成。为了促进在线推理和流式视频生成，同时保持时间一致性，我们开发了一个自回归生成流程。在推理阶段，之前生成的图像和相应的相对自车姿态被用作参考条件。这种方法引导扩散模型生成当前周围图像，以增强一致性，确保与先前生成的帧之间的过渡更加平滑和连贯。

本文中我们设计的只是World Dreamer的一个简单实现。我们还验证了将自回归生成扩展到多帧版本（使用多个过去帧作为参考并输出多帧图像）以及添加额外的时间模块可以提高时间一致性。

3）Driving Agent

最近的工作已经证明了在公共数据集上进行开环评估以证明驾驶agent规划行为的挑战，这主要是由于所呈现的驾驶场景过于简单。虽然一些研究已经使用如CARLA等模拟器进行了闭环评估，但这些模拟与现实世界的动态环境之间仍存在外观和场景多样性的差异。为了弥补这一差距，DriveArena提供了一个真实的模拟平台，并配备了相应的接口，供基于camera的驾驶agent进行更全面的评估，包括开环和闭环测试。此外，通过改变输入条件（如道路和车辆布局），DriveArena可以生成极端情况，并促进这些驾驶agent在分布外场景下的评估。不失一般性，我们选择了一个具有代表性的端到端驾驶agent，即UniAD在DriveArena中进行开环和闭环测试。UniAD利用周围图像来预测自车和其它agent车辆的运动轨迹，这可以无缝地与我们动态模拟器的API集成以进行评估。此外，感知输出（如3D检测和地图分割）有助于提升我们环境中生成场景的现实性验证。

4）自车控制模式与评估指标

DriveArena 本质上支持驾驶agent的“闭环”仿真模式。即，系统采用agent在每个时间步长输出的轨迹，基于该轨迹更新自车的状态，并模拟背景车辆的动作。随后，它生成下一个时间步长的多视图图像，从而保持连续的反馈闭环。此外，认识到一些自动驾驶agent在开发过程中可能无法进行长期闭环仿真，DriveArena 还支持“开环”仿真模式。在这种模式下，交通管理器将接管自车的控制，而自动驾驶代理输出的轨迹将被记录下来以供后续评估。

在开环和闭环模式下，从结果导向的角度全面评估自动驾驶agent的性能至关重要。受 NAVSIM 和 CARLA 自动驾驶排行榜的启发，DriveArena 采用两种评估指标：PDM 分数（PDMS）和 Arena 驾驶分数（ADS）。

PDMS（路径偏差和速度匹配分数），最初由 NAVSIM提出，用于评估每个时间步长输出的轨迹。遵循 PDMS 的原始定义，该定义综合了以下子分数：

其中，惩罚包括与道路使用者无碰撞（NC）和可行驶区域合规性（DAC），以及包括自我进展（EP）、碰撞时间（TTC）和舒适度（C）的加权平均数。我们对DriveArena进行了小幅修改：在NC评分中，我们不区分“过错方”碰撞；在EP评分中，我们使用交通管理器的自车路径规划器作为参考轨迹，而不是预测驾驶员模型。在模拟结束时，将所有模拟帧的最终PDM分数进行平均。

对于开环模拟，PDMS直接作为自动驾驶agent的评估指标。然而，对于在“闭环”模拟模式下运行的驾驶agent，这里采用了一个更全面的指标，称为Arena Driving Score (ADS)，该分数结合了轨迹PDMS和路线完成度：

其中，Rc ∈ [0, 1] 表示路线完成度，定义为agent完成的路线距离百分比。由于“闭环”模拟会在agent与其他道路使用者发生碰撞或偏离道路时终止，因此ADS为区分agent的驾驶安全性和一致性提供了一个合适的指标。

实验对比

图5. 不同提示和参考图像对相同场景影响的展示。该图展示了DriveArena为同一个30秒模拟序列生成的四个不同的图像序列，每个序列都使用了不同的提示和参考图像。所有序列都严格遵循给定的道路结构和车辆控制条件，保持跨视图的一致性。值得注意的是，这四个序列在天气和光照条件上呈现出显著的差异，但在整个30秒的过程中都始终如一地保持了各自独特的风格。点击此处查看视频演示。

#AdaOcc

纽约大学和博世最新：自适应分辨率占用预测

论文链接：https://arxiv.org/pdf/2408.13454

代码链接：https://github.com/ai4ce/Bosch-NYU-OccupancyNet/

本文介绍了AdaOcc：自适应分辨率占用预测。在复杂的城市场景中实现自动驾驶需要3D感知既全面又精确。传统的3D感知方法着重于目标检测，导致缺乏环境细节信息的稀疏表示。最近的方法估计车辆周围的3D占用，以获得更全面的场景表示。然而，稠密的3D占用预测提高了计算需求，给效率和分辨率之间的平衡带来挑战。高分辨率占用栅格提供了准确性，但是需要大量的计算资源，而低分辨率栅格效率高，但是缺乏细节信息。为了解决这一难题，本文引入了AdaOcc，这是一种新的自适应分辨率、多模态的预测方法。本文方法将以目标为中心的3D重建和整体占用预测集成到一个框架内，仅在感兴趣区域（ROIs）内进行高度精细且精确的3D重建。这些高度精细的3D表面以点云表示，因此其精度不受占用地图的预定义栅格分辨率所限制。本文在nuScenes数据集上进行全面实验，证明了相比于现有方法具有显著改进。在近距离场景中，本文方法在IOU上超过先前的基线13%，在Hausdorff距离上超过了40%。总之，AdaOcc提供了更通用、更有效的框架，能够在各种驾驶场景中提供准确的3D语义占用预测。

本文的贡献总结如下：

1）本文提出了一种多模态自适应分辨率方法，在关键区域中提供了三种高精度的输出表示，同时维持实时应用的效率；

2）本文开发了一种有效的联合训练范式，可以增强占用预测和目标折叠分支之间的协同作用；

3）本文方法在nuScenes数据集上展现出卓越的精度，特别是在需要精确行为的近距离场景中表现出色。

总结

总之，本文所提出的方法提供了一种多模态自适应分辨率方法，在关键区域中提供了三种具有高精度表面的输出表示，同时确保了实时应用的效率。此外，本文还开发了一种有效的联合训练范式，以增强占用和折叠网络之间的协同作用，从而提高近距离占用预测的性能。本文方法在nuScenes数据集上展现出卓越的精度，突出了对精细表面重建的注重。

局限性：本文发现，联合训练方法没有显著提高目标检测任务的质量。需要进一步研究粗略占用预测和目标表面重建之间的相互作用，以提高不同表示之间的一致性。此外，通过更高级的并行化设计，能够进一步优化统一框架的效率。

#端到端引发的权力重新分配

每当一个组织进行架构调整时，都将引发权力在不同高管之间重新分配，有人得意也有人失意。

这是亘古不灭的现象，某新势力的自动驾驶业务也是如此。

今年上半年，某新势力对自动驾驶业务的组织架构进行了大调整。在这波调整中，除了智驾一号位之外最核心的感知负责人和规控负责人，两人的命运处境迥异。

这家新势力的感知负责人成了“得意者”。全新的组织架构是去模块化，砍掉了感知部门、规控部门，合并成立了大模型部门，全面负责算法的研发。这个职位可谓是除了智驾一号位之外，职能权力和业务权限最大的了。原感知负责人担任大模型部门的leader，从原先只负责感知的研发到负责全部算法，可谓是赢家。

而规控负责人则成了“失意者”。在此之前权限很大、负责的东西很多，除了负责规控，还负责这家新势力平台的行车方案。这次调整被安排为负责车端的量产，远离了最核心的算法研发。

这位规控负责人的权限可谓是被大幅削减。

一位业界朋友表示，这位规控负责人和智驾一号位本来就一直不对付，双方的关系很不好，所以这样的人事安排一点都不意外。

这家新势力自动驾驶团队最核心的就是智驾一号位、感知负责人、规控负责人。其中，智驾一号位和感知负责人的关系最好，两人之前不仅在同一家公司共事，而且还是智驾一号位把其带到这家新势力的，可谓嫡系“老铁”。

相比上述两位的关系，规控负责人就是“外人”了。

另外，智驾一号位对规控的研发和量产不满意，认为拖慢了整体智驾方案的进度。而且规控负责人的脾气也大，在研发和量产过程中和智驾一号位有矛盾的时候，双方经常是吵架。

总之，智驾一号位和规控负责人的关系是：用的不顺手、关系也不近。不过，规控负责人向上管理的能力很强，这就导致智驾一号位虽然不满意但也拿不掉。

而由端到端引发的组织架构调整正好成了一个契机，打乱团队重新分配业务权限，智驾一号位就可以按照自己意愿来安排人事，感知和规控全交给用的顺手的自己人。

据悉，这位规控负责人也在看外部机会了，如果外部有好的机会就可能离职走人了。

近几年智驾团队的管理一直是行业存在的老大难问题。智驾领域的技术大牛一般都是理工男学霸出身，理工男学霸一般心气高，再加上行业火热在人力市场上被追捧，导致比较孤傲，管理起来不容易。

新势力的智驾团队总体上还是努力做事的，因为有华为这样的“鲇鱼”存在，大家就得“你追我赶”的竞争。而在传统主机厂的智驾团队则是另外一副“面貌”，许多被新势力车企淘汰下来的所谓的“技术大牛”在传统主机厂找到了自己的“一片开阔天地“。

#Mamba和自动驾驶结合会是未来的趋势么

近一个月Mamba文章集中爆发，基于之前的发展，已经开始大规模应用在相关的下游任务上。今天就带大家盘点一下Mamba在自动驾驶相关任务中的应用，涉及3D检测、点云分割、跟踪、轨迹预测、Occ、深度估计、检测等多个方向！

从整体上看，Mamba在序列任务中的应用更多；性能方面还未能超越Transformer的方法，但优势在于速度和精度的balance，值得未来更进一步的探索！

MTMamba++: Enhancing Multi-Task Dense Scene Understanding via Mamba-Based Decoders

论文链接：https://arxiv.org/abs/2408.15101v1
代码链接：https://github.com/EnVision-Research/MTMamba

港科技的工作：多任务密集场景理解为多个密集预测任务训练模型，具有广泛的应用场景。捕捉长期依赖性和增强跨任务交互对于多任务密集预测至关重要。本文提出了一种基于Mamba解码器的多任务场景理解新架构MTMamba++。它包含两种类型的核心块：自任务Mamba（STM）块和跨任务Mama（CTM）块。STM通过利用状态空间模型来处理远程依赖性，而CTM显式地对任务交互进行建模，以促进跨任务的信息交换。我们设计了两种类型的CTM块，即F-CTM和S-CTM，分别从特征和语义的角度增强跨任务交互。在NYUDv2、PASCAL Context和Cityscapes数据集上的实验表明，MTMamba++的性能优于基于CNN和Transformer的方法。

Enhanced Prediction of Multi-Agent Trajectories via Control Inference and State-Space Dynamics

论文链接：https://arxiv.org/abs/2408.12609

在自动系统领域，准确预测附近车辆和行人的轨迹对于确保安全和运营效率至关重要。本文介绍了一种基于状态空间动态系统建模的轨迹预测新方法，该方法为智能体赋予了具有有形物理含义的模型。为了提高动态系统中状态估计的精度，本文还提出了一种新的控制变量建模技术。该技术利用了一种新引入的模型，称为“Mixed Mamba”，来推导初始控制状态，从而提高了这些变量的预测精度。此外，所提出的方法巧妙地将图神经网络与状态空间模型相结合，有效地捕捉了多智能体交互的复杂性。这种组合为预测一系列场景中的多智能体轨迹提供了一个强大且可扩展的框架。综合评估表明，该模型在各种指标和数据集上优于几个既定的基准，突显了其在推进自动驾驶系统轨迹预测方面的巨大潜力。

MambaOcc: Visual State Space Model for BEV-based Occupancy Prediction with Local Adaptive Reordering

论文链接：https://arxiv.org/abs/2408.11464v1
项目主页：https://github.com/Hub-Tian/MambaOcc

中科院&美团的工作：占用率预测引起了人们的广泛关注，并在自动驾驶系统的发展中显示出巨大的优势。占用预测在几何和语义信息方面带来的细粒度环境表示，促进了开放场景下的一般感知和安全规划。然而，在利用基于体素的三维密集表示和基于Transformer的二次注意力的现有工作中，它也带来了高昂的计算成本和繁重的参数。为了应对这些挑战，本文提出了一种基于Mamba的占用预测方法（MambaOcc），该方法采用BEV特征来减轻3D场景表示的负担，并采用线性Mamba风格的注意力来实现高效的远程感知。此外，为了解决Mamba对序列顺序的敏感性，我们提出了一种具有可变形卷积的局部自适应重排序（LAR）机制，并设计了一种由卷积层和Mamba组成的混合BEV编码器。对Occ3D nuScenes数据集的广泛实验表明，MambaOcc在准确性和计算效率方面都达到了最先进的性能。例如，与FlashOcc相比，MambaOcc提供了更优的结果，同时将参数数量减少了42%，计算成本减少了39%。

MV-MOS: Multi-View Feature Fusion for 3D Moving Object Segmentation

论文链接：https://arxiv.org/abs/2408.10602v1
开源链接：https://github.com/Chengjt1999/MV-MOS

南方科技大学&华南师范团队的工作：有效地总结密集的3D点云数据并提取运动目标的运动信息（运动目标分割，MOS）对于自动驾驶和机器人应用至关重要。如何有效地利用运动和语义特征，避免3D-2D投影过程中的信息丢失，仍然是一个关键挑战。本文通过融合点云不同二维表示的运动语义特征，提出了一种新的多视图MOS模型（MV-MOS）。为了有效地利用互补信息，所提出模型的运动分支结合了鸟瞰图（BEV）和距离图（RV）表示的运动特征。此外引入了一个语义分支，以提供运动对象的补充语义特征。最后，利用Mamba模块将语义特征与运动特征融合，为运动分支提供有效指导。我们通过综合实验验证了所提出的多分支融合MOS框架的有效性，我们提出的模型在SemanticKITTI基准上优于现有的最先进模型。

MambaEVT: Event Stream based Visual Object Tracking using State Space Model

论文链接：https://arxiv.org/abs/2408.10487
开源链接：https://github.com/Event-AHU/MambaEVT

近年来，基于事件相机的视觉跟踪因其独特的成像原理和低能耗、高动态范围和高时间分辨率的优点而受到越来越多的关注。由于使用视觉Transformer和静态模板进行目标定位，当前基于事件的跟踪算法正逐渐遇到性能瓶颈。本文提出了一种新的基于Mamba的视觉跟踪框架，该框架采用线性复杂度的状态空间模型作为骨干网络。搜索区域和目标模板被馈送到视觉Mamba网络中，以同时进行特征提取和交互。搜索区域的输出标记将被输入跟踪头进行目标定位。更重要的是，我们考虑使用Memory Mamba网络在跟踪框架中引入动态模板更新策略。通过考虑目标模板库中样本的多样性并对模板存储模块进行适当调整，可以集成更有效的动态模板。动态和静态模板的有效组合使我们基于Mamba的跟踪算法能够在多个大规模数据集（包括EventVOT、VisEvent和FE240hz）上实现精度和计算成本之间的良好平衡。

OccMamba: Semantic Occupancy Prediction with State Space Models

论文链接：https://arxiv.org/abs/2408.09859

中科大&上海AI Lab等团队的工作：由于存在大量占用单元、严重遮挡、有限的视觉线索、复杂的驾驶场景等因素，训练用于语义占用预测的深度学习模型具有挑战性。最近的方法通常采用基于Transformer的架构，因为它们在学习输入条件权重和远程关系方面具有很强的能力。然而基于Transformer的网络因其二次计算复杂性而让人望而却步，严重削弱了它们在语义占用预测中的有效性和部署。受Mamba架构的全局建模和线性计算复杂性的启发，我们提出了第一个基于Mamba的语义占用预测网络，称为OccMamba。然而，由于语言域和3D域之间固有的域差距，将Mamba架构直接应用于占用预测任务会产生不令人满意的性能。为了缓解这个问题，我们提出了一种简单而有效的3D-1D重排序操作，即高度优先的2D Hilbert展开。它可以最大限度地保留点云的空间结构，并促进曼巴块的处理。我们的OccMamba在三个流行的占用率预测基准上达到了最先进的性能，包括Openccupancy、SemanticKITTI和SemanticPOSS。值得注意的是，在Openccupancy上，我们的OccMamba分别比之前最先进的Co-Occ高出3.1%的IoU和3.2%的mIoU。

MambaTrack: A Simple Baseline for Multiple Object Tracking with State Space Model

论文链接：https://arxiv.org/abs/2408.09178

国防科大的工作：通过检测进行跟踪一直是多目标跟踪（MOT）领域的主流范式。这些方法通常依赖于卡尔曼滤波器来估计目标的未来位置，假设目标是线性运动的。然而，在跟踪舞蹈和体育等场景中表现出非线性和多样化运动的目标时，它们却做得不够。此外，在MOT中使用基于学习的运动预测器的关注有限。为了应对这些挑战，我们求助于探索数据驱动的运动预测方法。受状态空间模型（SSM）（如Mamba）在具有近线性复杂度的长期序列建模中的巨大期望的启发，我们引入了一种名为Mamba-motion Predictor（MTP）的基于Mamba的运动模型。MTP旨在模拟舞者和运动员等目标的复杂运动模式。具体来说，MTP将对象的时空位置动态作为输入，使用双Mamba编码层捕获运动模式，并预测下一个运动。在现实世界中，对象可能会因遮挡或运动模糊而丢失，导致其轨迹过早终止。为了应对这一挑战，我们进一步扩大了MTP的应用范围。我们以自回归的方式使用它，通过利用它自己的预测作为输入来补偿缺失的观测值，从而有助于更一致的轨迹。我们提出的跟踪器MambaTrack在Dancetrack和SportsMOT等基准测试中表现出了先进的性能，这些基准测试的特点是复杂的运动和严重的遮挡。

RGBT Tracking via All-layer Multimodal Interactions with Progressive Fusion Mamba

论文链接：https://arxiv.org/abs/2408.08827v1

安徽大学的工作：现有的RGBT跟踪方法通常设计各种交互模型来执行每一层的跨模态融合，但由于计算量大，无法执行所有层之间的特征交互，这在鲁棒的多模态表示中起着至关重要的作用。为了解决这个问题，本文提出了一种名为AINet的新型全层多模态交互网络，该网络在渐进融合Mamba中对所有模态和层进行高效和有效的特征交互，以实现鲁棒的RGBT跟踪。尽管已知不同层中的模态特征包含不同的线索，但由于在平衡交互能力和效率方面存在困难，在每一层中构建多模态交互总是具有挑战性的。同时，考虑到RGB和热模态之间的特征差异在一定程度上反映了它们的互补信息，我们设计了一种基于差异的融合曼巴（DFM），以实现具有线性复杂度的不同模态的增强融合。当与所有层的特征交互时，涉及大量的令牌序列（本研究中为3840个令牌），因此计算负担很大。为了解决这个问题，我们设计了一个Order动态融合Mamba（OFM），通过动态调整Mamba中不同层的扫描顺序来执行所有层的高效和有效的特征交互。对四个公共RGBT跟踪数据集的广泛实验表明，AINet在现有最先进的方法中取得了领先的性能。

DRAMA: An Efficient End-to-end Motion Planner for Autonomous Driving with Mamba

论文链接：https://arxiv.org/abs/2408.03601v2
项目主页：https://chengran-yuan.github.io/DRAMA/

新加坡国立大学的工作：运动规划是一项具有挑战性的任务，在高度动态和复杂的环境中生成安全可行的轨迹，形成自动驾驶汽车的核心能力。在本文中提出了DRAMA，这是第一个基于Mamba的自动驾驶汽车端到端运动规划器。DRAMA融合了相机、特征空间中的LiDAR鸟瞰图图像以及自车状态信息，以生成一系列未来的自车轨迹。与传统的基于Transformer的序列长度二次注意力复杂度方法不同，DRAMA能够实现计算强度较低的注意力复杂度，显示出处理日益复杂的场景的潜力。DRAMA利用本文提出的Mamba融合模块，高效地融合了相机和激光雷达的功能。此外，我们引入了一个Mamba Transformer解码器，可以提高整体规划性能。该模块普遍适用于任何基于Transformer的模型，特别是对于具有长序列输入的任务。我们进一步引入了一种新的特征状态丢弃，在不增加训练和推理时间的情况下提高了规划器的鲁棒性。广泛的实验结果表明，与基线Transfuser相比，DRAMA在NAVSIM数据集上实现了更高的精度，参数更少，计算成本更低。

MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking

论文链接：https://arxiv.org/abs/2408.07889

大连理工的工作：现有的RGB-T跟踪算法通过利用Transformer架构的全局交互能力和广泛的预训练模型取得了显著进展。尽管如此，这些方法主要采用图像对外观匹配，并面临着注意力机制固有的高二次复杂度的挑战，导致时间信息的利用受到限制。受最近出现的状态空间模型Mamba的启发，该模型以其令人印象深刻的长序列建模能力和线性计算复杂性而闻名，这项工作创新性地提出了一个基于纯Mamba的框架（MambaVT），以充分利用时空上下文建模进行鲁棒的可见热跟踪。具体而言，我们设计了long-range跨帧集成组件，以全局适应目标外观变化，并引入短期历史轨迹提示，根据局部时间位置线索预测后续目标状态。广泛的实验表明，视觉Mamba在RGB-T跟踪方面具有巨大的潜力，MambaVT在四个主流基准上实现了最先进的性能，同时需要更低的计算成本。我们的目标是将这项工作作为一个简单而强大的基线，刺激该领域的未来研究。

MonoMM: A Multi-scale Mamba-Enhanced Network for Real-time Monocular 3D Object Detection

论文链接：https://arxiv.org/abs/2408.00438v1

重庆理工的工作：基于变换器的单目3D对象检测技术的最新进展在从单个2D图像推断3D属性方面表现出了卓越的性能。然而，大多数现有方法依赖于资源密集型的转换器架构，这通常会导致处理长序列数据时计算效率和性能的显著下降。为了应对这些挑战并推进单目3D目标检测技术，我们提出了一种创新的网络架构MonoMM，一种多尺度Mamba-Enhanced用于实时单目3D目标检测的网络。这种设计良好的架构主要包括以下两个核心模块：聚焦多尺度融合（FMF）模块，该模块侧重于以较低的计算资源消耗有效地保存和融合来自不同尺度的图像信息。通过精确调节信息流，FMF模块增强了模型对尺度变化的适应性和鲁棒性，同时保持了图像细节。深度感知特征增强Mamba（DMB）模块：它利用图像特征的融合特征作为输入，并采用一种新颖的自适应策略来全局整合深度信息和视觉信息。这种深度融合策略不仅提高了深度估计的准确性，而且提高了模型在不同视角和环境条件下的性能。此外，MonoMM的模块化设计提供了高度的灵活性和可扩展性，便于根据特定的应用需求进行调整和优化。在KITTI数据集上进行的大量实验表明，我们的方法优于以前的单目方法，实现了实时检测。

LION: Linear Group RNN for 3D Object Detection in Point Clouds

论文链接：https://arxiv.org/abs/2407.18232v1
代码链接：https://happinesslz.github.io/projects/LION/

华科&港大&百度的工作：在大规模3D点云感知任务（如3D对象检测）中，变换器的优势受到建模远程关系时二次计算成本的限制。相比之下，线性RNN具有较低的计算复杂度，适用于长距离建模。为了实现这一目标，我们提出了一种基于LInear grOup RNN（即对分组特征执行线性RNN）的简单有效的基于窗口的框架，用于精确的3D对象检测，称为LION。关键属性是允许在比基于变换器的方法大得多的组中进行足够的特征交互。然而，由于线性群RNN在处理空间建模方面的局限性，将其有效应用于高度稀疏点云中的3D对象检测并非易事。为了解决这个问题，我们简单地引入了一个3D空间特征描述符，并将其集成到线性组RNN算子中，以增强它们的空间特征，而不是盲目地增加体素特征的扫描顺序。为了进一步解决高度稀疏点云中的挑战，我们提出了一种3D体素生成策略，利用线性群RNN作为自回归模型的自然属性来加密前景特征。大量实验验证了所提出的组件的有效性以及我们的LION在不同线性群RNN算子（包括Mamba、RWKV和RetNet）上的泛化能力。此外，值得一提的是，我们的LION Mamba在Waymo、nuScenes、Argoverse V2和ONCE数据集上达到了最先进的水平。最后但同样重要的是，我们的方法在小型但流行的KITTI数据集上支持各种高级线性RNN算子（例如RetNet、RWKV、Mamba、xLSTM和TTT），以便快速体验我们基于线性RNN的框架。

Serialized Point Mamba: A Serialized Point Cloud Mamba Segmentation Model

论文链接：https://arxiv.org/abs/2407.12319v1

湖南大学的工作：点云分割对于机器人视觉感知和环境理解至关重要，可以实现机器人导航和3D重建等应用。然而，处理点云数据的稀疏和无序特性给高效和准确的分割带来了挑战。受Mamba模型在自然语言处理中的成功启发，我们提出了序列化点云Mamba分段模型（序列化点Mamba），该模型利用状态空间模型动态压缩序列，减少内存使用，提高计算效率。Serialized Point Mamba将局部全局建模功能与线性复杂性相结合，在室内和室外数据集上实现了最先进的性能。这种方法包括分阶段点云序列学习、网格池和条件位置编码等新技术，促进了不同点云任务的有效分割。我们的方法在Scannet上实现了76.8 mIoU，在S3DIS上实现了70.3 mIoU。在Scannetv2实例分段中，它记录了40.0 mAP。它还具有最低的延迟和合理的内存使用，使其成为基于曼巴的点语义分割模型中的SOTA。

Voxel Mamba: Group-Free State Space Models for Point Cloud based 3D Object Detection

论文链接：https://arxiv.org/abs/2406.10700v2

港理工&中科院等团队的工作：基于序列化的方法对3D体素进行序列化，并在输入到Transformers之前将其分组为多个序列，已证明其在3D对象检测中的有效性。然而，将3D体素序列化为1D序列将不可避免地牺牲体素的空间接近度。由于具有特征大小的Transformer的二次复杂性，通过现有的基于序列化的方法扩大组大小很难解决这个问题。受状态空间模型（SSM）最新进展的启发，我们提出了一种体素SSM，称为体素曼巴，它采用无组策略将整个体素空间序列化为单个序列。SSM的线性复杂性鼓励了我们的无组设计，减轻了体素空间接近度的损失。为了进一步增强空间邻近性，我们提出了一种双尺度SSM块来建立层次结构，在1D序列化曲线中实现更大的感受野，并在3D空间中实现更完整的局部区域。此外，我们通过位置编码在无组框架下隐式地应用窗口分割，这通过编码体素位置信息进一步增强了空间接近度。我们在Waymo Open Dataset和nuScenes数据集上的实验表明，Voxel Mamba不仅比最先进的方法具有更高的精度，而且在计算效率方面也显示出显著的优势。

Mamba YOLO: SSMs-Based YOLO For Object Detection

论文链接：https://arxiv.org/abs/2406.05835v1
代码链接：https://github.com/HZAI-ZJNU/Mamba-YOLOv1

在深度学习技术快速发展的推动下，YOLO系列为实时目标探测器设定了新的基准。研究人员在YOLO的基础上不断探索重参数化、高效层聚合网络和无锚技术的创新应用。为了进一步提高检测性能，引入了基于Transformer的结构，显著扩展了模型的感受野，并实现了显著的性能提升。然而，这种改进是有代价的，因为自我关注机制的二次复杂性增加了模型的计算负担。幸运的是，状态空间模型（SSM）作为一种创新技术的出现有效地缓解了二次复杂性带来的问题。鉴于这些进展，我们介绍了一种基于SSM的新型目标检测模型Mamba YOLO。Mamba YOLO不仅优化了SSM基础，而且专门适用于目标检测任务。鉴于SSM在序列建模中的潜在局限性，如感受野不足和图像局部性弱，我们设计了LSBlock和RGBlock。这些模块能够更精确地捕获局部图像依赖关系，并显著增强模型的鲁棒性。在公开的基准数据集COCO和VOC上进行的广泛实验结果表明，Mamba YOLO在性能和竞争力方面都超越了现有的YOLO系列，展示了其巨大的潜力和竞争优势。

MambaDepth: Enhancing Long-range Dependency for Self-Supervised Fine-Structured Monocular Depth Estimation

论文链接：https://arxiv.org/abs/2406.04532v1

在自监督深度估计领域，卷积神经网络（CNN）和变换器传统上占据主导地位。然而，由于其局部关注或计算需求，这两种架构都难以有效地处理长期依赖关系。为了克服这一局限性，我们提出了MambaDepth，这是一种为自监督深度估计量身定制的多功能网络。我们从曼巴架构的优势中汲取灵感，曼巴架构以其对长序列的熟练处理以及通过状态空间模型（SSM）高效捕捉全球背景的能力而闻名，我们介绍了MambaDepth。这种创新的架构将U-Net在自我监督深度估计方面的有效性与Mamba的先进功能相结合。MambaDepth是围绕纯粹基于Mamba的编码器-解码器框架构建的，它结合了跳过连接来维护网络各级的空间信息。这种配置促进了广泛的特征学习过程，能够在深度图中捕获精细细节和更广泛的上下文。此外，我们在Mamba块内开发了一种新的集成技术，以促进编码器和解码器组件之间不间断的连接和信息流，从而提高深度精度。在已建立的KITTI数据集上进行的全面测试表明，MambaDepth在自监督深度估计任务中优于领先的基于CNN和Transformer的模型，使其能够实现最先进的性能。此外，MambaDepth在Make3D和Cityscapes等其他数据集上证明了其卓越的泛化能力。MambaDepth的性能预示着自监督深度估计的有效远程依赖建模的新时代。

#NeRF怎么做视觉定位

论文地址：https://arxiv.org/abs/2403.12800

项目主页：https://gujiaqivadin.github.io/posemap/

方法概述：这篇文章首次提出了一种用于相机定位的神经体位姿特征——PoseMap，利用神经体中编码的视角特征刻画图像的相机位姿信息。该文将PoseMap与神经辐射场（Neural Radiance Fields，NeRF）结合设计了NeRF-P模块，并将它与绝对位姿回归（Absolute Pose Regression，APR）框架进行结合，提出了一种新的相机位姿回归网络结构。这种结构不仅有助于合成新视角图像以丰富训练数据集，而且能够有效学习姿势特征。此外，该方法还拓展了网络结构以达到在线阶段的自监督训练目的，实现在统一框架内使用和微调框架来处理未标记相机位姿的额外图像，进一步提高相机位姿估计精度。实验表明，该方法在室内和室外场景相机位姿估计任务中平均实现了14.28%和20.51%的性能增益，超越了现有APR方法。

1. 问题背景

基于图像的相机定位技术是3D视觉领域中学术界与工业界聚焦的一项关键任务，对于实现三维重建、自动驾驶、环境感知及AR/VR应用的深度交互至关重要。近期，绝对姿态回归（Absolute Pose Regression, APR）作为一种创新方法，日益受到瞩目。该方法与传统基于结构技术（如Structure from Motion, SfM）形成对比，通过单一神经网络推理即可直接估计相机位姿，显著提升了处理速度与效率，同时在处理无纹理或重复纹理图像时展现出更强的鲁棒性。APR通常依托监督学习框架，利用图像与其对应相机姿态对来训练回归模型，进而使模型能够直接为新的查询图像预测相机位置与方向，开辟了相机定位研究的新前景。

然而，APR的一个核心挑战在于其性能依赖于训练集覆盖的场景多样性，即观察场景越丰富，位姿估计越精确。这突显出扩充高质量带标签图像数据集的重要性。神经渲染技术，如NeRF（ Neural Radiance Fields）技术的出现为这一挑战提供了新的解法。这些技术使得从任意视角合成逼真场景图像成为可能，为相机定位系统提供了强大的数据扩充手段。例如，DFNet与LENS等研究通过整合NeRF生成的图像到训练流程中，致力于缩减真实与合成图像间的特征差异，有效提升了算法性能。

更进一步，这篇文章认识到NeRF与APR之间存在着深刻的内在联系：NeRF通过“位姿到图像”的映射构建场景，而APR则执行相反的“图像到位姿”的逆向操作。这暗示着双方可以实现更深层次的协同——不仅限于将NeRF生成的图像简单作为额外训练数据，而是探索如何在NeRF的渲染机制内嵌入对相机位姿本质的理解，利用NeRF深化APR对场景结构与相机位置的洞察力。通过建立NeRF与APR任务的耦合有望推动相机定位技术实现更精准、高效的位置与姿态估算能力。

由此，该文首次提出了一种用于相机定位的神经体位姿特征——PoseMap，利用神经体中编码的视角特征刻画图像的相机位姿信息。本文将PoseMap与NeRF结合设计了NeRF-P模块，并将它与APRNet结构进行结合，提出了一种新的相机位姿回归网络结构。这种结构不仅有助于合成新视角图像以丰富训练数据集，而且能够有效学习姿势特征。此外，该文还拓展了本文的网络结构以达到在线阶段的自监督训练目的，实现在统一框架内使用和微调框架来处理未标记相机位姿的额外图像，进一步提高相机位姿估计精度。实验表明，该方法在室内和室外场景相机位姿估计任务中平均实现了14.28%和20.51%的性能增益，超越了现有APR方法。

2. 实现方法

给定一组图片和对应的相机位姿，该目标是训练一个神经网络是的对于一张输入图片，可以直接预测它对应的相机位姿。图1展示了整个算法流程。

图1：基于PoseMap的相机定位流程。

它主要包含2个模块：APRNet和NeRF-P。其中，APRNet利用单独的分支抽取输入图像的图像特征，并且估计相机位姿。对于给定的位姿真值，NeRF-P渲染合成图像，并同样抽取其图像特征。此外，本文提出了一种隐式的位姿特征，成为PoseMap。整体设计主要来源于以下两方面的思考：

现有技术大多聚焦于利用NeRF的正向渲染过程，却忽略了挖掘神经体中编码特征的价值。鉴于NeRF中实质上已经集成了图像和姿态信息，在其内部应该已经蕴含了每个相机姿态的信息，等待进一步发掘。

遮挡、边界以及阴影是相机定位的重要视觉线索，它们通常被编码为神经网络中的深层特征。这从直觉上表明，姿态估计应当与这些富含信息的特征图紧密关联。

整个训练流程分为2个步骤：先完成NeRF-P的训练，随后将之整合进APRNet的训练流程。而在实际应用的推理阶段，仅需APRNet即可迅速完成预测。

NeRF-P作为NeRF的拓展版本，不仅服务于新观察角度图像的合成，而且在其设计中融入了对更精细相机位姿特征PoseMap的学习监督（见下图2）。与CROSSFIRE[1]及NeFeS[2]尝试利用NeRF合成CNN图像特征的想法不同，PoseMap更关注于建立3D场景隐含信息与相机位姿之间的直接联系，通过NeRF的本征特征来指导生成PoseMap特征图。

图2：PoseMap生成过程。

APRNet的训练结构如图1所示，该过程使用带相机位姿真值的标注图片，并利用NeRF-P来训练APRNet。该方法在损失函数设计不仅使用了预测位姿与实际位姿之间的均方误差（MSE），还引入了基于NeRF-P生成的PoseMap的余弦相似度误差。此外，该方法借鉴了DFNet[3]的随机视图合成（RVS）策略，通过使用相同的图像特征三元组误差项，有效缓解图像域差异，同时防止了特征空间的坍塌现象，从而提升了模型的整体泛化性能和稳定性。

图3：自监督的在线特征对齐框架。

由于APR算法的效果受限于训练数据，而大量无相机位姿信息的场景图像（如互联网图像）易于获取，专门设计了利用这些无标签数据的训练策略，进一步提升APR的效果。一方面以预训练的APRNet的低层特征作为图像特征；另一方面以NeRF-P得到的PoseMap作为位姿特征。通过计算输入图像经过APRNet预测的位姿后，由NeRF-P渲染出的图像与原输入图像之间的特征匹配误差，以及输入图像预测位姿与基于同一渲染图预测的位姿之间的位姿特征差异，该方法构建了一个闭环的自我监督训练过程。该流程图3所示，有效融合无相机姿态信息的图像数据，以增强模型的泛化能力和预测精度。

更详细的算法描述，请参考论文原文。

3. 实验效果

该算法分别在两个相机定位评测数据集（7-Scenes室内场景数据集和Cambridge Landmarks室外场景数据集）上进行了测试和对比。与同类方法对比，该方法在相机位姿估计的平移和旋转误差方面都有明显优势。

表1展示了算法在7-scenes数据集上的评测结果。

表1：7-scenes数据集上的评测结果。统计了该方法和单帧APR方法的相机位姿估计平移误差（单位：米）和旋转误差（单位：度）。为了更好的可视化，最佳结果用粗体蓝色进行了标识。

表2展示了算法在Cambridge Landmarks数据集上的评测结果。

表2：Cambridge Landmarks数据集上的评测结果。

同时，本文也从相机位姿可视化图上（图4）评估了算法的先进性。其中三维坐标系中红色表示预测相机位置，绿色表示真实位置；colorbar中颜色从蓝到黄表示旋转角度误差从小到大。由图可见，该方法预测的相机位姿序列整体上更接近真实相机位姿序列。

图4：与DFNet_dm算法在7-scenes数据集上的相机位姿估计可视化比较结果。

此外，该方法还通过PCA 降维的方式直观可视化了PoseMap的具体图像（图5）。从左到右包括：显示输入的真实图像（左）、估计的姿势的渲染图像（第二列）、APR 特征图（第三列）和PoseMap（右）。可以看到，与 APR 图像特征相比，该方法提出的 PoseMap 特征通过聚合光线样本的全局属性来捕获相机姿态的隐式特征，从而产生比 2D-CNN 主干网络具有更清晰几何信息的局部特征，这对于相机定位任务具有更大的意义。

4. 局限性

与其它基于学习的方法类似，PMNet 也与 NeRF 和 APRNet 有相同的局限性。首要，姿态估计的精确性深受合成图像质量的影响，这突显出对鲁棒性更强的 NeRF 模型的需求，以强化输出结果的可靠性。其次，当前依赖于APR的相机定位技术没有充分利用场景中固有的几何结构信息，未来研究可考虑融入更为明确的结构性信息元素，如2D轮廓线与3D深度信息。最后，采用层次化优化策略，可以在测试环节进一步提升估计结果。

5. 总结与展望

本文介绍了一种新颖的神经体位姿特征 PoseMap，旨在提升相机定位效果。该特征通过神经体刻画了相机位姿的隐式信息，并且可以通过在NeRF基础上加入位姿分支进行渲染。基于位姿特征提取模块，这篇文章开发了一种新的 APR 框架。该框架允许通过自监督的方式使用未标记的图像进行在线优化。实验表明，该方法在室内外数据集上，与基于深度学习的相机定位技术相比，平均性能提升了14.28%和20.51%，超越了现有的APR方法。

该方法与基于几何结构的方法相比，在估计效率方面有明显优势，但是在估计精度方面仍有差距。但基于APR的相机定位技术在定位精度方面拥有巨大的提升空间，一种可能的方式是将更多的几何结构特征融入到APR框架中，通过几何结构提供更精确的定位信息。

#自动驾驶领域SLAM技术是不是过时了

作为一个曾经的SLAM算法工程师，最近经常被问的问题就是

SLAM技术是不是过时了？是不是要被淘汰了？前几年SLAM算法工程师在智能驾驶领域还是非常吃香的岗位，最近一两年都不怎么招聘了。到底是怎么回事？要转行吗？

SLAM在自动驾驶领域是啥情况？

最近和自动驾驶领域的一个同行交流，有一个观点分享给大家。

为什么早期的自动驾驶行业SLAM岗位那么火？

可能原因之一是当时大家对SLAM在自动驾驶领域的能力边界没有搞清楚。

怎么说呢？有一个知名的数据集叫kitti, 很多论文里面的视觉SLAM在kitti数据集上跑的效果都非常好。

而当时很多人还不太懂SLAM的上限，认为视觉SLAM完全可以hold住自动驾驶的定位。另外一个就是当时的激光雷达和RTK特别特别贵，自动驾驶公司觉得如果我们能用视觉SLAM的方式搞定自动驾驶汽车的定位，能够省很大的成本，非常有前景。

后来大家发现，其实在论文里面跑的特别好的算法，在实际项目中应用不是那么好用，核心的问题就是鲁棒性不行，尤其是当自动驾驶场景里面都是动态物体的时候，用它来做定位太难了，简直就是灾难。

所以前几年SLAM的行情好，主要是因为很多人不太懂它，盲目地认为他能够做很多事情。然后，经过了最近这几年的洗礼，行业基本上知道在自动驾驶中SLAM没办法去扮演核心的定位的角色。

另外一个原因就是高精地图定位在开放场景自动驾驶下的鲜度、成本等问题，导致自动驾驶公司转向BEV，transformer，occupancy 网络的方法。详细解释见我之前的分析：高精地图为什么从“小甜甜”变成了“牛夫人”？，以及嘉宾游振兴的分享智驾“重感知，轻地图”技术趋势和SLAM技术可长期支持的业务场景的思考

之前自动驾驶里做SLAM的人去哪里了？

有这几个方向

如果还想继续在开放道路自动驾驶公司做SLAM算法。可以转去做自动泊车、传感器标定和4D数据标注和真值生产，这些还是非常刚需的。短期内看没有其他能取代的。特别想补充的一点就是随着端到端技术在自动驾驶中的逐步推广和应用，对于整个智驾算法带来的影响可能都是革命性的，端到端本身需要大量的训练数据，这就会使得自动标注的重要性得到提升，而SLAM技术在自动标注中尤其是真值生产中仍然发挥重要不可替代的作用。

还有一些内部转岗的，比如转去做occupancy network、BEV 感知、3D Gaussian Splatting等。需要说的是之前学习的SLAM、多视图几何的知识并没有白费，因为你具备这些技术和基础你才能做的更深入。

如果是封闭、半封闭区域场景的自动驾驶，比如说物流配送、矿山、港口等自动驾驶场景，它对SLAM还是比较刚需的。

转到其他相关行业。比如机器人、MR/AR、无人机等领域，SLAM都是非常刚需的。

#基础模型如何更好应用在具身智能中

A Survey on Robotics with Foundation Models: toward Embodied AI https://arxiv.org/abs/2402.02385

尽管具身AI的探索已经历了数十年，但赋予智能体以人类水平的智能，包括感知、学习、推理、决策、控制和泛化能力，使它们能够在开放、非结构化和动态环境中执行通用任务，仍然是一个持续存在的挑战。基础模型还不能直接与物理世界中的实体进行交互，也就是说，它们只是为人类和代理提供辅助信息，而不是决策者，因此目前的应用仅限于互联网。因此，如何将基础模型与决策模型融洽融合是具身智能的关键问题。近日，美的集团发表了一篇综述描述了解决该问题的一些关键

这篇综述旨在全面且最新地概述机器人学中的具身智能基础模型，重点关注自主操作，涵盖高级规划和低级控制。1）高级规划：这涉及处理来自用户的自然语言指令和来自交互环境的观测，最终形成逐步决策。基础模型有助于利用其底层世界知识来解释指令、感知环境和通过复杂任务进行推理；2）低级控制：重点是在监控环境和机器人状态的同时执行指令，最终确定精确的执行参数，如机器人手臂末端执行器的位置或关节的角度。基础模型的能力使同时学习多个任务和做出精细的执行决策成为可能。此外，文章还展示了它们常用的数据集、模拟器和基准测试。文章还强调了该领域固有的关键挑战，并勾勒出了未来研究的潜在途径。下面一起来看看综述正文~

1 高级规划的基础模型

高级规划通常涉及复杂的长期任务，需要模型处理来自用户的自然语言指令和来自交互环境的观测，并形成逐步决策。因此训练单个策略模型以基于简单明了的指令完成整个任务仍然是一个挑战。该模型不仅需要掌握多种技能，还需要理解这些技能之间的顺序执行顺序，这使得训练过程本质上变得复杂。鉴于视觉和语言基础模型在复杂推理和上下文泛化方面所展示出的卓越能力，学者们普遍开始探索应用基础模型解决高级规划挑战。文章从（1.1）规划的形式和（1.2）规划的辅助工具两个角度，回顾了如何应用基础模型来理解用户命令和规划长期任务。

1.1 规划的形式（Forms of Planning）

基础模型，如大型语言模型（LLMs）和视觉语言模型（VLMs），能够生成多种规划格式，从高度结构化的格式（如规划领域定义语言PDDL）到富有表现力的编程代码，甚至是更灵活的自然语言。基础模型的规划形式通常有以下两类：

（1）更严格的形式提供了更高的精确度，并且更容易被机器人控制器解读，但其预定义的性质限制了基础模型的表达能力。这一局限性意味着模型只能在这些结构内生成内容，可能在零样本任务中降低其有效性。如，策略代码规划（Policy Code Planning）将自然语言指令解耦为代码形式的几个步骤。值得注意的是，规划形式是一个组织良好、顺序敏感的程序，涉及复杂的规划。代码擅长提供对空间位置的精确描述和对象的独占引用。此外，使用代码作为高级规划提供了表达函数或反馈循环、处理感知输出和参数化控制原语API的优势。

（2）相反，虽然结构较为松散的形式提供了更强的表达能力和更适合解读自然语言用户命令的优点，但可能为机器人执行带来挑战。例如，自然语言规划（Natural Language Planning））步骤需要复杂的低级控制器才能进行有效理解和执行。自然语言生成是基础模型固有的能力，具有良好的可解释性。然而，自然语言可能缺乏清晰的表达，从而误导代理并终止任务。学者提出多种方法来缓解自然语言规划的以上问题：

CAPEAM模型利用子目标规划器从任务指令中提取子目标和具体对象，从而通过这些子目标和对象的组合减少表达歧义。此外，它利用外部模型来评估子目标，以验证它们的可行性、正确性和清晰度。

ViLA模型直接应用最先进的多模态基础模型GPT4-V，通过思维链推理和丰富的web级知识，为长期任务生成自然语言规划。

RSFT提出识别快速思维和慢速思维，以便更精确地规划和执行，这分别是指采摘等直接动作和重新排列等多步骤推理任务。

1.2 规划的辅助工具（Assistants of Planning）

为了弥合机器人语言处理与实际感知信息之间的差距，研究人员正在探索通过增加额外的辅助工具来增强基础模型（如LLMs）以实现更有效的规划。这包括（1）将视觉模型集成到LLMs中，以辅助目标识别，（2）并纳入外部反馈来指导机器人操作。此外，（3）将额外的常识知识与基础模型相结合也对推理和规划有益。

(1) 视觉辅助规划（Visual-Assisted Plan）

部分学者将视觉模型集成到LLMs中，以辅助目标识别。基于视觉辅助规划语言的基础模型通常需要传统深度学习模型(例如，2D/3D检测模型)或其他大型视觉语言模型的支持对图像数据进行处理，进行任务规划。比如，直接将视觉基础模型的检测结果整合到LLM的提示中进行规划或重新规划；或者利用LLM生成初始规划，并在VLM的帮助下生成初始规划。

视觉基础模型也可以为LLM进行下一步的规划提供参考价值或辅助功能：例如，SayCan模型引入了一个视觉模型来预测规划中成功执行每种技能的概率，并与LLM共同确定流程的下一步。GD模型在视觉模型的帮助下，直接预测了下一步每个token的概率，并结合了LLM和视觉模型估计的概率，用一个联合解码过程选择下一个token。

VLM也可以直接集成LLM和可视化信息进行任务规划，利用VLM的一种简单有效的方法是在原始框架中用VLM代替LLM，这样的模型展示了强大的零射击推理和泛化能力，在具身推理任务和视觉语言任务中都表现良好。尽管VLMs显著提高了定位能力，但在细粒度语义理解方面存在不足，而细粒度语义理解对于微小物体操作和灵巧操作至关重要。为弥补以上不足，OCI-Robotics模型对VLMs进行微调以预测目标物体的精确位置，在一定程度上缓解了这一缺陷。

(2) 根据外部知识(Extra Knowledge)规划

基础模型通常缺乏特定领域的知识，因此在某些场景中可能会导致任务规划错误，这些额外的知识可以从自我规划(即“内部”)和其他模型(即“外部”)中获得。比如：ClIN模型从失败的规划中学习，递归地将这些见解用于后续规划，直到成功。CAPEAM模型引入了一种环境感知记忆系统，该系统记录对象的历史位置以增强代理交互。LMZSP 模型通过另一种预训练的基础模型，将大型语言模型（LLMs）的原始任务规划的每一步转换为精确可接受的行动。PLAN模型从外部知识构建注入常识性的提示，作为增强任务规划的外部提示。

(3) 根据反馈规划（Plan with Feedback）

上述方法，如PaLM-E或ViLA，采用初步的一次性规划，而交互式规划在任务执行过程中动态发展。准确地说，基础模型在指令和实时反馈的帮助下预测后续行动，并在每一步之后不断更新它们的规划。典型的反馈包括:1)来自环境的反馈，表明任务完成或行动成功的信号。2)来自人的反馈，包括人机直接交互，作为增强规划能力的直观信号。

2 低级控制的基础模型

除了利用大型基础模型的分解和规划能力，来帮助机器人对复杂的长期任务进行高级规划外，许多研究还提出利用语言和视觉基础模型的识别、推理和泛化能力来生成精确的低级控制。机器人低级控制的最终目标是学习一种策略来输出目标关节位置。从学习过程中关注的不同模块的角度，文章将这些方法分为三类:(2.1)策略学习。(2.2)环境建模。(2.3)表征学习。

2.1 策略学习

策略学习通常分为以下两类：（1）强化学习、（2）模仿学习。

(1) 强化学习（Reinforcement Learning，RL）

强化学习问题通常使用马尔可夫决策过程（MDP）进行表述。马尔可夫决策过程（Markov Decision Process，MDP）假设智能体（agent）处在一个环境中，每个状态是智能体对当前环境的感知。智能体只能通过执行动作来影响环境，而环境则根据一定的概率分布转移到新的状态，并反馈给智能体一个奖赏。

强化学习是机器学习的一种范式和方法论，旨在通过智能体（agent）与环境的交互来学习策略，以最大化累积奖励或实现特定目标。与监督学习和无监督学习不同，强化学习不需要显式地提供输入/输出对或未标记的数据集，而是通过试错的方式学习。强化学习在现实世界应用中的一个主要挑战是如何进行奖励塑造，即强化学习需要精心设计奖励函数才能学习。因此，许多最新研究将注意力转向利用大型基础模型中包含的各种任务的知识和理解来提供奖励，从而减少繁重的人工参与。比如，L2R模型提出将奖励函数作为语言指令与低级动作之间的桥梁，并探索利用大型语言模型（LLMs）的代码生成能力将任务描述转换为奖励函数。

另一个重要挑战在于强化学习方法的低样本效率。最近，许多研究表明，基础模型可以通过向学习过程注入从互联网规模数据中学习到的更多先验知识，从而大大加速上述技术的发展。例如，FRL模型提出了一个基础强化学习框架，并实例化了一个演员-评论家方法FAC，该方法利用基础模型中的价值、奖励和策略先验知识来实现样本高效学习、对噪声先验的鲁棒性以及最小化人工干预。此外，可以在视觉和语言领域使用带有Transformer架构的膨胀互联网规模数据，如Q-Transformer使用Transformer架构学习Q函数和多任务策略的设计决策，这些决策基于大规模离线数据集。

(2) 模仿学习（Imitation Learning）

在模仿学习中，智能体（agent）通过观察专家的行为（即“演示”或“示范”）来学习如何执行任务。这些专家演示通常包含了一系列状态-动作对，展示了在给定任务中如何做出最优或接近最优的决策。模仿学习的目标是让智能体能够学会一个策略，该策略能够复现专家的行为，从而在新的、未见过的情境下也能表现出良好的性能。

模仿学习（IL）与强化学习（RL）的区别在于提供了专家演示，但奖励函数是未知的。模仿学习的目标是恢复（或尽可能接近）专家的策略，以便在新的状态下也能实现较高的奖励或任务成功率。由于专家演示的分布通常较窄，主要问题是存在累积误差，且学习到的策略的泛化能力较差。受大型语言模型（LLMs）和视觉语言模型（VLMs）通过大量数据训练在开放世界中实现强大零样本性能的启发，一种直观且直接的方法是将这种模式扩展到具身人工智能（embodied AI），并使用大规模的机器人数据来训练高能力的策略。

3.2 环境建模

除了直接从演示或与环境交互中学习策略外，学习环境（世界）模型也很重要，该模型可以与其他算法（如强化学习和轨迹优化）结合使用，以生成更好的策略。

(1) 前向动态学习

前向动态学习基于当前或历史观测和动作预测下一状态。这一学习目标结合了因果关系的本质，因为下一状态是当前状态下执行动作的结果。因此，它能够有效模拟环境，包含物理规则。但代价是构建准确的动态模型既困难又需要大量数据。如SWIM模型在高层次的抽象和结构化动作空间中学习，即预测目标姿态和路径点。随后，可以在无监督的方式下使用一小部分机器人数据对模型进行微调，这既不需要奖励函数也不需要与任务相关的监督。

(2) 逆向动态学习

逆向动态学习旨在以当前状态和下一状态作为输入来预测动作。由于它利用未来的信息来恢复过去的行为，因此它是非因果的。因此，这种学习方法降低了训练的难度，并且不像正向动态学习那样需要大量的数据。Brandfonbrener等人在多个领域的机器人操作任务上进行了广泛的实验，实验结果表明：1）当从零开始学习时，学习逆动态可以比其他预训练目标表现得更好；2）与正向动态目标相比，逆动态学习可以提取出更平滑、更具辨别力的表示，且样本效率更高。

3.3 表征学习

利用大规模互联网数据训练的视觉和语言基础模型可以提取出对图像和文本指令有益的表征，为下游的具身AI任务提供了坚实的基础。此外，它们还能够与文本的特征相匹配。遵循这一思路，许多研究将大型语言模型（LLMs）和视觉语言模型（VLMs）作为固定的表征提取器，并建立了一个组合流程：

(1) 冻结基础模型

最直接的方法之一是冻结基础模型，将大型模型作为某些特定功能（如目标检测、语义分割和目标跟踪）的只读组件使用。例如，SMS模型通过使用开放词汇对象检测模型，它能够识别当前场景中的对象，并结合大型语言模型（LLMs），明确构建场景的语义占用分布作为特征。

(2) 学习控制模型

许多工作建议使用如无监督学习、自监督学习和迁移学习等方法，来从机器人数据中提取描述性和可理解的表示。如DualMind提出了一种类似的两阶段学习策略，用于学习一种能够处理多个决策任务的通用策略：在第一阶段，策略以自监督的方式进行训练，以学习世界中的潜在通用知识。随后，在第二阶段，使用参数的一小部分来基于多模态提示训练条件策略。该方法采用编码器-解码器Transformer架构，结合Token-Leaner和交叉注意力机制，以增强特征提取能力。

3 数据集、模拟器和基准测试

此外，文章还展示了基础模型常用的数据集、模拟器和基准测试。

3.1 数据集

与强调抽象、二维和基于网络信息的视觉和语言数据集相比，具身智能的数据集更注重现实世界环境中的三维信息、对象的可用性，以及机器人与对象之间的交互，这些都基于现实世界物理定律的约束。文章将具身智能的数据集分为三类，包括对象数据集、人类数据集和机器人数据集。

（1）对象数据集：对象数据集通常包含大量合成或真实扫描的物品及其对应的标签，包括类别、网格、点云等。这些数据集可用于各种下游任务，包括机器人环境构建、感知、新视图合成、对象重建、对象生成和机器人操作任务。

（2）人类数据集：人类数据集通常以视频的形式存在，包含在不同环境和场景下从第一人称或第三人称视角进行活动的人，从在厨房做家务到在户外骑自行车。它们包含关于物体和环境的外观、人与物体的交互，以及运动和动态中嵌入的物理规则的真实世界信息，如果这些知识能够成功转移到智能体上，那么对具身智能将非常有益。

（3）机器人数据集：机器人数据集包含直接控制机器人在现实世界或模拟器中执行任务的演示，收集方法多种多样，如远程操作设备、预训练智能体等。然而，这些收集过程既耗时又费力，例如设置机器人执行任务的环境，以及教授操作人员使用相关设备。这导致很难将机器人数据集扩展到非常大的规模，这是具身智能面临的一个挑战。

3.2 模拟器

在具身智能领域，高保真模拟器对于高效训练和缩小模拟与现实世界应用之间的差距至关重要。模拟器开发中的关键挑战包括：1）实时软体材料模拟，其中像ManiSkill2这样的高级模拟器使用材料点方法（MPM）来实现比传统方法（如有限元方法FEM）更真实、更复杂的交互；2）支持多个控制器以适应各种任务和控制方法，像ManiSkill2和Nvidia Isaac Sim这样的模拟器为从避障到抓取放置等各种任务提供了动作空间的灵活性；3）处理多个环境并行计算的能力，这对于强化学习中的大规模数据收集和训练至关重要，其中像ManiSkill2和Isaac Gym这样的模拟器在管理众多同时运行的环境方面展示了卓越的计算效率和功能。

3.3 基准测试

为了确保公平的比较，基准测试对于评估各种系统和算法至关重要。两个值得注意的基准测试是FMB，它提供了一个基准测试，用于测试和改进机器人操作技能，如抓取、移动和组装物体，使用3D打印的物品以便于复制和研究；以及ManiSkill2，它提供了一系列20个有针对性的操作任务集合，旨在解决操作技能基准测试中的常见挑战。

4 讨论与未来方向

机器人技术与基础模型的融合探索目前仍处于起步阶段。尽管取得了显著进展，但众多挑战仍阻碍着机器人在现实环境中的实际应用。文章重点讨论了该领域现有的一些挑战以及潜在的未来研究方向：

4.1 规划与控制的协同

当前的具身智能在抓取和放置物体等简单任务上取得了前所未有的成功。然而，对于长期任务（如物体重新排列），仅学习一个策略也非常困难，因为错误会随着步骤的增加而迅速累积。因此，同时学习高级规划和低级控制，并使它们无缝协作至关重要。与在单一大型策略网络中整合规划和控制相比，许多先前的工作研究了如何合理分解复杂任务并有效学习技能。然而，它们仅使用预定义的原始任务（技能），无法推广到新任务，这是机器人在现实应用中成功部署的先决条件。目前，视觉和语言基础模型的发展也为这一方向提供了强大的推动力，例如，使用LLMs进行更合理的规划并扩展技能库。

4.2 基础模型的“幻觉”问题

基础模型的安全性和可靠性，特别是它们倾向于“产生幻觉”或生成误导性信息的问题，已经引起了人们的广泛关注，因为基础模型提供的不准确解释或指令可能导致严重的故障或失败。一个典型的例子是GPT-4V，它有时会在解释图像时包含实际上并不存在的物体。此外，模型需要与物理实体集成，模型的误用可能导致灾难性后果。

4.3 高效数据收集

为了进一步提高大型视觉和语言基础模型的泛化能力，扩大数据集规模可能是最重要的工作之一。目前，机器人数据集的规模远远不及视觉和语言基础模型所使用的规模。目前收集数据的速度，基本上不可能收集到与视觉和语言互联网规模数据集相当规模的机器人数据。（1）Huang等人利用高保真模拟器进行大规模轨迹收集或训练，然后通过Sim2Real方法将智能体部署到实际应用中。然而，模拟器和现实世界之间在外观和内部动态上都存在分布差异，这可能会显著降低性能，而Sim2Real方法无法完全弥补这一差距。（2）另一个解决方案是利用额外的人类活动数据集。这些数据相对容易通过从互联网上下载来收集，并且包含现实世界的观察和动态信息。但是，由于机器人和人类的形态差异很大，因此很难将这些信息与机器人的输入和输出对齐。

4.4 扩充现有数据集

与视觉和语言任务相比，为具身AI任务收集大规模训练数据要困难得多，成本也更高。因此，如何有效地扩充现有的机器人数据集是一个不可回避的问题。（1）一个直接的方法是使用常用的数据增强技术，如修改亮度、翻转、裁剪、注入噪声等，增强图像数据。然而，这些方法可能会破坏图像中的语义信息，从而降低最终性能。（2）最近提出了一种不破坏语义信息的数据增强方法，利用视觉语言模型（VLMs）和大型语言模型（LLMs）进一步提高策略的泛化性能。比如，ROSIE方法将数据增强问题重新表述为图像修复问题，它使用VLMs来描绘图像中与任务相关的区域，并使用最先进的扩散模型Imagen Editor根据文本指令对该区域进行增强。然而，这些方法本质上并没有增加机器人轨迹的数量，这意味着当智能体进入危险或分布外状态时，它仍然不知道如何从错误中恢复。

4.5 计算与部署的效率

无论是训练阶段还是推理阶段，都需要大量的计算资源。在大规模数据集上训练这些庞大的模型需要大量高端GPU。因此，采用诸如LoRA和MiniGPT-4等高效的预训练和微调技术对于降低训练成本至关重要。此外，在资源受限的边缘设备上部署这些大型模型也面临挑战，通过模型压缩技术优化大型模型的计算效率，并设计轻量级模型，对于在边缘设备上实现部署至关重要。

4.6 机器人的安全性和可解释性

在现实世界场景中部署机器人系统，特别是在人口和物体密集的区域，如人机协作或室内环境，确保运行安全至关重要。这涉及到减轻碰撞风险，防止人员受伤和物体损坏。（1）虽然某些方法通过利用李雅普诺夫函数为机器人系统提供理论保障，但它们仅考虑具有低维输入的理想且简单的实验环境，并需要精确的环境建模。然而，对于像图像这样的高维输入的实际应用来说，情况更为复杂。（2）相比之下，其他方法侧重于使用分布外（out-of-distribution, OOD）检测来促进机器人错误的实时识别。然而，这些方法在处理新场景中的泛化挑战以及错误后的恢复策略制定方面仍面临困难，这是当前研究的一个关键领域。

#基于自适应交互模态探索的预测与决策

论文链接：https://arxiv.org/pdf/2408.13742
代码链接：https://github.com/HKUST-Aerial-Robotics/MIND

本文介绍了基于自适应交互模态探索的多模态集成的预测与决策。由于多模态交互的复杂性，在拥堵且动态的环境中导航给自动驾驶系统带来了重大挑战，其中各种交通参与者和自动驾驶车辆的行为是复杂的，并且是隐式耦合的。本文提出了一种新的框架，即多模态集成的预测与决策（MIND），其通过高效地生成涵盖多种不同交互模态的联合预测和决策来解决这些挑战。具体而言，MIND利用基于学习的场景预测来获得具有社会一致性交互模态的集成预测和决策，并且利用模态感知动态分支机制来生成场景树，该场景树高效地捕获不同交互模态的演变，其在规划范围内交互不确定性的变化较小。交互不确定性下的应急规划无缝地利用场景树来获得明确且考虑多模态演变的行为。基于现实世界驾驶数据集的闭环仿真中的综合实验结果表明，本文方法在各种驾驶环境下的性能优于其它强大的基线。

本文的贡献总结如下：

1）本文设计了一种场景预测网络，并且将其与具有动态分支机制的树搜索技术相结合，从而获得覆盖范围更广的场景树，用于探索世界的演变；

2）对于场景树中的多种潜在未来变化，本文利用应急规划来自然地生成针对从根开始的每个分支的最优轨迹树，从而确定最佳决策；

3）本文通过各种实验评估MIND，结果表明，在不同的驾驶场景中优于其它基线，展现了其在复杂情况下的有效性。

论文图片和表格

总结

本文引入了MIND框架，其作为动态交互环境中实现自动驾驶同时预测与决策的综合方法。该框架系统性地结合了场景预测网络、自适应交互模态探索机制和应急规划，以在处理多模态未来演变的同时，在复杂交互场景中生成合理的行为。与最新技术的广泛定量比较以及定性实验证明了本文方法的优越性。展望未来，本文旨在将所提出的框架扩展到现实世界应用中。

#对比学习到底在学啥？

在不使用任何假设的情况下，刻画出对比学习与谱聚类算法的等价关系。

对比学习是大模型的入门算法。它的想法很简单：对于输入, 找一些它的正样本和负样本，希望在学习之后的网络特征空间中，离正样本近一点，负样本远一点。

实际上，对比学习并非个例，预训练算法大多非常简单：要么是遮盖一部分数据内容让模型猜出来，要么是让模型不断预测一句话的下一个词是什么等等。因为这些算法过于简单，人们很难理解它们究竟如何创造出了强大的模型，所以往往会把大模型的成功归功于海量数据或巨大算力，把算法设计归为炼丹与悟性。

有没有更本质的方式，可以帮助我们理解对比学习？下面我给大家介绍一下我们最近的工作[1]，可以在不使用任何假设的情况下，刻画出对比学习与谱聚类算法的等价关系。

呃……但这关我什么事？

从理论的角度来看，对比学习与谱聚类算法的等价关系是一个很优美的结果，至少我是这么觉得的——但这对大部分朋友来说并不重要。实际上，可能有一半以上的AI科研人员对谱聚类不太熟悉，对这样的理论刻画自然没有太多兴趣。不仅如此，

对比学习与谱聚类算法的关系不是我们第一个提出的。人们早就在实践中发现，对比学习得到的模型在分类任务上有突出的效果，但是在其他下游任务中表现一般。马腾宇老师组在2021年的论文[2]中极具创新性地证明了，如果把对比学习中常用的InfoNCE loss改成某种变体（他们称之为spectral contrastive loss），那么得到的模型几乎就是在做谱聚类：是谱聚类的结果乘以一个线性变换矩阵。换句话说，他们已经证明了，对比学习的变体是谱聚类的变体。我们的结果可以看作是对他们结果的进一步完善：对比学习就是谱聚类。因此，虽然我们的结果可以看做是这个问题的一个完美句号，但并不出人意料。
我们的理论框架精致，但并非原创。事实上，我们使用了Van Assel等人2022年发表的用于分析Dimension reduction的概率图框架[3]，将其调整之后用于对比学习分析之中。虽然这一调整并不显然，相信原作者也没有想到他们的框架可以用来分析预训练模型；但是我们的理论工具确实来源于他们的工作。

所以我想，我们的工作最重要的地方是提供了理解大模型的新视角。对我来说，当对比学习的底层逻辑以一种简洁、优雅的方式展现出来时，它的意义远远超出了谱聚类的理论刻画本身，给我带来了巨大震撼。这种新的视角可以帮助AI从业者更好地理解预训练算法和模型，对未来的算法设计与模型应用都会有帮助。当然，这意味着要先理解一点点数学——不过我保证，这是值得的。

从SimCLR谈起

我们先从Hinton团队2020年提出的SimCLR算法[4]谈起，它也是对比学习的代表算法。SimCLR专门用于理解图像，它基于一个重要的先验知识：把一只狗的图片进行翻转、旋转、切分或者其他相关操作，得到的图片还是在描绘同一只狗。具体来说，论文中考虑了9种不同类型的操作，如下图所示：

对于人类来说，上面的这些图一看就是同一只狗。针对任何一张图片，我们可以通过这样的方法随机生成两个它的变体，称之为和

可以看到, 假如我们通过预先定义的图片操作, 生成了和。然后我们把它们分别塞进神经网络中, 得到了两个向量

可是, 如果使用这个标准来训练模型的话, 模型非常容易偷懒。试想, 倘若把所有的输入都映射到同一个输出, 那自然满足我们的要求, 但是这个模型什么都没有学到。因此, SimCLR引入了负样本, 即从数据集中随机选一些图片生成 , 使得比较近, 但是和又比较远。这样,

使用这个想法设计的损失函数叫做InfoNCE loss, 它有一个令人望而生畏的数学定义。假如给定一个图片和它的正样本 , 还有一系列负样本, 我们叫它们 , 那么损失函数定义为 (我们进行了等价变换, 详见论文

这个式子很复杂，但是如果我们愿意抓大放小的话，它也很简单。所谓的抓大放小，就是先不管那些我们不明白的部分，只看它的主要意思。按照这个指导思想，我带着大家过一遍：

开头为什么有个负号? 说明后面的式子越大越好。为什么要加个log? 不懂, 我们先不管, 之后再说。下面这个分式是什么? 可以看到, 分子在分母中也出现了, 我们就把分子当做的相近程度即可。分式的意思就是说, 与这对正样本的相近程度, 相比和

为什么能够表示两个图片的相近程度呢? 的含义很清楚, 就是把塞进神经网络得到的表征。exp和

上述就是SimCLR算法分析的传统思路。我们跳过或者模糊不清的部分，就是深度学习中非常重要的玄学——不懂没关系，效果好就行。

我们今天的目标，就是把这些部分解释清楚，同时给出一个与传统分析思路截然不同的新思路。整个故事环环相扣，我们把SimCLR算法搁置一下，先从理想空间谈起。

什么是理想空间？

我们刚才谈到，在像素空间中，模型很难理解一张图片的语义。为了能够让模型更好地理解图片的语义，我们需要找到一个更好的空间，我称之为理想空间（即刚才说的语义空间）。在理想空间里，任何两个图片的语义关系可以非常方便地计算出来。比如说，在对比学习考虑的问题里，我们可以使用一个简单的函数直接算出与的相似关系。所以说，在理想空间中，图片的语义对于模型来说是“显然”的，因为任何两个图片的关系可以用

图中第一行的四个圆点表示四个数据点（在我们这里就是四个图片），圆点间的箭头表示它们之间的关系（我特意画了有向箭头，所以关系可以是单向的）。一般来说，关系可以非常复杂，但是今天我们假设两个点之间的关系可以用一个实数表示。这样，这些点与关系就形成了一个图，可以用邻接矩阵表示。在SimCLR算法中，两个点之间的关系等价于它们被选为一对正样本的概率，表示它们的相似程度。

我们的目标是通过神经网络计算出一个理想空间（第二行）, 使得在这个空间中, 任何两个点之间的关系可以用一个简单的数学函数计算得到。今天我们考虑的是一种极为简单的函数，我们要求可以简化写成，即

从图中可以看到, 我特意在任何两个点之间都画了双向箭头, 这是因为任何两个点都可以用算出关系。这和第一行的关系图不同，因为第一行很可能存在两个点没有关系，或者只有单向关系。我把第二行的关系用邻接矩阵

在理想的情况下，我们希望和是一样的。可是，如果是对称的，而存在有向边，那这两个矩阵完全一样是不可能的。所以, 我们需要定义一个损失函数来刻画它们的距离, 然后使用优化算法进行优化。这样，我们就得到了一个可以将对象映射到理想空间的神经网络

然而，这个算法有个问题，就是损失函数不好算。考虑到我们的数据集非常大，可以包含几百万张甚至更多图片，所以上下两行对应的图都非常庞大，无法直接计算两个邻接矩阵的距离。那该怎么办呢？

很简单，我们可以对原图进行降采样，取两个子图进行比较。如下图所示：

可以看到，左边计算Ideal loss可能很困难，所以我们走右边的虚线，通过子图采样的方法，得到两个子图。通过使用交叉熵让两个子图尽可能接近，我们也可以驱使模型学习到好的理想空间。但是要注意，这个思路本质是一种启发式算法，必要但并不充分：原图一致意味着子图一致，但是子图一致不意味着原图一致。

子图采样评分

如何对原图采样呢？我们可以使用Van Assel等人提出的框架[3]，使用Markov随机场。对这个工具不太熟悉的朋友不必惊慌，它背后的原理很简单。如果我们想要对原图采样（假设它有

所以，评分函数的定义，就决定了采样分布——我们需要设计一个合理的评分函数。我们考虑一个极为简单的办法，就是只考虑出度为1的子图。具体来说，这样的子图保持了原图的点不变，但是只给每个点留了1个出去的有向边。如果我们把这样的一个子图叫做，那么当我们给定原图的时候（用邻接矩阵表示），我们可以定义的评分为：。

注意到, 由于每个点的出度为 1 , 所以它的邻接矩阵里面的数要么是 0 , 要么是 1 。从这个角度来看, 我们把放到了的指数上, 所以只有当时才会被计算到连乘中, 否则不会。换句话说, 当选中的边两端的点相似度（由

非常神奇的是, 基于这样的采样方式, 的每一行彼此之间都是独立的, 并且每一行（因为出度为 1 , 所以有且仅有一个 1 是从多项式分布中采样得到的。换句话说, 对于第行的 W来说, 它的第列为 1 的概率恰好为。当然, 这里的如果替换成

从SimCLR到谱聚类

一旦理解了子图的采样方法, 剩下的部分就容易很多。从上图来看, 我们需要优化的交叉熵。我们知道这两个矩阵的每一行都是独立的, 所以可以单独拿出来计算。换句话说, 我们可以针对每一行计算的交叉熵, 然后加起来。具体来说, 对于给定的 , 我们需要计算每一列配对的可能性。注意到

我们之前提过, 由于的采样特点, 上式的右半部分 (当时）。另外, 根据，不难算出当

注意到, , 所以我们进一步可以得到:

这恰好是SimCLR的InfoNCE损失函数！

另一方面, 我们真正需要优化的损失函数还有左半部分这一项。这一项恰好对应于SimCLR算法针对每项输入进行增广采样时, 采到这两个对象为一对正样本的概率。换句话说, SimCLR算法正好在优化

另一方面, Van Assel等人的论文中证明了, 上述损失函数等价于在

拓展到CLIP

与SimCLR相比，CLIP算法的用途更加广泛。例如，OpenAI提出的文图生成模型Dall-E2就是使用CLIP模型将文字与图像连在了一起，使得人们可以使用文字生成极高质量的图片。CLIP算法同样很简单，就是把图像和其文字描绘当做一组对象，使用InfoNCE损失函数把这两个对象连在一起。使用我们的分析方法，不难发现CLIP本质是在一个二分图上做谱聚类，具体可以参考论文[1]。

总结

可以看到，我们全程并没有为了证明SimCLR而证明SimCLR，也没有加入任何假设。实际上，我们是先从理想空间的角度来理解SimCLR算法，认为应该采用子图采样的方式才能够把理想空间学到。子图采样的方法有很多，我们选了比较自然、容易计算的一个，而它恰好就直接对应了SimCLR的算法！真是颇有一种踏破铁鞋无觅处，得来全不费工夫的感觉。

我认为这背后提供的新视角是非常重要的。SimCLR/CLIP这些基础的预训练算法，其实是在把对象映射到理想空间，使得要学习的关系在理想空间中可以用简单函数自然地计算。当我们关注预训练算法的时候，我们不应该只看它的算法描述，而应该更多地关注模型通过学习对象的表征，构建了一个什么样的理想空间。

毕竟，算法的最终目标可能要比算法的前行路线更值得分析。

本文介绍的论文题为《Contrastive Learning Is Spectral Clustering On Similarity Graph》[1]，由谭智泉、张伊凡、杨景钦和我合作完成。

参考

^abcd[3] https://arxiv.org/abs/2303.15103v2
^[1] https://arxiv.org/abs/2106.04156
^abc[2] https://arxiv.org/abs/2201.13053v2
^[4] https://arxiv.org/abs/2002.05709

#RIs-Calib

时空&内参全搞定！多radar和IMU标定新方案！Radar助力INS

由于惯性测量中的噪声和偏差，惯性导航系统（INS）通常会出现长期漂移问题。一个可行的解决方案是将外部传感器（如相机或激光雷达）与INS集成，即构建辅助INS。虽然视觉辅助INS或LiDAR辅助INS可以实现精确的自运动估计，但它们对不利天气条件（如雾、雨和雪）非常敏感。相反，雷达辅助的INS不受这些挑战条件的影响，因为雷达利用较低频率的信号，这些信号在大气气体和雨中的衰减效应较轻。

虽然2D雷达已经广泛应用于自动驾驶车辆（AV），但它们只测量目标的二维信息，即平面坐标中的距离、方位和速度。更先进的3D雷达能够提供额外的俯仰角，从而拥有更广泛的感知范围，目前一些标定方法存在需要关于外参初始猜测的先验知识来启动测量的依赖。

在收集数据时，IMU相关校准需要足够的运动激励以保证参数的可观测性。得益于这种动态校准，它允许时间参数的确定。目前方法都是基于离散时间的方法，在估计中通过一系列离散姿态来表示轨迹，并且通常需要简化假设，这在校准中会引入不可避免的误差。

与离散时间轨迹表示不同，连续时间表示通过连续时间函数来编码轨迹，其中姿态可以在任意时间点计算，使其特别适合于异步或高频传感器融合。最具代表性的是著名的Kalibr，它首次采用B样条作为连续时间轨迹表示来执行全局快门相机和IMU的时空校准。随后，在Kalibr的基础上，Huai等人进一步支持卷帘快门相机。

这些传感器套件的精确时空校准方面仍然存在空白。基于连续时间优化，RIs-Calib[1]是一种无需目标的时空校准方法，适用于集成多个3D雷达和IMU的传感器套件。进行严格的初始化程序，以获得估计器中状态的初始猜测，该过程不需要任何先验知识。随后，基于初始化的参数和来自雷达和IMU的原始测量数据，形成了一个包含雷达因子和IMU因子的非线性因子图，并进行多次批次优化，直到最终收敛。主要贡献如下：

提出了一种基于连续时间估计的多3D雷达和IMU的时空校准方法，该方法支持精确的空间、时间和内在参数校准，并且不需要专门设计的人工目标或先验知识。

与传统的基于连续时间的校准方法使用连续时间曲线来表示轨迹不同，创新性地使用这些曲线来编码旋转和速度曲线，这与雷达和IMU的测量数据自然兼容，并有效降低了优化的复杂性。

模拟和实际环境中的实验，证明所提方法的高精度和高重复性。

开源：https://github.com/Unsigned-Long/RIs-Calib

具体方法问题定义

多雷达和IMU的时空校准方法的结构如图2所示。系统从一个严格的初始化程序开始，该程序恢复了一个所谓的虚拟中央IMU（即本文中参考IMU，其框架记作{}）的旋转和速度B样条，以及传感器的外参和重力。随后，系统会形成一个非线性因子图，该图最小化雷达残差、IMU残差和中心残差，并进行多次优化，直到最终收敛。

系统中的全状态向量包括外参、时间参数、内参、中央IMU的旋转和速度B样条控制点和，以及参数化于中央IMU第一帧 {} 中的重力向量，定义如下：

其中，

其中、和分别是与中央IMU相比的第i个IMU的外部旋转、外部平移和时间偏移；、和分别是与中央IMU相比的第j个雷达的外部旋转、外部平移和时间偏移；和分别是旋转和速度B样条的第k个控制点，其中；是一个二自由度的重力向量，其常量幅度。请注意，将所有时空参数都相对于虚拟中央IMU {} 进行参数化，并将 {} 视为B样条的参考框架，即静态世界框架。

初始化

基于连续时间的时空校准器是一个高度非线性的系统，需要一个严格的初始化程序来获得合理的初始猜测，以便执行全局优化。具体来说，基于多个雷达和IMU的原始测量数据，初始化虚拟中央IMU的B样条、传感器的外参和重力。

旋转B样条初始化

首先基于IMU的原始角速度测量数据执行仅旋转的B样条拟合，以恢复旋转B样条，同时可以同时初始化IMU的外部旋转。具体来说，最小二乘问题可以描述如下：

其中是第i个IMU的第k次角速度测量的时间；表示中央IMU的对应时间戳；是用于维持中央旋转B样条的IMU外部旋转的中心残差；

其中和分别是时间点

外参和重力初始化

在初始化旋转B样条和IMU的外部旋转后，我们继续初始化IMU的外部平移、雷达的外参以及重力。考虑到第j个雷达在时间测量了一个静态目标，基于公式（4）并服从静态约束，有：

其中表示时间时，相对于参考帧的雷达帧的速度，并以帧为参数化。通过堆叠单个雷达扫描中的多个测量值，可以解析地求解。

随后，我们利用基于速度级别的预积分，基于通过公式（12）粗略求解的雷达速度和来自IMU的原始线性加速度测量值恢复重力和未初始化的外参：

其中是IMU外部平移的中心残差；

和

速度B样条初始化

通过初始化的重力向量，我们基于来自雷达和加速度计的原始测量值恢复速度B样条并优化在上一步中获得的量。具体来说，最小二乘问题可以描述如下：

其中表示第j个雷达的第k次扫描；是中的第l个测量值，且是其时间戳；是由中央IMU时钟标记的对应测量时间；

其中是时间点的中央IMU速度，可以通过速度B样条插值获得。注意，当组织这个最小二乘问题时，我们再次使用了基于速度级别的预积分残差。与前一步的不同之处在于，在中，中央IMU的速度，即和，是通过直接插值速度B样条获得的，而不是通过预解线性最小二乘问题获得的雷达速度。至此，初始化过程完成。需要注意的是，我们不会初始化IMU的时间参数和内参，并将它们设置为零或单位矩阵，这对后续的优化影响较小。

批量优化

在完成初始化后，通过最小化IMU残差、雷达残差和中心残差，构建并求解一个非线性最小二乘问题。

IMU残差

IMU残差由陀螺仪残差和加速度计残差组成，其中第i个IMU的第k次测量的陀螺仪残差已经在公式（9）中定义为。至于加速度计残差，我们定义如下：

其中

雷达残差

批量优化中的雷达残差与公式（17）中的

中心残差

由于引入了虚拟中央IMU，并在估计器中维持其B样条，因此需要中心残差来确保系统具有唯一的最小二乘解。具体而言，构建了三种类型的中心残差，即旋转中心残差、平移中心残差和时间中心残差。旋转和平移中心残差已经在公式（9）和（13）中分别定义为和。至于时间中心残差，定义如下：

最后，将所有残差叠加起来，并将批量优化问题描述为以下非线性最小二乘问题：

实验效果

总结一下

RIs-Calib是一种无目标的时空标定方法，针对基于连续时间批量估计的多3D雷达和IMU，该校准器支持空间、时间和内部校准，并且不需要额外的人工基础设施或先验知识。首先进行严格的初始化程序以获取状态的初步猜测，随后通过多个批量优化来确保状态的全局最优。模拟和真实世界的实验的评估结果表明其具有高度的精确性和重复性。

未来方向：将集中于提高RIs-Calib的效率，使其成为一个实时应用程序。

#深度解析以Decoder为核心的无BEV的大一统端到端架构

对话CCF-CV学术新锐奖贾萧松博士论文的一些巧思1. 人开车其实并没有最优解，请问如何确定学习时的参考数据呢?

开车其实也是多种多样的，然后你模仿学习本质上就是告诉他你只能这样做，你做了别的那个mass loss还会惩罚他。其实就是我们说的，我们其实就不能通过模仿来做。我们应该通过告诉他，你这个事情做的到底对不对，你要对了，我就不管你怎么做的，你都是对的对吧？所以说这个就是这样一个理念。

2. Drivetransformer为什么还要直接出感知？我觉得是这样的，就是说端到端自动驾驶，像刚才说的一个最原始的设定，就是希望神经网络自动通过K通过轨迹的好坏的关联，自动找到像素空间上哪些pixel对我这个决策是有作用。这就是本质上最原始的想法。就像ResNet它通过训练能自动找到。比如说我classify鸟的时候，我就看看那些翅膀之类的。但是自动驾驶作为一个高维的还是一个环视，就很难在环视相当于是超高维的场景。因为环视首先是6到11个相机，其次我的图并不是ImageNet那种图。我们是一分辨率是几百几千的图片，然后6张到11张，然后我们还是多帧的，可以看到我们这个空间是非常疯狂的，超高维的。这就是大家机器学习第一课。Curse of dimension问题会非常严重，就导致其实我觉得在现阶段，就大家还没有疯狂到能不借助任何辅助的一些东西来让它收敛。

3. 加detection的好处是什么？

我们他可以通过看detection transformer初步学一些逻辑。就是说车这个东西我都告诉你很重要了，这样我们我们也能有效利用这个标注。

所以说我觉得在现阶段我们标注还是有一定作用的，尤其是可以从闭环、数据效率、scale up角度看这个问题。

4. 然后有人问我的方法是decoder only吗？

其实并不是的，就是也是有image backbone，只不过之前的方法scale up的都是encoder部分，我这个方法其实想更多的研究一下scale up decoder的收益因为GPT是在scale up decoder，包括其实VLM scale up的过程中 Scale up VIT的收益，其实不如scale up LLM来得快。就比如说可能LLM都从7B到70B能力有个飞跃。但VIT从400M变到6B或者说多大好像你要说能有多大的飞跃就是还有待观察。

生成模型与世界模型

5. 生成模型出来的图像符合物理世界规律吗

我们在这篇工作中，就Bench2drive的后续工作中，我们的物理规律是通过框的推演进行的。

所以说我从一开始就跟组里同学讨论，我们不做video diffusion model。因为我们认为pixel to pixel的映射学到物理规律很难，这都是英伟达或者DeepMind的那个级别，可能能真的几十万卡10万卡能训出来，真的通过视频pixel到pixel学出物理规律，不然的话其实很容易就从pixel到pixel学出反物理规律的东西。

所以说我们做的是基于框的condition的生成模型。然后这一点其实跟做重建的同学也异曲同工。就是重建的是更相信自己手中的规则，我们还是希望做的更scalable一点。对，大概是从像素到框，其实这个有非常多的经典工作可以搜索，也有非常多的可以搜一搜。其实包括也可以看看我们的论文，我们也是基于很多前沿的工作，这点其实有非常多的经典模型。

6. 世界模型的定义

世界模型的定义我觉得世界模型其实是有两种定义第一个是用于决策的那种world model的世界模型然后那个就是model based rl 可以学习一下。

就是model based rl 尤其dreamer系列我觉得是非常非常聪明就值得每一个人都看的一个经典，毕竟DeepMind的经典工作；然后另一种呢就是当然就是video diffusion 就是这种呢是用于仿真的，就是各有各的浩。我只能说world model和端道端一样，现在都是框，就是什么都可以往里装，然后其实大家也不必纠结于词汇。，就是只要理清楚要做什么这个模型就可以。

强化学习相关

7. 强化学习训练端到端难点是没有仿真？

可以用Carla。我觉得从研究模型角度来看，研究Carla完全没有问题。我还是那个观点，就是凡是dissCarla的，你先给我搞定卡拉再说。反正目前我们或者说世界范围没有搞定的特别好的。你觉得你瞧不起太简单，那为什么这么厉害呢？我觉得其实Carla可以做。

8. 模仿学习和强化学习的结合有没有好的paper推荐

我觉得这个可以直接谷歌搜索。其实这些探索也非常多的。

9. 强化学习的reward设计？

是的，我觉得强化学习也是我们团队非常欣慰的。我们团队中的成员其实有很多都是强化学习出身，都是沉浸了七八年。有的从本科开始，本硕博一路做上来，所以说也很欣慰。昨天比如说拿了个图灵，当然也不是蹭热度了，就只能说很欣慰。不管是春节期间deep sick的爆火，还是最近的图灵奖，都说明世界开始认可了强化学习原来是真的是走向智能的最后后一步。所以说我理解。所以说我觉得我还是觉得大家强化学习方面可以更多研究，是更值得他研究的新时代方向。

10. RL学到的结果是否不像人开的，体验不好?

RL学到的结果是否不像人体验不好好问题。然后有人说强化学习的reward设计。是的，我觉得强化学习也是我们团队非常欣慰的。我们团队中的成员其实有很多都是强化学习出身，都是沉浸了七八年。有的从本科开始，本硕博一路做上来，所以说也很欣慰。昨天比如说拿了个图灵，当然也不是蹭热度了，就只能说很欣慰。不管是春节期间deep sick的爆火，还是最近的图灵奖，都说明世界开始认可了强化学习原来是真的是走向智能的最后后一步。所以说我理解。所以说我觉得我还是觉得大家强化学习方面可以更多研究，是更值得他研究的新时代方向。

所以说我们在我的ICCV23的oral的工作中研究了我们其实RL之后，就是相当于是很有趣，就是pre-training然后。RL学到的结果是否不像人体验不好好问题所以说我们在我的ICCV23的oral的工作中研究了我们其实 RL之后就是相当于是很有趣就是pre-training.所以也欢迎关注我ICCV23的DriverAdapter。

11. 强化学习中如何提高学习稀疏报酬对效率影响

对我觉得这个也是一直强化学习中的难题。就肯定是一方面希望 RLM可能可以做一些类似工作另一方面可能。目前当然是靠大家设置然后。

12. 如何看显式建模障碍物行为和隐式生成去建模

理解显示中障碍物行为的建模，需要分析障碍物在视觉环境中的表现方式及其互动。这包括研究它们的移动、碰撞检测以及对用户输入的响应。视觉效果的生成则侧重于创造沉浸式和逼真的体验。这一过程通常结合了光照、阴影和粒子效果等技术，以提升整体的视觉吸引力。通过将这两个方面结合起来，设计师可以打造出动态且引人入胜的显示效果，既能有效模拟现实世界的互动，又能保持美学品质。

13. 然后说RL加AD的挑战？

我觉得这就是我们为什么非常喜欢做这个RL加AD，觉得很exciting的原因。因为它其实是一个比甚至我觉得比在LLM做RL更exciting的。因为我们是在做物理空间的，它的不管是这个动态性还是这个观测的复杂度都要复杂的多。因为LLM本质上是完美观测，就你问啥问题，数学题告诉你，你要解解出来，我们这个观测都要靠自己来解决，所以说有很多exciting的topic值得做。其实AD我觉得到了今天反而是RL的值得最兴盛的时期。

端到端的一些思考以及未来研究方向

14. 端到端绝不是像素到Control

我深深尊重任何像素到像素模型，因为它们体现了通用人工智能（AGI）的理想。然而，我在生成建模中的目标是创造智能。因此，我更喜欢一条更快的路径，专注于在空间环境中明确地建模障碍物。

我深深尊重任何像素到像素模型，因为它们体现了通用人工智能（AGI）的理想。然而，我在生成建模中的目标是创造智能。因此，我更喜欢一条更快的路径，专注于在空间环境中明确地建模障碍物。仍然需要一些中间协助。当时，根据当前情况，或许可以通过沟通来处理。包括那些询问如何基于Vector做出决策的人。

15. 请问你认为现在做vector输入的决策觉得还有研究前景吗?

我认为现在是做出决策的最佳时代。前几年，大家普遍认为这是感知的时代，感知领域取得了许多卓越的成果，每天都有令人目不暇接的进展。然而，我认为低垂的果实已经被摘取，因为感知本质上相对容易实现。其实，大家几乎都已经明白了。我觉得应对这个艰巨的挑战相当有趣。

16. 为什么需要像人一样驾驶呀?如果能避开车辆，加减速平滑，驾驶车辆并不一定要像人一样啊

其实有人曾问我，你每天都在研究端到端模型，但缺乏可解释性。我的观点是，我观看了Martin Casado的一场演讲。有人问他关于可解释性的问题，他反问道：“从那个角度来看，你的目标检测器是可解释的吗？你知道它为什么检测到它所检测的东西吗？你会因此失眠吗？例如，你的检测器会解释它先看到马的头，然后是马的身体，最后才检测到马吗？你对此感到担忧吗？”我认为可解释性值得尊重，但这取决于它如何被使用。我认为我们应该更加务实。关于RL（强化学习）与AD（自动驾驶）结合的挑战，这正是我们觉得研究RL与AD如此令人兴奋的原因。

17. Bench2Drive是目前最好用的吗

开个玩笑，我认为Bench2Drive提供了一个非常易于上手的解决方案。跑过Carla v2的人都知道，Carla v2的难度非常高，跑半天可能只能得到个位数的分数，而我们这里可能得到几十分。大家发论文和改进都很方便。我们还提供了一个训练集，数据方面也不用担心。此外，我们在Carla上实现了UNIAD、VAD，模型也可以使用我们写好的code base。我们召集了许多编程能力很强的同学，花了很长时间才开发出来，因此可以为大家节省大量时间。

18. 端到端的范式需要中间过程比如感知的监督，那是不是同样存在传感器布局的问题？

我觉得是存在的。对我我觉得是存在的。然后因为当然其实我觉得也是一个鲁棒性问题。我也看过一些鲁棒性工作，试图训一个unify的detector来针对传感器。这个我就不是专业领域了，大家可以再查查相关工作，我觉得也是很很好的课题。

29. 然后如何看待显示的建模障碍物行为和隐式的生成?

隐式的pixel，我还是刚才那个观点，pixel到pixel的任何模型我都很尊重，因为他们有AGI理想。但是我做生成本质是要是想把智能做出来，所以说我会更走一个更快的路径，还是显示的建模空间中的障碍物质。对，然后还有一个人说端到端绝不是像素到control这一点我也非常认同。我觉得还是需要就从目前来看，还是需要一些中间的辅助的。谁知道？过了50年，数据量没准成了1万倍，到时候可能硬性也能搞定了。目前来看也许还是需要一些中间过程。

20. 做决策基于vector的决策还有研究前景吗？

我作为一个决策出身的干，我觉得现在是做决策最好的时代。前几年是相信大家都觉得是感知的时代，就感知大一统，涌现了非常多优秀的工作，每天都目不暇接。但我觉得low-high-in-foot已经都达到了。因为感知本质上是非常好做的。感知其实大家搞定的差不多了，我觉得啃这个硬骨头还是非常有意思的对。

21. 有人也提出为什么一定要像人一样驾驶？

要不说这个其实是一个非常唯心的观点。其实包括有人问我说，你端你每天搞端到端没有可解释性怎么办？然后我其实的观点就是我也看过凯明大神和恺明大神的一个talk，就有人问他可解释性，他的当时的反问是：我想请问一下你的目标检测的detector，如果只从那个角度看是可解释的吗？你知道你为什么会detect出来这个吗？你会每天担心的睡不着觉吗？就是说你的detector，你怎么没告诉我，我是先看到头了，然后看到马灯的身体，然后我才检测出来这个吗？你会很担心这个事情。就可解释性我觉得是值得尊重，但是看怎么用。对我觉得还是要实用主义一点。

#Uni-Gaussians

小米最新！高效且统一的Camera与Lidar重建算法

论文：https://arxiv.org/abs/2503.08317

Uni-Gaussians 是一种新型混合方法，由小米汽车联合华中科大的研究团队开发，旨在通过高斯原语统一模拟动态驾驶场景中的相机和激光雷达数据。该方法结合了光栅化和高斯光线追踪两种渲染技术，分别用于相机图像和激光雷达点云的渲染，从而解决了现有方法在渲染速度和准确性方面的局限性。

其核心特点在于其创新性的渲染策略：光栅化技术被用于相机图像渲染，以实现快速高效的渲染速度；而高斯光线追踪则被用于激光雷达数据的渲染，以确保与激光雷达传感器的主动感知机制相匹配，从而提高点云模拟的准确性。

此外，该方法采用2D高斯原语来表示场景中的几何信息，并引入球谐系数来模拟激光雷达数据的视图依赖特性，进一步提升了模拟结果的逼真度和泛化能力。

实验结果表明，Uni-Gaussians 在多个公共数据集上的表现优于现有的最先进方法。与基于NeRF的方法相比，该方法显著提高了渲染效率，同时避免了光栅化技术在激光雷达模拟中的不准确性问题。此外，该方法在相机图像渲染中展现出与现有技术相当的视觉效果，并在新视图合成任务中表现出更好的泛化能力。

技术解读

本研究提出了一种基于高斯原语的混合渲染框架Uni-Gaussians，旨在高效且统一地模拟动态驾驶场景中的相机和激光雷达数据。总体思路是通过结合光栅化和高斯光线追踪两种渲染技术，分别针对相机图像和激光雷达点云的特性进行优化渲染，同时利用高斯场景图（Gaussian scene graph）对动态场景进行建模，从而实现对复杂驾驶场景的高效模拟。

该技术的具体处理过程如下：

首先通过高斯场景图将动态驾驶场景分解为静态背景和动态物体（如车辆和行人），并利用2D高斯原语对场景进行建模。
对于相机图像渲染，采用光栅化技术，利用体积alpha混合实现快速渲染；而对于激光雷达点云渲染，则采用高斯光线追踪技术，通过计算光线与高斯原语的交点来模拟激光雷达的主动感知机制。
此外，该技术引入球谐系数来模拟激光雷达数据的视图依赖特性，进一步提升模拟结果的逼真度。

其技术特点主要包括：高效的光栅化渲染确保了相机图像的实时性；高斯光线追踪提高了激光雷达点云的渲染精度；2D高斯原语的使用则在几何表示和计算效率之间取得了平衡。该技术的价值在于为自动驾驶场景下的多传感器数据模拟提供了一种高效且统一的解决方案，显著提升了渲染效率和模拟精度。其在实验中表现出的优越性能，尤其是在激光雷达点云模拟和相机图像渲染的结合上，为自动驾驶车辆的虚拟测试和验证提供了更逼真的环境。

论文速读

本文提出了一种名为 Uni-Gaussians 的新型混合方法，旨在通过高斯原语（Gaussian primitives）统一模拟动态驾驶场景中的相机和激光雷达（LiDAR）数据。该方法结合了光栅化（rasterization）和高斯光线追踪（Gaussian ray-tracing）两种渲染技术，分别用于相机图像和激光雷达点云的渲染，以解决现有方法在渲染速度和准确性方面的局限性。实验结果表明，该方法在渲染质量和计算效率方面均优于现有技术，为自动驾驶场景下的多传感器数据模拟提供了一种高效且逼真的解决方案。

背景知识

自动驾驶车辆的安全性依赖于对多传感器数据（如相机和激光雷达）的全面模拟。现有的神经渲染技术主要分为两类：基于神经辐射场（NeRF）的方法和基于高斯绘制（Gaussian Splatting, GS）的方法。NeRF方法虽然能够高保真地模拟相机和激光雷达数据，但其基于密集采样的光线追踪渲染速度较慢，难以应用于大规模评估。而GS方法通过光栅化实现快速渲染，但在模拟非线性光学传感器（如激光雷达）时存在准确性问题，限制了其在非针孔相机传感器模拟中的应用。

研究方法

1. 统一的高斯场景图表示

文章提出了一种基于高斯场景图（Gaussian scene graph）的表示方法，将动态驾驶场景分解为静态背景和动态物体（如车辆和行人）。通过引入2D高斯原语来表示场景中的几何信息，并为每个高斯原语定义了中心点、切向量、缩放因子、不透明度、球谐系数（用于颜色、强度和激光反射率）等可学习参数。此外，文章还引入了球谐系数来模拟激光雷达数据的视图依赖特性，如强度和激光反射率。

2. 相机图像渲染

对于相机图像的渲染，文章选择使用光栅化技术。通过将2D高斯原语投影到图像平面上，并利用体积alpha混合技术对颜色进行积分，从而实现高效的图像渲染。这种方法在保持渲染质量的同时，显著提高了渲染速度。

3. 激光雷达点云渲染

由于光栅化技术不适用于激光雷达数据的渲染，文章采用了高斯光线追踪技术。通过将2D高斯原语转换为几何原语（如三角形），并利用边界体积层次结构（BVH）加速光线与高斯原语的交点计算，从而实现激光雷达点云的高效渲染。该方法能够更好地模拟激光雷达的主动感知机制，避免了光栅化带来的点云位置紊乱问题。

4. 优化策略

文章提出了一个端到端可微分的优化框架，通过联合优化所有高斯原语的参数（如中心点、缩放因子、不透明度等），以实现对整个动态驾驶场景的模拟。优化过程中使用了多种损失函数，包括L1损失、结构相似性指数（SSIM）、深度误差、强度误差、激光反射率误差和法线一致性约束，以确保渲染结果的逼真度和准确性。

实验

1. 数据集与评估指标

实验基于Waymo Open Dataset进行，选取了8个复杂的动态驾驶场景，包含车辆、行人和骑自行车者。对于激光雷达数据的评估，使用了Chamfer距离、F-score、均方根误差（RMSE）和中值绝对误差（MedAE）等指标；对于相机图像的评估，使用了峰值信噪比（PSNR）和结构相似性指数（SSIM）。

2. 与现有技术的对比

激光雷达数据渲染：与DyNFL和LiDAR4D等现有技术相比，Uni-Gaussians在Chamfer距离、F-score、RMSE和MedAE等指标上均表现出显著优势，分别比DyNFL和LiDAR4D降低了40.9%和46.7%的Chamfer距离误差。
相机图像渲染：与PVG、StreetGS和OmniRe等现有技术相比，Uni-Gaussians在PSNR和SSIM指标上均表现出色，尤其是在新视图合成任务中，展示了更好的泛化能力。

3. 消融实验

渲染方法对比：消融实验验证了高斯光线追踪在激光雷达数据渲染中的优越性，以及光栅化在相机图像渲染中的高效性。实验结果表明，光栅化渲染单张图像的速度比高斯光线追踪快83倍，而高斯光线追踪在激光雷达点云渲染中能够显著提高准确性。

关键结论

文章提出的Uni-Gaussians方法通过结合光栅化和高斯光线追踪技术，实现了对动态驾驶场景中相机和激光雷达数据的高效、统一模拟。该方法在渲染质量和计算效率方面均优于现有技术，为自动驾驶场景下的多传感器数据模拟提供了一种新的解决方案。

#OVTR

多目标跟踪SOTA！华科最新开集端到端跟踪框架~

端到端开集多目标跟踪算法OVTR；
无需显式世界模型引导的Planner算法；
机器人抓取新算法DexGrasp Anything；

OVTR

论文标题：OVTR: End-to-End Open-Vocabulary Multiple Object Tracking with Transformer
论文链接：https://arxiv.org/abs/2503.10616
论文代码：https://github.com/jinyanglii/OVTR

核心创新点：

1. 端到端开放词汇多目标跟踪框架（OVTR）

提出首个基于Transformer的端到端开放词汇多目标跟踪模型，联合建模运动、外观和类别信息，消除传统方法中对复杂后处理（如显式关联匹配、锚框生成）的依赖，显著提升推理速度（3.4 FPS vs. 3.1 FPS）并简化流程。

2. 类别信息传播策略（Category Information Propagation, CIP）

设计跨帧迭代的类别信息流，将当前帧预测的类别嵌入（通过OFA分支输出）作为先验传递至后续帧，解决开放场景中类别感知不稳定的问题。实验表明，CIP策略在TAO验证集上将关联精度（AssocA）提升3.8%，基类分类精度（ClsA₆）提升13.1%。

3. 双分支解码器结构（Dual-Branch Decoder）

对象特征对齐分支（OFA）：通过CLIP图像编码器对齐查询特征（Aligned Queries），提取与视觉语义一致的实例级表征。
类别文本交互分支（CTI）：结合CLIP文本嵌入进行跨模态注意力交互，增强开放词汇分类能力。双分支设计在TAO数据集上将整体性能（TETA）提升6.4%，基类分类精度（ClsA₆）提升20.6%。

4. 解码器注意力隔离策略

类别隔离（Category Isolation）：基于KL散度构建类别差异矩阵，抑制不同类别查询间的注意力交互，减少分类干扰。
内容隔离（Content Isolation）：隔离检测查询（Detect Queries）与跟踪查询（Track Queries）的跨内容交互，缓解初始检测与持续跟踪的语义鸿沟。联合应用两类策略后，关联精度（AssocA）提升5.3%，TETA提升3.4%。

5. 零样本跨域泛化能力

在未使用目标域数据微调的情况下，OVTR在KITTI数据集上实现零样本迁移，MOTA指标（71.8 vs. 69.8）和IDF1（78.3 vs. 75.6）显著优于OVTrack，验证其对开放场景的强适应性。

World Modeling Makes a Better Planner

论文标题：World Modeling Makes a Better Planner: Dual Preference Optimization for Embodied Task Planning
论文链接：https://arxiv.org/abs/2503.10480

核心创新点：

1. 双偏好优化框架（Dual Preference Optimization, D²PO）

提出了一种联合优化机制，通过偏好学习同时增强状态预测（state prediction）与动作选择（action selection）。该方法将直接偏好优化（DPO）扩展至具身任务规划领域，使视觉语言大模型（LVLM）在训练阶段内化环境动态，从而提升规划能力。通过自然语言表征状态变化，模型无需显式世界模型引导即可在推理阶段生成高效动作序列。

2. 基于树搜索的自动数据生成

设计了一种广度优先树搜索（breadth-first tree search）机制，结合环境反馈与模型评分，自动探索可行轨迹并构建多模态逐步偏好数据（multimodal stepwise preference pairs）。该方法通过混合评分（环境可行性 + GPT-4o语义评分）筛选动作，支持无人工标注的规模化数据收集，解决了传统方法对专家演示和人工标注的依赖。

3. 世界建模与规划能力的协同增强

首次将世界模型（world model）目标融入LVLM训练，通过预测动作引发的状态转移（ = (,)），使模型显式学习物理交互的因果链。实验表明，该方法显著减少了依赖错误（dependency error）、功能误用（affordance error）和冗余动作（inefficient error），在7B参数规模下任务成功率（SR）相对基线提升31.4%，路径效率（PL）提升33.0%，并展现出对未见场景的强泛化能力。

4. 仿真到现实的通用性设计

提出VoTa-Bench评测基准，扩展文本型LoTa-Bench为多模态任务，通过第一视角视觉输入和开放域动作生成，更贴合真实机器人部署需求。该方法在AI2-THOR仿真环境中验证了框架的鲁棒性，为后续现实场景迁移奠定了基础。

DexGrasp Anything

论文题目：DexGrasp Anything: Towards Universal Robotic Dexterous Grasping with Physics Awareness
论文链接：https://arxiv.org/abs/2503.08257
项目链接：https://dexgraspanything.github.io/

核心创新点：

1. 物理感知的扩散生成框架

提出了一种基于扩散模型的灵巧抓取生成方法（DexGrasp Anything），通过在训练阶段（Physics-Aware Training）和采样阶段（Physics-Guided Sampler）深度整合三类物理约束：

表面拉力（Surface Pulling Force, SPF）：确保手部内表面与物体表面接近，优化接触质量；
外部穿透排斥力（External-penetration Repulsion Force, ERF）：防止手与物体的几何穿透；
自穿透排斥力（Self-Penetration Repulsion Force, SRF）：约束手部关节间距，避免手指自碰撞。

该框架通过后验采样迭代优化生成过程，显著提升抓取姿势的物理合理性与成功率（Suc.1/Suc.6指标提升约10-20%）。

2. 最大规模灵巧抓取数据集（DGA Dataset）

构建了包含340万抓取姿势的DexGrasp Anything Dataset (DGA)，覆盖15,698个物体，整合多源数据（仿真、真实采集、人类手部抓取）并采用“模型在环”生成策略（Model-in-the-Loop）。通过严格物理验证（如位移稳定性、穿透距离限制），其数据规模与多样性远超现有数据集（如DexGraspNet、GRAB），支持模型在零样本场景下的强泛化能力。

3. LLM增强的语义表征提取

提出结合大语言模型（LLM）的物体表征提取模块，通过语义提示（如物体类别与形状描述）生成语义-几何融合特征，并利用跨注意力机制注入扩散模型。实验表明，该设计（Ours w/ LLM）进一步优化了复杂物体的抓取生成质量（如成功率提升3-5%），尤其在语义相关的抓取策略选择中表现突出。

EmbodiedVSR

论文标题：EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks
论文链接：https://arxiv.org/abs/2503.11089

核心创新点：

1. 动态场景图引导的零样本空间推理框架（EmbodiedVSR）

动态场景图建模：通过实时检测与深度估计，构建并持续更新结构化场景图（），显式建模对象状态动态（位置、功能属性）、几何约束关系及动作引发的环境状态转移，解决传统静态场景图无法适应动态交互的缺陷。
物理约束链式思维推理（Physics-Constrained CoT）：将推理过程分解为原子步骤，每一步通过场景图的物理一致性规则（如几何可行性、力学支持关系）验证，确保多步操作中空间约束的持续性跟踪，避免传统CoT的几何脱节问题。
零样本泛化能力：通过神经-符号组件的参数无关交互，结合预训练模型的抽象推理能力与动态场景图的物理锚定，无需任务特定微调即可实现复杂长视界任务的可靠推理。

2. 面向具身智能的评测基准（eSpatial-Benchmark）

动态交互场景覆盖：基于RoboMIND重构的eSpatial-RoboMIND和LEGO装配任务驱动的eSpatial-Lego，引入动作条件化对象状态、物理稳定性约束及多维空间关系标注（相对位置、颜色细粒度区分、堆叠几何边界等），填补传统静态视觉问答（VQA）与可执行空间认知间的评估鸿沟。
任务驱动评估协议：通过可配置的LEGO结构组装任务，严格评测模型对物理属性理解、空间依赖解析、结构稳定性推理及层级化操作序列生成的能力，耦合推理有效性于可执行动作生成中。

3. 系统集成与验证

机器人操作闭环验证：在Tien Kung人形机器人平台部署EmbodiedVSR，实现基于动态场景图的LEGO结构重建任务，验证80%的操作成功率与100%的装配描述准确率，证明框架在真实物理交互场景的实用性。
模块化协同设计：通过检测模型（OVD）与深度估计提供精确感知输入，结合大语言模型（LLM）的关系推理能力，解决单一模块的泛化局限（如检测模型混淆、纯LLM提示的几何幻觉），实现感知-推理-执行的端到端协同优化。

51c自动驾驶~合集24

#DriveArena

#AdaOcc

#端到端引发的权力重新分配

#Mamba和自动驾驶结合会是未来的趋势么

#NeRF怎么做视觉定位

#自动驾驶领域SLAM技术是不是过时了

#基础模型如何更好应用在具身智能中

#基于自适应交互模态探索的预测与决策

#对比学习到底在学啥？

#RIs-Calib

#深度解析以Decoder为核心的无BEV的大一统端到端架构

#Uni-Gaussians

#OVTR

网站公告

今日签到

热门文章

最新发布