51c自动驾驶~合集54

发布于:2025-03-16 ⋅ 阅读:(13) ⋅ 点赞:(0)

我自己的原文哦~     https://blog.51cto.com/whaosoft/13517811

#Chameleon

快慢双系统!清华&博世最新:无需训练即可解决复杂道路拓扑

在自动驾驶技术中,车道拓扑提取是实现无地图导航的核心任务之一。它要求系统不仅能检测出车道和交通元素(如交通灯、标志),还要理解它们之间的复杂关系。例如,判断车辆是否可以左转进入某条车道,就需要综合考虑交通规则、车道布局和信号灯状态等多种因素。然而,现有的解决方案存在明显局限性。一方面,密集视觉提示方法虽然准确,但计算成本高昂,且在实时处理中效率低下,难以应用于实际场景。另一方面,神经符号推理方法虽然效率较高,但在处理复杂场景(如交叉路口)时,常常因为缺乏视觉信息而无法做出准确判断。

为了解决这一难题,清华大学与博世中央研究院RIX联合提出了一个创新的解决方案——Chameleon。它通过一种快慢系统交替的神经符号方法,成功平衡了效率与性能,为自动驾驶领域带来了新的突破。

论文链接:​https://arxiv.org/pdf/2503.07485​

开源地址:​https://github.com/XR-Lee/neural-symbolic​

引言

在线地图感知是现代自动驾驶中的一个重要课题,它避免了对高成本高精地图的依赖。当前的三维场景理解方法虽然能够有效检测车道和交通元素(如图1所示),但这些实例之间的关系复杂,需要大量标注数据进行监督训练。为此,我们提出了一种基于视觉语言基础模型(VLM)的少样本(few-shot)方法,用于提取车道拓扑。

图片

图1:VLM无法直接解决复杂的三维场景理解任务,例如车道拓扑提取。(a) 一种可能的方法是使用密集视觉提示(如RedCircle),虽然准确但效率低下。(b) 另一种方法是神经符号推理(如NS3D),但这种方法在程序合成时未能有效利用视觉输入,导致在处理复杂边缘情况时效果不佳。(c) 我们提出的Chameleon方法采用快慢交替的设计,其中一个VLM用于合成程序,另一个用于处理边缘情况。

具体而言,我们专注于OpenLane-V2定义的车道拓扑提取任务,即检测车道和交通元素(如交通信号灯和标志),并提取它们之间的关系。这一任务极具挑战性,需要高水平的推理能力,例如判断车辆在交叉路口是否可以驶入某条车道。然而,现有的VLM仍无法直接解决这种复杂的三维场景理解任务。

为解决这一问题,我们结合了两类基于VLM的方法:密集视觉提示神经符号推理。密集视觉提示(如RedCircle)通过在图像上放置红色圆圈,将复杂推理任务转化为问答(QA)任务。但这种方法会导致大量的QA查询,计算成本高昂且不适合实时应用(如图1-a)。神经符号推理(如NS3D)虽然效率更高,但在程序合成时未能整合视觉信息,无法有效处理复杂边缘情况(如图1-b)。

因此,我们提出了一种名为“Chameleon”的快慢系统交替的神经符号车道拓扑提取器(如图1-c)。它通过VLM合成程序,根据视觉输入定制推理过程,并动态切换快慢系统以平衡效率和性能。此外,我们还提出了一个链式推理(COT)方法,用于识别和处理需要额外推理的边缘情况。

图片

图二:Chameleon架构概览。输入多视图图像后,视觉模型分别生成交通元素和车道线段的检测结果。提出的快速系统利用一个大型视觉语言模型(VLM),以预定义的视觉-文本少样本和文本提示为输入,生成可执行代码以处理视觉模型的预测结果。提出的慢速系统包括一个视觉问答(VQA)API集和一个具有链式推理能力的视觉语言模型(VLM),其中VQA API集中的视觉提示和文本提示是VLM的输入。随后,拓扑推理结果是代码执行结果和VLM输出的组合。

方法

A. 概述

在车道拓扑提取任务中,我们预测一个密集的邻接矩阵,用于表示车道线段和交通元素之间的关系。具体来说,车道线段之间的关系由矩阵 A∈Rm×m 表示,车道线段与交通元素之间的关系由矩阵 A∈Rm×n 表示,其中 m 和 n 分别是车道线段和交通元素的数量。尽管密集视觉提示可以实现高性能,但其高昂的成本、环境影响和低效的推理速度使其不适用于实时应用。因此,我们采用链式推理(Chain-of-Thought, COT)方法,仅对稀疏的边缘情况进行密集视觉提示,从而提高推理效率。

为了高效处理任务,我们设计了快慢系统架构。快速系统使用符号表示处理基本推理任务,适用于简单场景(如直线车道);而慢速系统则针对复杂边缘情况(如交叉路口的密集交通和多种交通元素)进行深度推理。这种架构通过动态切换快慢系统,平衡了效率和性能。

图片

B. 提示

为了执行符号推理,我们使用多种提示来生成符号代码。这些提示包括带有few-shot参考的视觉提示(正例或负例)、API描述和专家规则。

  • API提示:API提示定义了生成代码的输入和输出,以及API的输入输出描述,例如用于车道自定位和并行车道搜索的函数等。在我们的实现中,我们还将选定的VQA任务定义为程序合成期间的API。
  • 专家规则提示:为了稳定代码生成过程并整合领域专家的先验知识,我们将专家规则添加为程序合成的提示。例如,在TOP lsls任务中,强制执行角度和距离约束。例如,父车道的终点不应与子车道的起点相距过远,以满足驾驶几何约束。在TOP lste任务中,规则规定不允许在交叉路口内存在车道拓扑。
  • few-shot提示:在few-shot场景中,我们选择正例和负例,并将它们渲染为相机的透视图。我们还将这些示例的坐标转换为文本,分别作为视觉提示和文本提示。
  • VQA提示:对于VQA任务,文本提示由关于语义和空间上下文的简单问题组成。我们还使用链式推理(COT)提示。视觉提示基于预测结果从透视图和鸟瞰图中渲染图像。

图片

图三:Chameleon架构示意图。输入多视图图像和文本提示后,Chameleon实现车道拓扑提取。每个API或密集视觉提示VQA任务表示为一个节点。具有链式推理(Chain-of-Thought, COT)能力的视觉语言模型(VLM)根据输入动态选择需要执行的节点,以推断拓扑结果。

C. 代码执行

对于生成的程序,TOP lsls和TOP lste任务的代码执行过程有所不同。对于TOP lsls任务,使用简单的成对预定义代码框架,VLM根据API描述和给定的提示生成Python代码。此代码以字符串形式生成,然后使用Python的​​exec​​函数执行。相比之下,TOP lste任务涉及更多的API调用(如图3所示),因此我们使用OpenAI的函数调用API来管理所需的函数执行。首先,我们提示VLM生成一个链式推理,以解决拓扑提取问题,该问题包含六个步骤(如图3执行模块所示)。这进一步用作文本提示,供VLM合成程序根据视觉输入自适应地跳过某些步骤。某些步骤涉及需要通过密集视觉提示VLM模型处理的边缘情况,因此被送入慢系统。通过总结API结果,系统可以推断出潜在的拓扑对。

D. 密集视觉提示VQA任务

密集视觉提示VQA任务是慢系统的核心API,特别是在开放场景拓扑推理的互操作过程中。为了测试VLM模型的能力,我们创建了几个基本的VQA任务。如表II所示,我们关注四个不同的任务。在“左或右”任务中,以鸟瞰图(BEV)的形式呈现两条车道线段。模型需要执行三类分类,选择左侧、右侧或无关系。对于“是否在交叉路口”任务,以马赛克形式显示单条车道,左侧为鸟瞰图(BEV),右侧为前方透视图(PV)。模型需要判断该车道线段是否在交叉路口内。在“邻接性”任务中,给出两条车道线段,模型需要判断它们是否相邻。最后,在“向量”任务中,模型需要评估两条渲染的向量箭头的方向是否匹配。

实验

A. 实验设置

我们在OpenLane-V2官方验证数据集上评估了Chameleon方法,该数据集提供了车道线段和交通元素之间的拓扑注释。此外,我们手动标注了500个样本,涵盖四个密集视觉提示VQA子任务,用于评估性能指标。这些数据集不仅支持车道拓扑提取任务,还适用于其他自动驾驶场景。

在评估指标方面,我们报告车道线段检测和交通元素检测的平均精度均值(mAP)。对于拓扑任务,采用OpenLane-V2官方指标TOPlsls(车道线段间拓扑mAP)和TOPlste(车道线段与交通元素间拓扑mAP)。对于VQA分类问题,由于正负样本在标注时保持平衡,我们使用准确率(Accuracy)作为评估指标。

图片

图片

B. 实现细节

我们将Chameleon方法应用于自定义基线,并进行了实验。基线方法结合了SMERF的SD编码和融合模块,使用LanesegNet框架检测车道线段,并通过DETR实现2D交通元素检测,同时并行训练TopoMLP以预测拓扑关系。为了进一步提升性能,我们还设计了一个增强基线(“Powerful Baseline”),引入了StreamMapNet的时间信息,使用更大的Vovnet作为骨干网络,并采用YOLOv8进行交通元素检测。在少样本学习场景中,我们采用3-shot配置,包含三个帧及其注释作为参考。

对于视觉语言模型(VLM),我们使用了GPT-4的官方API(包括GPT-4-vision-preview和GPT-4o)以及LLaVA-v1.5-13b-full ft-1e权重。此外,我们还进行了VQA基准测试,使用基于ResNet18的MLP分类模型,数据集按3:1比例分为训练集和测试集,采用Adam优化器和交叉熵损失函数进行20个周期的训练。

C. 定量和定性结果

与最新方法的比较:在本节中,我们将提出的少样本方法与OpenLane-V2验证集上的最新监督方法进行了比较。表I显示了与LaneSegNet、TopoLogic和MapVision等方法的比较结果。

我们的方法使用了两个不同的基线,每个基线使用不同的骨干网络。基线基于LanesegNet和TopoMLP实现,并结合了SMERF中的SD编码和融合过程。如表所示,我们的方法在few-shot设置中实现了与监督基线相当的性能,甚至在TOPlste任务中略微超过了全监督模型。总体而言,我们的方法在仅使用少样本的情况下表现出显著的竞争力。

图片

图四:TopoMLP和我们的方法(Chameleon)在OpenLane-V2验证数据集上的定性结果对比。(a) 车辆刚刚通过交叉路口。(b) 前方有一个左转交通灯。(c) 地面车道标有直行标志。(d) 车辆行驶在单向右转车道上。所选场景均为边缘情况,需要通过密集视觉提示进行进一步推理。每个子图均包含鸟瞰图(BEV)和前视图(PV)。蓝色线条表示车道线段检测结果,绿色线条表示车道与交通元素之间的真正例(ls-te),粉色线条表示车道与交通元素之间的假正例(ls-te)。当车辆刚刚通过交叉路口时(图4-a),车辆正上方的绿灯与交叉路口前方的车道没有拓扑关系。我们的方法(Chameleon)理解了绿灯与车道之间的空间关系,从而做出了正确的判断,而TopoMLP则相反。在图4-b中,左转交通灯仅与最左侧车道存在拓扑连接。与TopoMLP不同,我们的方法正确地忽略了与右侧车道的关系。地面车道标有直行标志(图4-c),因此该标志仅与其自身车道和连接车道相关,而不是其他平行车道。我们的方法做到了这一点,而TopoMLP没有做到。车辆行驶在单向右转车道上(图4-d),控制直行交通的两侧绿灯不影响车辆。我们的解决方案正确地判断了绿灯与车道之间不存在拓扑关系。

不同VLM方法的VQA比较:由于其通用性,VQA与各种VLM兼容。表II比较了不同VLM在四个任务上的性能。在这些任务中,我们发现GPT-4的性能与监督分类器模型相当,而LLaVA在语义和空间理解任务中表现较差。

图片

数据和推理效率比较:为了比较不同方法之间的推理成本,我们在RTX 4080 GPU上测试了LLaVA的平均VQA任务延迟。平均VQA延迟约为1447毫秒。在我们的实验中,每帧平均执行6次VQA,导致慢速系统的延迟为8.7秒/帧。TopoMLP的延迟根据不同的骨干网络和图像分辨率而变化,范围从140毫秒到700毫秒。密集视觉提示的延迟是基于20×20矩阵的逐个VQA计算得出的,结果为每帧超过200秒。详细信息总结在表IV中。

图片

定性结果:为了更直观地展示我们算法的性能,我们还提供了OpenLane-V2验证数据集上预测的ls-ls关系和ls-te关系的定性可视化结果。所有比较的场景均为边缘情况,每个子图均包含鸟瞰图和前视图。蓝色线条表示车道线段检测结果,绿色线条表示ls-te真正例,粉色线条表示ls-te假正例。

当车辆刚刚通过交叉路口时(图4-a),车辆正上方的绿灯与交叉路口前方的车道没有拓扑关系。我们的方法(Chameleon)理解了绿灯与车道之间的空间关系,从而做出了正确的判断,而TopoMLP则相反。在图4-b中,左转交通灯仅与最左侧车道存在拓扑连接。与TopoMLP不同,我们的方法正确地忽略了与右侧车道的关系。地面车道标有直行标志(图4-c),因此该标志仅与其自身车道和连接车道相关,而不是其他平行车道。我们的方法做到了这一点,而TopoMLP没有做到。车辆行驶在单向右转车道上(图4-d),控制直行交通的两侧绿灯不影响车辆。我们的解决方案正确地判断了绿灯与车道之间不存在拓扑关系。

图片

D. 消融研究

我们在OpenLane-V2验证集上对TOPlsls任务进行了消融研究,以评估我们框架中每个组件的有效性。结果如表V所示。“提示到符号”指的是仅提供API提示的基本神经符号推理。由于生成代码的不稳定性,我们报告了三次符号推理结果的平均值作为最终性能。“专家规则”指的是将专家观察结果纳入提示。对于少样本示例,我们引入了三个正例和三个负例以改进生成的程序。

结论

本文介绍了一种名为“Chameleon”的新方法,该方法结合了密集视觉提示和神经符号推理,利用视觉语言基础模型(VLM)以few-shot的方式提取车道拓扑。Chameleon通过整合视觉信息来合成程序,针对特定场景定制处理过程,并通过密集视觉提示高效地处理边缘情况。通过平衡计算效率和高性能,Chameleon适用于实时机器人应用,并展示了将视觉输入整合到复杂三维场景任务程序合成中的潜力。未来的工作可以探索将这种方法扩展到其他自动驾驶领域。

#GO-1

智元发布首个通用xx基座大模型

智元发布首个通用xx基座模型——智元启元大模型(Genie Operator-1),它开创性地提出了Vision-Language-Latent-Action (ViLLA) 架构,该架构由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力,三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了xx智能门槛,并成功部署到智元多款机器人本体,持续进化,将xx智能推上了一个新台阶。

研究论文:

​https://agibot-world.com/blog/agibot_go1.pdf​

2024年底,智元推出了 AgiBot World,包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集。基于AgiBot World,智元今天正式发布智元通用xx基座大模型 Genie Operator-1(GO-1)。

01

 GO-1:VLA进化到ViLLA

图片

为了有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据,增强策略的泛化能力,智元提出了 Vision-Language-Latent-Action (ViLLA) 这一创新性架构。GO-1作为首个通用xx基座大模型,基于ViLLA构建。与Vision-Language-Action (VLA) 架构相比,ViLLA 通过预测Latent Action Tokens(隐式动作标记),弥合图像-文本输入与机器人执行动作之间的鸿沟。在真实世界的灵巧操作和长时任务方面表现卓越,远远超过了已有的开源SOTA模型。

ViLLA架构是由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。在推理时,VLM、Latent Planner和Action Expert三者协同工作:

  1. VLM 采用InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;
  2. Latent Planner是MoE中的一组专家,基于VLM的中间层输出预测Latent Action Tokens作为CoP(Chain of Planning,规划链),进行通用的动作理解和规划;
  3. Action Expert是MoE中的另外一组专家,基于VLM的中间层输出以及Latent Action Tokens,生成最终的精细动作序列;

下面展开介绍下MoE里2个关键的组成Latent Planner和Action Expert:

图片

混合专家一:

Latent Planner(隐式规划器)

尽管AgiBot World 数据集已经是全球最大的机器人真机示教数据集,但这样高质量带动作标签的真机数据量仍然有限,远少于互联网规模的数据集。为此,我们采用Latent Actions(隐式动作)来建模当前帧和历史帧之间的隐式变化,然后通过Latent Planner预测这些Latent Actions,从而将异构数据源中真实世界的动作知识转移到通用操作任务中。

  • Latent Action Model(LAM,隐式动作模型)主要用于获取当前帧和历史帧之间Latent Actions的Groundtruth(真值),它由编码器和解码器组成。其中:
  • 编码器采用Spatial-temporal Transformer,并使用Causal Temporal Masks(时序因果掩码)。
  • 解码器采用Spatial Transformer,以初始帧和离散化的Latent Action Tokens作为输入。
  • Latent Action Tokens通过VQ-VAE的方式进行量化处理。
  • Latent Planner负责预测这些离散的Latent Action Tokens,它与VLM 主干网络共享相同的 Transformer 结构,但使用了两套独立的FFN(前馈神经网络)和Q/K/V/O(查询、键、值、输出)投影矩阵。Latent Planner这组专家会逐层结合 VLM 输出的中间信息,通过Cross Entropy Loss(交叉熵损失)进行监督训练。

混合专家二:

Action Expert(动作专家)

为了实现 High-frequency(高频率)且 Dexterous(灵活)的操控,我们引入Action Expert,其采用Diffusion Model作为目标函数来建模低层级动作的连续分布。

  • Action Expert结构设计上与Latent Planner类似,也是与 VLM 主干网络共享相同的 Transformer 结构,但使用两套独立的FFN和Q/K/V/O投影矩阵,它通过Denoising Process(去噪过程)逐步回归动作序列。
  • Action Expert与VLM、Latent Planner分层结合,确保信息流的一致性与协同优化。

实验效果

图片

通过Vision-Language-Latent-Action (ViLLA) 创新性架构,我们在五种不同复杂度任务上测试 GO-1,相比已有的最优模型,GO-1成功率大幅领先,平均成功率提高了32%(46%->78%)。其中 “Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(补充饮料) 任务表现尤为突出。此外我们还单独验证了ViLLA 架构中Latent Planner的作用,可以看到增加Latent Planner可以提升12%的成功率(66%->78%)。

02

GO-1:xx智能的全面创新

GO-1大模型借助人类和多种机器人数据,让机器人获得了革命性的学习能力,可泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。同时,它还支持部署到不同的机器人本体,高效地完成落地,并在实际的使用中持续不断地快速进化。

这一系列的特点可以归纳为4个方面:

  • 人类视频学习:GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解,更好地为人类服务。
  • 小样本快速泛化:GO-1大模型具有强大的泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了xx模型的使用门槛,使得后训练成本非常低。
  • 一脑多形:GO-1大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体,群体升智。
  • 持续进化:GO-1大模型搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,越用越聪明。

智元通用xx基座大模型GO-1的推出,标志着xx智能向通用化、开放化、智能化方向快速迈进:

  • 从单一任务到多种任务:机器人能够在不同场景中执行多种任务,而不需要针对每个新任务重新训练。
  • 从封闭环境到开放世界:机器人不再局限于实验室,而是可以适应多变的真实世界环境。
  • 从预设程序到指令泛化:机器人能够理解自然语言指令,并根据语义进行组合推理,而不再局限于预设程序。

GO-1大模型将加速xx智能的普及,机器人将从依赖特定任务的工具,向着具备通用智能的自主体发展,在商业、工业、家庭等多领域发挥更大的作用,通向更加通用全能的智能未来。

#DecoupledGaussian

基于物理的前提

为了提升真实感,研究逐渐超越了传统表示方式,如点云、网格、体素网格和有符号距离场(SDF)。神经辐射场(Neural Radiance Fields, NeRF)利用神经渲染技术从视频中生成新视角图像,使得模拟内容能够直接来源于捕获的数据,从而应用于交互式游戏、动画和仿真。此外,高斯喷溅(Gaussian Splatting, GS)因其快速渲染和重建速度而广受关注。GS 利用 离散高斯核 来表示 3D 场景,使得从视频中重建的物体更容易直接操作和处理。

然而,当前基于物理的仿真方法,无论是使用 NeRF还是 GS,大多仅关注 合成物体,这允许在重建过程中对物体进行全视角观察;或者仅支持 弹性形变与抖动,即物体仍受限于初始接触表面,无法真正脱离并独立运动。因此,当用户施加外部冲击力时,这些方法无法实现物体的真实分离。

为了让物体能够在仿真前 摆脱初始接触表面的限制,我们需要首先将物体与接触表面解耦。在现实环境中,物体通常受重力影响,并停留在其他表面上,例如图 1 中基座上的雕塑。在拍摄过程中,物体与其接触表面往往被视为一体,这会导致部分区域隐藏或被遮挡,使得物体表面的表示变得支离破碎。因此,解耦的主要挑战在于:在仿真前准确恢复并补全物体及其周围场景的 3D 结构。

为了解决这一问题,本文介绍的**DecoupledGaussian[1]**,该系统利用 高斯喷溅(GS) 从自然场景视频中恢复物体及其接触表面的 3D 几何结构和纹理,为真实的物体-场景交互式仿真奠定基础(见图 1)。值得注意的是,2D 修复(inpainting)(如图 2)通常难以进行 3D 恢复,尤其是在准确捕捉几何位置信息方面。我们的方法通过结合几何先验(假设表面为封闭形状)和多视角观察,从训练视角恢复 真实的物体与场景几何,克服了这些限制。

具体而言,我们的方法采用 联合泊松场(Joint Poisson Fields) 来重建物体和场景的形状指示符,以解决物体与场景的 交叉区域问题。直接使用高斯中心点可能会导致物体重建出现 表面偏差,因为混合渲染会引入伪影。为避免此类问题,我们采用 基于平面的 GS 方法,使用 无偏深度图创建 代理点,以实现更真实的物体重建。此外,我们引入 单向负交叉熵 方法进行 多视角雕刻,以优化几何结构,使其与观测视角对齐。

DecoupledGaussian 是首个 无需 2D 修复 即能独立恢复物体和接触表面几何结构的系统。2D 修复仅用于 纹理属性的优化。我们在真实视频数据集上进行了大量实验,包括 新的解耦基准(decoupling benchmark),并结合 用户研究、定量比较和消融实验,验证了我们的方法在 恢复精确 3D 属性和实现精准交互仿真 方面的有效性。

项目链接:https://wangmiaowei.github.io/DecoupledGaussian.github.io/

主要贡献

  • 开发了一种物体-场景交互式仿真系统,该系统允许物体在由 自然场景视频 重建并表示为 GS 后,与接触表面完全分离。
  • 引入几何先验,利用联合泊松场 和 多视角观察 结合 单向负交叉熵(UNCE),提升 GS 中的 几何属性恢复能力

具体方法

DecoupledGaussian 系统从重建的高斯喷溅 GS 场景开始,允许静止在平面表面的物体在仿真中实现合理的分离运动,如图 3 所示。首先,物体被分割出来,并采用基于平面的 GS 使高斯点对齐到底层的场景几何结构。在物体与场景分离后,系统利用几何先验信息,通过联合泊松场 Joint Poisson Fields 修复物体和场景的破损表面。对于物体,代理点 proxy points 被用作泊松场的输入,并通过单向负交叉熵 Unilateral Negative Cross-Entropy 方法进行雕刻,以确保几何结构与训练视角对齐。然后,使用二维修复技术对高斯的纹理属性  进行优化,最后通过移动最小二乘-材料点法 MLS-MPM 进行物体和场景的实时交互式仿真。本节将详细介绍各个阶段的实现方法。

三维高斯准备

场景使用普通消费级相机自由录制,然后使用 COLMAP 进行内外部标定,并生成初始高斯中心点。

基于平面的高斯喷溅

仅依赖图像重建损失优化标准的三维高斯模型通常会陷入局部最优,使得几何提取变得困难,而准确的几何提取对于后续的修复阶段至关重要。为了避免这一问题,我们采用 PGSR 方法进行无偏深度  估计。

由于标准高斯分布的无序性,我们首先将高斯点压缩到与场景表面对齐的近似局部平面,通过最小化尺度项  进行优化,以在允许一定渲染质量损失的情况下提高几何精度。

压缩到平面后,我们为高斯点  分配法向量 ,其方向由视角方向确定。到图像平面的距离计算如下:

其中, 为从相机中心到高斯中心  的向量。最终,在像素  处的无偏深度计算如下:

其中, 为相机的内参矩阵, 为像素  的齐次坐标。压缩后的高斯点提供了单视角和多视角的几何正则化,以保证几何一致性,并通过曝光补偿来减少光照变化的影响。

高斯分割

我们采用 GS 分割方法,为每个高斯核  赋予语义亲和特征 ,并通过一个单层 MLP  将 -混合后的特征  映射到  个分割类别的概率分布,并使用 softmax 进行归一化。网络使用交叉熵损失进行训练,训练数据为 SAM2 生成的多视角二维分割标签。为了减少相邻高斯点之间的误分类,我们应用了局部特征平滑。

物体-场景修复

为了模拟物体  与其周围场景表面  的交互,我们首先需要将  从  中分离出来。具体方法是通过比较语义亲和特征  与像素点  处的 -混合特征 ,确定属于  的高斯点集。然后,利用 K 近邻方法去除表示残留伪影的临近高斯点。接下来,我们修复并补全  和 ,以实现真实的物理仿真。

联合泊松场

本方法的核心贡献之一是对 GS 的几何属性  进行几何修复,假设物体  和场景  是平滑、封闭的形状。基于泊松曲面重建与环绕数场的等价性,我们提出联合泊松场 Joint Poisson Fields,该方法利用异构约束同时修复  和  的几何结构。具体步骤如下:

  1. 通过屏蔽泊松重建计算场景表面  和物体表面  的指示函数  和 ,以隐式方式确保曲面具有最小曲率。
  2. 通过世界坐标变换,将  映射到  所在的网格中,并在交叉区域  处进行冲突解决,以确保  和  互不重叠。
  3. 从  生成密集内部点集 ,并应用 Marching Cubes 算法将  转换为网格 ,随后进行重网格化和裁剪,最终转换为世界坐标系。

代理点

由于 -混合效应,直接使用高斯中心点  可能无法准确表示  的复杂表面。为此,我们引入代理点  以增强泊松重建质量。

单向负交叉熵

泊松场通常会导致几何扩张,即额外填充了不属于  的体积。为了解决这一问题,我们提出单向负交叉熵进行多视角雕刻。具体公式如下:

其中, 为 SAM2 生成的二真实物体掩码, 为当前优化过程中物体的  值。

高斯恢复

对于场景  的修复,我们首先绑定新的平坦三维高斯到网格 ,并最小化其法向方向的缩放因子 。在后续优化中,仅优化纹理属性 ,而几何属性  设为固定值。

交互式仿真

我们利用 MLS-MPM 对修复后的高斯进行仿真,以支持用户施加冲击力、弹性形变、碰撞和断裂等交互场景。在 MLS-MPM 网格操作阶段,我们将场景  的网格节点速度设为零,以模拟粘附边界条件。此外,我们使用 RANSAC 估算平面法向量,以自动对齐重力方向。

实验效果

总结一下

本文提出了 DecoupledGaussian,这是一种快速且鲁棒的方法,能够从接触表面分离静态物体,并恢复其几何和纹理,以实现基于 MLS-MPM (Moving Least Squares Material Point Method) 模拟器的物体-场景交互。

局限性:本研究未涉及包含多个物体的复杂场景,特别是当物体之间具有不同的接触配置时。此外,物体恢复中的高频纹理补全仍然具有挑战性,未来可能需要借助基于 GS (Gaussian Splatting) 的纹理生成方法来提升细节质量。此外,如何进一步对个体物体的 精细组件 (fine-grained components) 进行分离仍是一个待解决的问题。

参考

[1] DecoupledGaussian: Object-Scene Decoupling for Physics-Based Interaction

#浅聊自动驾驶端到端的脉络整理

感知&预测&规划背景自动驾驶感知最近似乎进入瓶颈期,接近一年的时间Nuscenes障碍物检测榜单都不再有更新,而大模型如火如荼的发展把数据驱动的AI发展逻辑也代入了自动驾驶领域。这篇博客主要是想把最近关注到的一些自动驾驶端到端的论文整理一下,捋出一些有价值的思路和想法。

参考VAD的论文思路,我会把端到端整体划分为3部分:

  1. 感知端到端
  2. 预测端到端
  3. 规划端到端-端到端整体架构

感知端到端

感知端到端这一块主要涉及到多传感器融合和时序融合。我想从障碍物和车道线这2个领域分别调一篇比较有代表性的论文聊一聊。

  • 障碍物:Sparse4D v3: Advancing End-to-End 3D Detection and Tracking

nuscensce视觉障碍物检测SOTA方案,整体架构延续DETR一派,新增维护memory队列,其中巧思很多,主要有一下几点:

  1. 可学习query中新增队列实例做初始化(注意速度,是否拿来做障碍物的位置编码残差项?)
  2. 按属性拆分的attention
  3. 在模型中做实例信息整合,而无需显式匹配,在记忆队列里维护实例id
  • 车道线:MapTracker: Tracking with Strided Memory Fusion for Consistent Vector HD Mapping

选择这篇主要是思路和效果都不错,放个效果图大家感受一下~

这篇文章比较吸引我的一个点在架构上

这篇文章和上面的Sparse4D一样是维护了2个记忆队列,可以把这些记忆队列理解为车道线的隐藏状态,这个状态在时序迭代中是越来越切合实际的。可以着重关注一下Minit的2个feature,可以看到在推理的初始阶段这2个tensor是不包含什么信息的,随着推理,这2个tensor的信息实际上由t-1时刻的特征替代,整个架构的前一部分是做t-1 - > t时刻的预测,后一个阶段是做t-1和t时刻的特征融合和t时刻的状态估计,整个流程和卡尔曼滤波几乎别无二致,这也算是一种致敬吧,哈哈哈

思考点:这里的所有CA能不能参考LLM换成因果attention?

预测端到端

1. FIERY: Future Instance Prediction in Bird's-Eye View from Surround Monocular Cameras

虽然是21年的文章,但是确实非常经典

文章的预测部分引入一个隐藏的状态,这个状态满足个元素相互独立的多元正态分布,通过网络预测其期望和方差,再通过分布采样一个状态作为当前时刻的隐藏状态,这个隐藏状态又作为输入用来预测下一时刻的环境。

个人觉得这样建模是比较好的体现了未来的不确定性。

2. Perceive, Interact, Predict: Learning Dynamic and Static Clues for End-to-End Motion Prediction

把障碍物轨迹预测建模为多智能体+多运动模式的组合,核心点在下面这个公式,可以按MapTRV2的思路去理解,即智能体和运动模式看做正交的2个变量,通过2者间的组合可以构建其智能体运动空间

下面是不同运动模式的运动终点的可视化分析,可以看到不同运动模式的偏好

这篇文章的建模稍显复杂,感觉不是很必要,整体思路上参考一下就行了

规划端到端-端到端架构

这一部分主要介绍一下最近看的几篇比较流行的端到端架构,总结一下异同。

1. VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning

首当其冲的这篇论文架构重点确实清新,指出了端到端的核心点,规划模块。实际上这篇论文很清晰的指出了规划模块的输入输出和约束。

输入包含几块:感知结果,原始图像信息,导航信息和自车运动信息。

输出:规划轨迹的概率分布

监督信号:实际轨迹与预测轨迹的KL散度

约束信息:地图和其他障碍物约束

图片

最后提一句损失函数,有3部分:

  1. 轨迹的概率分布之间的KL散度
  2. 碰撞等约束条件的冲突损失
  3. 感知的监督损失

这样重点清晰,逻辑自谦,可视化简洁的文章可真是懒人最爱~~~

2. Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving

这篇文章与VAD师出同门,一样优秀的可视化功底,几张图基本把训练流程、模型架构和模块间相互支撑的关系讲清楚了

这篇是VLM结合端到端的文章,重点主要在VLM的设计上,以下是VLM关注的几个问题:

  1. 场景描述
  2. 交通灯状态
  3. VRU信息
  4. 其他障碍物的运动信息
  5. 自车的运动规划
  6. 运动规划的解释

这几个问题解释了规划的逻辑并为端到端提供高级的驾驶意图指导

这个图展示了VLM和E2E的信息交互,2个模块间的相互支撑很明显

2.1 DRIVEVLM: The Convergence of AutonomousDriving and Large Vision-Language Models

DriveVLM的架构跟Senna很像,都是VLm和E2E并行交互,但是某种程度上来说DriveVLM走的更远一些

上面是DriveVLM的架构,VLM的推理部分更加格式化,且推理之间的递进关系可能能帮助其推理逻辑更加缜密

VLM推理的3步:

  1. 分析理解场景,找出关键障碍物
  2. 分析关键障碍物,给出其状态和其与自车的交互信息
  3. 生成驾驶意图,分为3层:

3.1 meta-action:意图动作

3.2 decision:动作规划

3.3 Waypoints:具体的轨迹点

还给出了推理标注流程,数据集构建流程:

  1. 长尾目标挖掘和挑战的场景挖掘
  2. 人工过滤
  3. 关键帧挑选
  4. 场景标注
  5. 人工校验

3. EMMA: End-to-End Multimodal Model for Autonomous Driving

这篇文章是纯VLM支撑的端到端自动驾驶,输入图像和文本信息,输出感知和规划路径

基于CoT的规划,推理部分包含4个主题:

  1. 场景理解
  2. 关键目标
  3. 关键物体的行为描述
  4. 元决策(例如保持低速直行)

方案有些激进,但是一体化的思路值得参考

4. RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based

Reinforcement Learning

提出利用GS多视角图像,支持训练的反馈闭环

3阶段训练:

s1:感知预训练

s2:规划预训练

s3:规划策略网络强化学习

同时使用PPO强化学习和模仿学习

强化学习的4种反馈信息,GS生成能比较好的模拟这些corner case:

  1. 动态障碍物碰撞
  2. 静态账务碰撞
  3. 位置偏移专家轨迹
  4. 航向角偏移专家轨迹

#Omni-Scene

以自车为中心的3D场景重建大模型

图片

本文是西湖大学刘沛东教授团队在场景级3D重建大模型领域的最新研究成果,相关论文已被 CVPR 2025 接收,代码/数据/模型权重已开源。

  • 论文链接:https://arxiv.org/abs/2412.06273
  • 项目代码:https://github.com/WU-CVGL/Omni-Scene
  • 团队主页:​​https://ethliup.github.io/​

工作简介

背景与动机

此前3D重建大模型工作如LGM、pixelSplat、MVSplat等,主要关注以物体或场景为中心(Scene-Centric)的多视角重建,其要求输入图像之间存在较大的视角重叠,在应用时往往需要围绕物体或场景拍摄多张图像或视频。

这种较为低效的输入采集方式,不适用于对实时性要求很高的自动驾驶或具身智能领域的应用,其最理想的情况是:基于车辆/机器人当前位置所拍摄的图像,即可重建场景的3D外观和结构,使得智能系统可以在空间层面进行即时的交互和理解。

本文基于此观察,旨在研究一种以车辆/机器人为中心(Ego-Centric)的多视角3D重建大模型,无需围绕场景移动,基于单帧所拍摄的多视角图像,即可实现即时的大规模场景3D重建。

从上述目标出发,本文发现限制此前方法仅适用于以物体或场景为中心(Scene-Centric)重建的一个重要原因在于:此前方法所使用的像素对齐的3D表示方式,依赖于输入图像间的视角重叠来获取深度信息,从而将2D图像信息升维至3D空间,实现3D层面的重建相关参数的预测(如:NeRF、3DGS)。因此,本文试图从3D表示上改进来避免该问题。受基于体积3D表示的3D感知领域工作(如:BEVFormer、TPVFormer)的启发,本文认为体积表示可以直接在3D层面融合多视角的2D特征,无需预测深度,可以很好地补足此前基于像素表示的缺陷。

故而本文对不同3D表示的特点进行了如图1所示的分析,可以看到对于像素表示,其沿相机射线方向做反投影的方式有2个缺陷:(1)无法预测被遮挡的物体;(2)无法重建视锥以外的空间。而体积表示则恰好避开了这两个缺陷,然而其也存在2个问题:(1)受限于长宽高范围,无法表示远处的建筑或天空等;(2)受限于O(n3)的复杂度,难以精细化表示场景外观。这2个问题又正好被像素表示所弥补。

图1. 基于不同表示进行3D重建的示意图和效果对比

图1. 基于不同表示进行3D重建的示意图和效果对比

考虑到上述不同表示的优缺点及其互补性,本文提出了一种新颖的Omni-Gaussian表示方法,并为其精心设计了网络框架,从而对此前表示方法取长补短,实现不依赖于多视角重叠的Ego-Centric场景重建。在nuScenes数据集上的大量实验表明,本文所提出的基于Omni-Gaussian表示的方法在Ego-Centric重建任务上相比于此前方法具有巨大优势,证明了本文方法的有效性。此外,同2D图像生成方法如MagicDrive结合,本文还可实现多模态控制的3D场景生成,为前馈式(feed-forward)的场景级3D生成开辟了一种可能性。​

技术方案

1. 整体框架:
如图2所示,本文的整体框架由共享多视角图像特征的体积分支(Volume Builder)和像素分支(Pixel Decorator)构成,它们分别用来预测基于体素和像素的3D高斯球参数,并通过对齐融合重建完整的3D场景。以下是每个分支的具体方法介绍。

图2. Omni-Scene方法的总体框架

图2. Omni-Scene方法的总体框架

2. 体积分支(Volume Builder):
如图2(b)所示,体积分支采用稀疏的三平面(triplane)特征以节省计算开销,其通过三个平面的特征插值获取每个体素位置的特征,并预测以体素为锚点(anchor)的3D高斯球,以实现粗粒度的3D场景重建,描绘其大体结构。为了将2D图像特征转换到triplane,本文借鉴3D感知工作中常用的可变形注意力机制(Deformable Attention),从2个维度对triplane特征进行编码和增强。其一,为了将多视角2D图像特征升维至3D,本文先将triplane每个位置扩展成柱状空间体素,接着利用相机参数确定体素的3D坐标对应哪些2D图像坐标,并通过可变形注意力为每个体素抽取其空间上相关联的局部2D特征,以获得3D层面的特征编码。其二,为了促进triplane不同平面特征的对齐与融合,本文将每个平面所扩展的柱状体素投影到另外2个平面,并通过可变形注意力融合其相关联的另外2个平面上的局部3D特征,以实现3D层面的特征增强。以上两种可变形注意力机制的公式如下:

图片

图片

其中,CIDA和CPDA分别对应triplane到2D图像、triplane各平面之间的两种注意力操作。

3. 像素分支(Pixel Decorator):
如图2(c)所示,像素分支采用了多视角U-Net网络(Multi-View U-Net),并在网络的每一层施加多视角特征间的交叉注意力机制,以促进相邻视角间的信息交互。基于网络末端输出的多个视角的像素特征,可以预测每个视角的像素深度和对应的3D高斯球参数,其映射到3D空间后可实现细粒度的3D场景重建,用于为体积表示所重建的粗粒度场景补充外观细节。为了降低Ego-Centric场景下深度预测的难度,本文还提出用Metric3D-v2粗略预测像素深度,用于初始化3D高斯球的位置,发现其可提升像素分支的重建效果。上述基于像素到3D空间映射的3D高斯参数映射可由如下公式表示:

图片

其代表根据深度将相机坐标沿像素的射线方向移动并施加offset偏移。

4. 不同表示间的互补机制(Volume-Pixel Collaboration):
本文的一个核心目标是促进上述两种表示的互补,考虑到两种表示的不同特性,本文提出了如图2所示的2个维度的设计。其一为Featrure Projection,为了促进两种表示在3D空间上的对齐,使得它们能够各自感知到另一种表示需要被补足的空间区域,本文提出将通过深度映射至3D空间的像素特征投影到triplane的各个平面上,以使得两种表示的特征在3D空间是互补对齐的。其二为Training Decomposition,考虑到体积表示长宽高受限的空间范围,其不适用于重建HWZ范围外的场景,本文提出基于像素表示所预测的深度,对本文的训练目标进行解耦。具体地,本文基于每个target视角所预测的深度将像素坐标投影到3D坐标,并将这些3D坐标中位于自车HWZ范围外的像素筛选出来,不计入损失函数的计算,使得体积表示可以专注于HWZ体积内的3D重建,并让像素表示来补充HWZ体积外的3D重建。因此,本文的总体损失函数如下:

图片

其由full和volume两部分组成,以实现训练目标的解耦。​

实验结果分析

本文基于nuScenes构建了一个Ego-Centric稀疏视角3D场景重建任务,并展开了实验,其包含135,941个训练场景和30,080测试场景。同时,本文还在RealEstate10K数据集上进行了实验,用于验证方法在Scene-Centric任务上的兼容性。从表1可以看出,本文方法在两个数据集的新视角合成和深度预测任务上的效果都显著优于此前基于像素表示的SOTA方法(包括:pixelSplat、MVSplat),验证了Omni-Scene方法的有效性。此外,表2的消融实验详细论证了本文各模块的性能增益,验证了本文各项设计的有效性。

表1. Omni-Scene方法与SOTA的对比

表1. Omni-Scene方法与SOTA的对比

表2. Omni-Scene方法的消融实验

表2. Omni-Scene方法的消融实验

总体来说,基于6张Ego-Centric的环视多视角图像,本文的Omni-Scene方法可以在0.1秒内完成3D场景的重建。以下图3展示了我们在重建的3D场景中进行新视角合成的效果。

图3. Omni-Scene方法的新视角合成效果

图3. Omni-Scene方法的新视角合成效果

此外,通过与自动驾驶domain的2D图像生成方法MagicDrive结合(即:先生成多视角2D图像,再重建3D场景),本文还可以实现如图4所示的基于语义地图、3D目标框、文本的多模态可控的3D场景生成,初步探索了场景级的前馈式(feed-forward)3D生成的可能性,拓宽了本文方法的应用场景。

图4. Omni-Scene方法的3D场景生成效果

图4. Omni-Scene方法的3D场景生成效果

个人和团队信息

韦东旭

本文第一作者,浙江大学博士毕业,曾于阿里巴巴达摩院城市大脑实验室从事视觉算法研究,目前在西湖大学计算机视觉和几何深度学习实验室担任博士后。研究方向为可泛化的三维重建与生成、空间智能感知与理解。​

西湖大学-计算机视觉和几何深度学习实验室

该实验室由刘沛东教授创立。刘沛东教授博士毕业于苏黎世联邦理工学院(ETH Zurich),师从 Marc Pollefeys 教授和 Andreas Geiger 教授,2021年获得计算机科学专业科学博士学位后加入西湖大学,目前已在CVPR、ICCV、ECCV、NeurIPS、ICLR、ICRA、TRO等国际顶级会议或期刊上发表论文40余篇。团队研究主要集中在三维计算机视觉、机器人和具身智能等领域,成员均来自上海交大、同济、西安交大、美国西北大学等海内外知名高校,拥有计算机科学与技术、自动化、机械电子等多专业背景。欢迎大家前来访问交流与合作。

#AlphaDrive

首创GRPO方案!VLM+RL破解自动驾驶长尾难题

OpenAI o1 和 DeepSeek R1 在数学和科学等复杂领域达到了或甚至超越了人类专家的水平,强化学习(RL)和推理在其中发挥了关键作用。在自动驾驶领域,最近的端到端模型极大地提高了规划性能,但由于常识和推理能力有限,仍然难以应对长尾问题。

一些研究将视觉-语言模型(VLMs)集成到自动驾驶中,但它们通常依赖于预训练模型,并在驾驶数据上进行简单的监督微调(SFT),没有进一步探索专门为规划设计的训练策略或优化方法。本文提出了 AlphaDrive,一个针对自动驾驶中 VLMs 的 RL 和推理框架。AlphaDrive 引入了四个基于 GRPO 的 RL 奖励,专门用于规划,并采用结合 SFT 与 RL 的两阶段规划推理训练策略。结果表明,与仅使用 SFT 或不进行推理相比,AlphaDrive 显著提升了规划性能和训练效率。此外,我们还兴奋地发现,在 RL 训练之后,AlphaDrive 展现出了一些新兴的多模态规划能力,这对提高驾驶安全性和效率至关重要。据我们所知,AlphaDrive 是首个将基于 GRPO 的 RL 与规划推理集成到自动驾驶中的框架。代码将被发布以促进未来的研究。

  • 论文链接:https://arxiv.org/abs/2503.07608
  • 代码链接:https://github.com/hustvl/AlphaDrive

图片

引言

近年来,自动驾驶技术取得了快速进展,端到端自动驾驶成为最具代表性的模型之一。这些模型以传感器数据为输入,利用可学习的神经网络规划车辆未来轨迹。得益于大规模驾驶演示数据,端到端模型通过扩展训练数据和增加模型参数持续改进规划能力。然而,由于其黑箱特性与常识推理能力的缺失,端到端模型在处理复杂和长尾驾驶场景时仍面临重大挑战。例如,当前方车辆携带交通锥行驶时,端到端模型可能无法理解前车与交通锥的关系,误判道路施工不可通行,从而做出错误的制动决策。因此,仅依赖端到端模型实现高级别自动驾驶仍存在显著局限性。

随着GPT的成功,大型语言模型(LLMs)展现出卓越的理解与推理能力,并逐步从单模态文本理解扩展到多模态视觉-语言处理。视觉-语言模型(VLMs)的常识与推理能力为缓解端到端模型的缺陷提供了潜在解决方案。

近期,OpenAI o1通过集成推理技术,在编程等领域达到甚至超越人类专家水平。DeepSeek R1则利用强化学习(RL),不仅展现出“涌现能力”并取得顶尖性能,且训练成本显著低于其他模型。这些进展凸显了推理技术与强化学习在大型模型开发中的巨大潜力。

现有将VLMs应用于自动驾驶的研究可分为两类:

  1. 驾驶场景理解:利用VLMs解析场景语义;
  2. 规划决策:部分研究将VLMs作为端到端系统,直接根据输入图像生成轨迹。然而,与专为轨迹规划设计的端到端模型不同,VLMs的输出空间为离散语言符号,难以直接生成精确数值预测,可能导致性能不足或安全隐患。

部分研究尝试通过自然语言描述高层动作(如“减速右转”)规避上述问题,但仍缺乏对训练方法的深入探索。多数工作仅依赖监督微调(SFT),忽视了不同训练策略对规划性能与训练效率的影响。

本文探讨以下核心问题:
如何将强化学习与推理技术(在通用大模型中取得显著成功的方法)应用于自动驾驶规划,以提升VLMs的性能并降低训练成本?

通过初步实验,我们发现直接应用现有RL与推理技术效果欠佳,主要归因于以下三方面:

  1. 奖励设计不匹配:通用任务的RL奖励(如视觉计数任务的正确性判断)难以适应规划需求。自动驾驶中,不同驾驶行为的重要性差异显著(如制动与加速),需设计权重差异化的奖励机制。
  2. 多解性挑战:规划问题通常存在多个合理解(如直行道路可选择匀速或加速),需避免强制对齐单一真值标签。
  3. 推理数据匮乏:自动驾驶缺乏现成的规划推理数据集,人工标注成本高昂,直接应用现有推理技术困难。

针对上述挑战,本文提出AlphaDrive——首个将基于GRPO的强化学习与规划推理集成到自动驾驶的框架。具体贡献如下:

  • GRPO强化学习策略:采用Group Relative Policy Optimization(GRPO),相比PPO和DPO,其组间相对优化策略更适配规划的多解性,实验表明GRPO训练的模型展现出涌现的多模态规划能力。
  • 四维奖励设计
  • 规划准确性奖励:基于F1分数评估横向(方向)与纵向(速度)决策一致性;
  • 动作加权奖励:根据安全关键性为不同动作分配权重(如制动权重高于匀速);
  • 规划多样性奖励:鼓励生成多样化可行解,防止模式坍缩;
  • 格式规范奖励:强制输出结构化格式(如​​<answer>​​标签),提升训练稳定性。
  • 两阶段训练范式
  • 阶段一(SFT知识蒸馏):利用大模型(如GPT-4o)生成高质量规划推理数据,通过SFT实现推理过程蒸馏;
  • 阶段二(RL探索):在SFT基础上进行RL微调,缓解早期训练的不稳定性和幻觉问题。

实验表明,与仅使用SFT或无推理的模型相比,AlphaDrive在规划准确率上提升25.52%,且在仅20%训练数据下性能超越SFT模型35.31%。此外,RL训练后模型涌现出多模态规划能力(如复杂场景生成多个合理决策),为提升驾驶安全与效率提供了新方向。据我们所知,AlphaDrive是首个将GRPO-based RL与规划推理结合的自动驾驶框架,代码将开源以推动后续研究。

相关工作回顾

视觉-语言模型
自GPT发布以来,大型模型的能力已从单模态扩展到多模态。大型视觉-语言模型(VLMs)在视觉理解与推理任务中展现出卓越性能。早期研究尝试将视觉模型与大型语言模型(LLMs)结合:Flamingo通过视觉编码器处理视觉信号,并在LLM解码器中引入注意力层以实现跨模态交互;BLIP提出Q-Former架构和跨模态对比学习任务,以桥接视觉编码器与LLMs;LLaVA采用简单的MLP作为视觉与语言模块的连接器,仅用有限数据即实现强大的视觉理解能力。QwenVL系列进一步优化了视觉模块,支持高分辨率和动态分辨率图像输入,并在多语言任务和空间感知中表现优异。

强化学习与推理
自回归学习是LLMs的主流预训练策略,而强化学习(RL)与推理技术进一步增强了模型能力。例如,GPT采用基于人类反馈的强化学习(RLHF),将人类意图和偏好融入训练过程;直接偏好优化(DPO)通过优化偏好反馈提升模型性能。Group Relative Policy Optimization(GRPO)引入组间相对优化策略,通过多组输出的相对优劣提升训练稳定性和效果。

DeepSeek R1基于GRPO训练时经历了“顿悟时刻”(Aha Moment),模型在无显式引导下自主增加问题思考并重新评估初始方案,展示了RL在推动模型从模仿转向涌现智能中的潜力。本实验中,我们同样观察到,经过GRPO-based RL训练后,AlphaDrive展现出多模态规划能力,可生成多组合理驾驶方案,为提升驾驶安全与效率提供了可能。
在推理领域,Chain-of-thought通过分步分解复杂问题显著提升解决能力。OpenAI o1基于该方法,结合推理时扩展(如蒙特卡洛树搜索MCTS和集束搜索Beam Search),在科学和编程等需复杂推理的领域取得突破,表明除扩展模型参数与数据外,提升推理时计算量亦是重要方向。

自动驾驶规划
规划是自动驾驶的核心任务。早期基于规则的算法通用性与效率受限。近期,端到端模型通过统一神经网络直接从传感器数据输出轨迹或控制信号,利用大规模驾驶演示数据驱动训练,显著提升规划性能。然而,端到端模型因缺乏常识与推理能力,仍难以应对长尾场景。

VLM在自动驾驶中的应用
VLM的常识与推理能力可有效弥补端到端模型的不足。在机器人领域,视觉-语言-动作(VLA)模型通过理解指令执行复杂动作,VLM生成规划指令后由动作模型转换为控制信号。

自动驾驶领域亦有相关探索:DriveGPT4以视频为输入,直接预测控制信号;ELM利用跨领域视频数据提升VLM在驾驶任务中的性能;OmniDrive提出稀疏3D令牌表征场景,输入VLM进行理解与规划。

部分研究结合VLM与端到端模型:DriveVLM首次将VLM用于低频轨迹预测,端到端模型生成高频轨迹;Senna提出VLM负责高层规划、端到端模型执行低层轨迹预测的框架。此外,多数据集与基准推动了VLM在自动驾驶中的应用。然而,现有工作多依赖预训练模型与简单SFT,缺乏针对规划的训练策略探索,需进一步将RL与推理技术引入自动驾驶领域。

详解AlphaDrive

图片

概述

AlphaDrive 是专为自动驾驶规划设计的视觉-语言模型(VLM)。与以往仅依赖监督微调(SFT)的方法不同,我们探索了强化学习(RL)与推理技术的结合,以更好地适配驾驶规划的独特特性:

  1. 不同驾驶行为的重要性差异(如制动比匀速行驶更关键);
  2. 多解性(如直行道路可选择加速或保持速度);
  3. 规划推理数据的匮乏

为此,我们提出四个基于GRPO的RL奖励函数,并设计结合SFT与RL的两阶段规划推理训练策略。实验表明,与仅使用SFT或无推理的模型相比,AlphaDrive在规划性能与训练效率上均显著提升。以下详细阐述各模块的设计。

面向规划的强化学习

强化学习算法

当前主流RL算法包括PPO、DPO和GRPO。给定查询,GRPO从旧策略中采样一组输出,并通过最大化以下目标优化新策略:

其中,,和为超参数,优势通过组内奖励归一化计算。

选择GRPO的原因:

  1. DeepSeek R1[14]验证了GRPO在通用领域的有效性,其训练稳定性与效率优于PPO和DPO;
  2. GRPO的组间相对优化策略天然适配规划的多解性。实验进一步表明,GRPO训练的模型展现出更强的规划能力。

规划奖励建模

规划准确性奖励
数学或编程领域可通过最终答案是否正确直观判定奖励,但规划需同时考虑横向(方向)与纵向(速度)决策。我们采用F1分数分别评估两者的准确性。初期直接匹配真实标签导致训练不稳定,最终采用F1分数以避免模型学习“输出所有可能动作”的捷径策略。

动作加权奖励
不同动作对安全的重要性不同(如制动权重高于匀速)。为此,我们为动作分配权重,将其作为奖励的加权分量。

规划多样性奖励
规划本质为多模态任务。为避免模型收敛到单一解,我们鼓励生成多样化可行解:当输出差异较大时提高奖励,反之降低奖励。

规划格式奖励
要求输出严格遵循​​​<answer>​​​标签格式(如​​<answer> decelerate, left_turn</answer>​​),未遵循则奖励为0。

奖励计算流程详见算法1。最终,规划质量奖励(准确性×权重×多样性)与格式奖励共同用于GRPO损失计算。

图片

推理:大模型知识蒸馏

自动驾驶缺乏现成的规划推理数据,人工标注成本高昂。为此,我们利用大模型(如GPT-4o)从少量驾驶片段生成高质量推理数据:

  1. 输入:真实驾驶动作、车辆状态与导航信息;
  2. 输出:简洁的决策过程(如“前方绿灯,但行人待穿行,故减速”)。

经人工筛选后,通过SFT将推理过程蒸馏至AlphaDrive,显著提升其推理能力。

训练:SFT预热与RL探索

RL依赖稀疏奖励信号,而SFT基于稠密监督更适配知识蒸馏。此外,仅使用RL易导致训练初期不稳定。因此,我们采用两阶段训练:

  1. 阶段一(SFT预热):使用少量数据蒸馏大模型推理过程;
  2. 阶段二(RL探索):在全量数据上微调,提升模型鲁棒性与多模态规划能力。

实验结果分析

实验设置

数据集
我们采用MetaAD作为训练与评估基准。该数据集包含12万段真实驾驶片段(每段3秒),覆盖多传感器数据与感知标注,并保持各类驾驶环境与规划动作的平衡分布。其中11万段用于训练,1万段用于验证。此外,我们从训练集中采样3万段数据生成规划推理过程。

训练细节
以Qwen2VL-2B为基模型,输入包括前视图像与包含当前车速、导航信息的提示词(如“直行100米后右转”)。训练使用16块NVIDIA A800 GPU。

评估指标

  1. 元动作规划准确性:计算横向(直行/左转/右转)与纵向(保持/加速/减速/停止)动作的F1分数,并综合为整体规划准确率;
  2. 推理质量:通过BLEU-4、CIDEr、METEOR评估生成推理过程与标注的相似度。

主要结果

表1显示,AlphaDrive在MetaAD上的规划准确率达77.12%,较次优模型Qwen2VL-7B提升25.5%。关键动作(如转向与加减速)的F1分数显著提高,推理质量亦优于其他模型,验证了两阶段训练策略的有效性。

图片

表2的消融实验表明:

  • 基础准确性奖励(ID1)因格式不匹配导致性能偏低;
  • 格式奖励(ID2)小幅提升稳定性;
  • 动作加权奖励(ID3-4)显著优化关键决策;
  • 多样性奖励(ID5-6)进一步防止模式坍缩。

图片

表3对比不同训练策略:

  • SFT+RL在复杂动作(如减速)上的F1分数提升15%以上,推理能力优于纯SFT或RL模型;
  • RL训练在数据量有限时(如20K样本)表现更优,仅需20%数据即可超越SFT模型35.31%(表4)。

图片

消融实验

奖励函数设计

  • 规划准确性奖励(F1分数)避免模型学习“输出所有动作”的捷径策略;
  • 动作加权奖励提升安全关键动作(如制动)的权重;
  • 多样性奖励通过惩罚重复输出,鼓励生成多组可行解;
  • 格式奖励确保输出结构化,提升训练稳定性。

训练策略

  • SFT预热缓解RL早期训练的不稳定性;
  • RL探索通过GRPO优化多解性与安全性,实验显示模型在复杂场景中涌现出多模态规划能力(图3)。

图片

多模态规划能力涌现

图3所示,AlphaDrive在复杂场景(如前方车辆缓慢行驶)中可生成多个合理决策(如减速左转超车或停车等待),而SFT模型仅输出单一动作。此能力可与下游动作模型结合,动态选择最优方案,提升驾驶安全性与效率。

结论与局限性

结论
本研究提出了AlphaDrive——一种面向自动驾驶规划的视觉-语言模型(VLM)。与以往仅依赖监督微调(SFT)的方法不同,我们探索了强化学习(RL)与推理技术在规划任务中的结合。具体而言,AlphaDrive引入了基于GRPO的规划导向RL策略,并设计了两阶段规划推理训练范式。据我们所知,AlphaDrive是首个将RL与推理技术应用于自动驾驶规划的框架,显著提升了性能与训练效率。

局限性
当前版本仍存在以下不足:

  1. 复杂行为标注数据不足:由于缺乏丰富的标注数据,AlphaDrive尚无法输出车道变换或绕行等复杂驾驶行为;
  2. 伪标签质量依赖:规划推理数据来自大模型基于真实驾驶动作生成的伪标签,其感知准确性可能影响数据质量,需进一步闭环验证以提升性能上限。

未来工作将聚焦于通过数据增强与系统验证优化模型能力,推动自动驾驶规划技术的实际应用。

#奔驰中国大比例裁员

赔偿N+9,销售体系是重灾区

奔驰中国本轮裁员主要涉及销售、汽车金融两个体系,裁员比例约为 15%。

奔驰中国内部传言已久的裁员,终于落地了。

我们独家了解到,奔驰中国在今天约谈了部分员工,当天即启动裁员,裁员比例约为 15%。本轮裁员主要涉及销售、汽车金融和零部件等体系,公司主体主要是梅赛德斯-奔驰(中国)汽车销售有限公司、梅赛德斯-奔驰汽车金融有限公司,研发体系暂未涉及。

被裁员工除了可以获得 N+9 的赔偿外,如果未来两个月没有入职新公司,奔驰中国还会为其额外发放 3 月和 4 月的工资。这意味着,奔驰中国最高的赔付相当于 N+11。

在外资车企的裁员中,奔驰的赔偿还算丰厚。去年 10 月,大众中国启动裁员,提供的赔偿最高是 N+6;更早之前,去年 4 月,特斯拉中国的裁员赔偿是 N+3。

一位接近奔驰中国的人士告诉我们,这次是 “普裁”,销售、金融两家公司几乎每个部门都参与了。被裁的员工中,大比例是 “无固定期限” 劳动合同的雇员。

按照奔驰中国的传统,员工首次签约的合同期限一般是签三年,第一次续签的合同期限一般是两年,再次续签,会签订无固定期限的劳动合同。这意味着,很多被裁员工,都在奔驰中国工作了五年以上。

对于奔驰中国各个板块的员工而言,裁员的消息从去年下半年开始流传。公布裁员的前一天,2 月 25 日,奔驰中国刚刚开完 Town Hall(员工大会),虽然梅赛德斯-奔驰集团董事会主席康林松亲未到场,但一位参与的员工告诉我们,会上虽然没有明确提及裁员,对于将发生的事情,大部分员工已有心理准备。

就在一周之前,2 月 20 日,奔驰发布了 2024 财年业绩报告,全年营收为 1456 亿欧元(约合人民币 11126 亿元),同比下降 4.5%;息税前利润(EBIT)为 136 亿欧元(约合人民币 1035 亿元),同比下降 31%;净利润 104 亿欧元(约合人民币 794 亿元),同比下降 28%。

对于业绩的下滑,奔驰解释称,主要是因为销量减少,尤其在中国市场。2024 年奔驰在华销量为 71.4 万辆,同比下滑 6.7%。中国是奔驰的最大单一市场,这导致其全球销量同比下降 3% 至 198.3 万辆。

销量的下滑影响了奔驰中国区域的财务表现。2024 年,奔驰在中国的营收为 231.39 亿欧元(约合人民币 1759 亿元),同比下降 8.5%。

奔驰预计业绩和财务的压力,还会持续数年,因此至少在 2027 年之前,会持续推进固定成本的削减举措。

财报会上,康林松称,“为了确保公司的竞争力,我们正在采取措施,使公司更快、更精简、更强大。” 裁员即是举措之一,除了中国区域,奔驰也会在其他国家和地区推进裁员。

尽管销量业绩和盈利能力都在下滑,但奔驰依然需要维持较高水平的研发支出,以期在 2027 年之后扭转局面。这也是为何此次裁员暂时没有涉及研发体系。

2024 年奔驰的研发支出为 97 亿欧元,接近历史高位。其中乘用车部门占据 87 亿欧元,主要用于对未来平台和科技的投资,特别是对全新一代操作系统 MB.OS。

MB.OS 是奔驰为下一代电动车自研的智能座舱系统,目标是在软件架构上追上市面上新势力电动车。但我们了解到,这套系统的开发进度已经落后。

按照计划,MB.OS 系统会随全新一代奔驰 CLA 一起量产。CLA 是奔驰下一代电动车的开篇,最早在 2023 年 9 月德国的车展上进行概念车亮相。

全新一代奔驰 CLA 在硬件层面已逐渐完善。我们了解到,早在 2023 年 11 月左右,这款车已经进入奔驰位于北京大兴的原型车工厂。

但因为 MB.OS 进度落后,全新一代 CLA 的量产(SOP)时间,已经由最初定的今年 5 月,推迟到了今年 9 月前后。

我们独家了解到,此前主要是奔驰德国的研发团队在负责 MB.OS 的开发,现在很多相关的研发项目都陆续转到中国。

一位奔驰中国的员工告诉我们,该公司在中国的研发中心(RDC),几乎是今年奔驰中国唯一还有一定规模招聘计划的机构了。

但对于销售体系的员工而言,奔驰重拾竞争力之前,他们始终要担心进一步的 “降本增效”。

按照奔驰在财报会上的说法,暂时 “不会对减员给出一个明确的数字”。一些奔驰中国的员工担心,如果未来再次裁员,这些没有 “无固定期限” 合同的员工,可能不会拿到这么高的赔偿了。

#MaskGWM

商汤力作!自动驾驶世界模型再进化~

预测环境变化的世界模型对于具有强大泛化能力的自动驾驶模型至关重要。现有的驾驶世界模型主要基于视频预测模型构建。尽管这些模型能够利用先进的基于扩散的生成器生成高保真视频序列,但它们的预测时长和整体泛化能力受到限制。为解决这一问题,本文探索将生成损失与MAE风格的特征级上下文学习相结合。具体而言,我们通过三个关键设计实现这一目标:(1)采用更具扩展性的扩散变换器(DiT)结构,并额外训练掩码构建任务;(2)设计与扩散相关的掩码令牌,以处理掩码重建与生成扩散过程之间的模糊关系;(3)通过使用行级别的掩码进行移位自注意力而非MAE中的掩码自注意力,将掩码构建任务扩展到时空领域。随后,我们采用行式跨视图模块以与这一掩码设计对齐。基于上述改进,我们提出了MaskGWM:一种融合视频掩码重建的泛化驾驶世界模型。我们的模型包含两个变体:专注于长期预测的MaskGWM-long和致力于多视图生成的MaskGWM-mview。在标准基准上的综合实验验证了所提出方法的有效性,包括Nuscene、OpenDV-2K和Waymo数据集的零样本验证。这些数据集上的定量指标显示,我们的方法显著提升了现有最先进驾驶世界模型的性能。

行业介绍

作为人工智能的关键应用之一,自动驾驶技术需要理解周围环境并执行正确动作。然而,对于现有方法而言,在复杂多变场景中泛化能力有限的问题仍未解决。例如,在天气变化、场景变异和运动模糊等情况中,感知性能可能会下降。解决这一问题的有效方法是使用世界模型,该模型可直接预测不同动作下的环境变化。这些模型有助于理解数据分布的复杂性,并像人类感知系统一样构建复杂的规律模式。

得益于基于扩散的图像生成系统的快速发展,最近一系列方法基于扩散模型构建世界模型。尽管能够生成高保真结果,这些方法仍面临长时预测和泛化能力的挑战。在这篇文章中,我们认为在构建自动驾驶通用世界模型方面仍存在两个问题。首先,大规模训练数据集与更具扩展性的变压器架构的结合仍在探索中。其次,一个基本问题仍未得到解答:基于扩散的生成损失是否足以构建一个通用的世界模型?由于扩散损失在像素级别操作,视觉语义的学习可能并不直接。另外,一些工作已表明扩散模型与自监督方法是互补的,有利于提高收敛速度和生成质量。基于上述分析,我们设计了MaskGWM,旨在提高现有方法的保真度、泛化能力和长时间序列预测能力。此外,通过集成多视图模块,我们的模型还能生成多视图案例。我们采用DiT作为主干网络,它更具扩展性,能够利用多种数据集的信息。此外,我们将掩码重建作为生成的补充任务。此外,通过自监督学习获得的特征在语义上更具意义,可以作为辅助监督进一步改善生成质量。然而,将现有的图像生成掩码重建集成到驾驶世界模型中并非直接可行,仍有两个问题需要解决:(1)如何增强扩散模型与掩码重建之间的协同作用。(2)我们应该使用哪种掩码策略来处理视频数据。

因此,MaskGWM引入如下策略来解决上述问题:(1)我们利用掩码标记来改善掩码重建与扩散模型之间的协同作用。(2)我们设计了一种针对时空域的双分支掩码重建策略。对于空间建模,我们使用在所有帧间共享的掩码,并通过空间变压器重建不可见标记。对于时间建模,我们引入各帧独立的掩码,并通过时间变压器恢复掩码标记。与空间分支不同,我们在掩码后直接连接时间维度上的未对齐标记,这相当于在行级别引入小范围的偏移。我们发现这个时间分支实现了在时间语境中预测掩码斑块和减少训练成本的双重目标。

网络模型结构&技术细节

在详细介绍了本文提出的算法模型技术细节之前,下图展示了我们提出的MaskGWM算法模型的整体网络结构,如下图所示。

图片

掩码重建技术。 在训练环节,DiT网络被划分为编码器和解码器。编码时,假设时间步的视频潜变量为,我们随机生成一个二元掩码将分为可见部分和不可见部分。在解码阶段,我们引入重建模块来处理不可见部分,对于不可见部分,我们统一使用掩码令牌初始化其特征表示。具体来说,我们通过学习一个小型的transformer 得到与初始维度相同的特征,具体公式为。为了强化生成过程与掩码重建之间的协同效应,我们提出了与扩散过程紧密相关的掩码策略。在扩散模型框架下,掩码重建可被视为预测任务,而矫正流则采用预测(即预测)。为了平衡这两个预测目标,我们引入了额外的噪声编码网络。由于是明确给出的,因此更容易在扩散过程中恢复原始的掩码重建目标。此外,我们还考虑了时间步的影响,将掩码令牌定义为.

掩码策略。考虑到时空域的特性,我们设计了两种掩码:和,前者关注空间上下文,掩码位置在不同帧共享;后者关注时序动态的建模,掩码位置在各帧独立;为了让两种不同的掩码关注各自的域,我们将设计为双分支transformer,对使用空间自注意力模块编码,对使用时间自注意力模块编码:

对于时间域的掩码,我们进一步的修改了时序自注意力机制,对于掩码的位置,我们直接将其重新紧凑化,由于每一帧被掩码跳过的令牌数相同,重新紧凑化的特征图大小在不同帧是统一的。然而,引入这一策略会导致时序自注意力机制的不对齐,我们认为只要这种不对齐只要是发生在小范围内的,就对模型的性能有正向的帮助,因此我们引入行级别的掩码设计,具体来说对于,每行掩码掉的令牌数是相同的。这一掩码设计能够带来如下两个好处,首先被丢弃的令牌可以直接在计算中跳过,导致更高的训练效率,其次,我们在实验中发现这一设计的效果会更好。

多视角设计。为了验证模型的泛化能力,除了在关注于预测时长的单视角任务外,我们还额外衡量了模型在多视角任务上的性能,为了支持这一能力,我们引入行级别的跨视角注意力机制,可以与之前的掩码策略对齐,使得我们可以在多视角任务中继续使用提出的掩码策略。

实验分析

我们展示了一系列广泛的实验来评估模型的性能,我们使用SD3作为基础模型,使用FID和FVD作为评测指标,在Nuscenes,OpenDV和Waymo数据集上评估了模型的性能:

1)与最先进的方法的比较

表1将研究方法与单/多视角最先进的方法进行了比较,同时我们对单/多视角分别对齐了评估策略,研究方法在图像生成质量和视频生成质量均优于最先进方法。

图片

2)消融实验

表3(a)比较了不同掩码令牌设计策略的效果,表3(b)比较了不同掩码策略的效果,实验结果显示,我们的模型在生成指标上有着显著的提升;表4(a)进一步地分析了行级别的掩码设计的影响,表4(b)验证了双分支使用独立的自注意力模块编码的影响,表4(c)验证了多视角模块的效果。

图片

#GaussTR

基于大模型对齐的自监督三维空间理解方法

本文提出了一种新颖的高斯变换器(GaussTR),通过与大模型对齐,推动自监督的三维空间理解。该方法促进了多功能三维表示的学习,并实现了无需显式标注的开放词汇占据预测。

GaussTR: Foundation Model-Aligned Gaussian Transformer for Self-Supervised 3D Spatial Understanding

Haoyi Jiang, Liu Liu, Tianheng Cheng, Xinjie Wang, Tianwei Lin, Zhizhong Su, Wenyu Liu, Xinggang Wang

3D Semantic Occupancy Prediction is fundamental for spatial understanding as it provides a comprehensive semantic cognition of surrounding environments. However, prevalent approaches primarily rely on extensive labeled data and computationally intensive voxel-based modeling, restricting the scalability and generalizability of 3D representation learning. In this paper, we introduce GaussTR, a novel Gaussian Transformer that leverages alignment with foundation models to advance self-supervised 3D spatial understanding. GaussTR adopts a Transformer architecture to predict sparse sets of 3D Gaussians that represent scenes in a feed-forward manner. Through aligning rendered Gaussian features with diverse knowledge from pre-trained foundation models, GaussTR facilitates the learning of versatile 3D representations and enables open-vocabulary occupancy prediction without explicit annotations. Empirical evaluations on the Occ3D-nuScenes dataset showcase GaussTR's state-of-the-art zero-shot performance, achieving 11.70 mIoU while reducing training duration by approximately 50%. These experimental results highlight the significant potential of GaussTR for scalable and holistic 3D spatial understanding, with promising implications for autonomous driving and embodied agents. Code is available at this https URL.

三维语义占据预测是空间理解的基础,因为它提供了对周围环境的全面语义认知。然而,现有方法主要依赖于大量标注数据和计算密集型的体素建模,限制了三维表示学习的可扩展性和泛化能力。本文提出了一种新颖的高斯变换器(GaussTR),通过与大模型对齐,推动自监督的三维空间理解。GaussTR采用变换器架构,以前馈方式预测表示场景的稀疏三维高斯集合。通过将渲染的高斯特征与预训练大模型的多样化知识对齐,GaussTR促进了多功能三维表示的学习,并实现了无需显式标注的开放词汇占据预测。在Occ3D-nuScenes数据集上的实验评估表明,GaussTR在零样本性能上达到了领先水平,取得了11.70的mIoU,同时将训练时间缩短了约50%。这些实验结果凸显了GaussTR在可扩展和整体三维空间理解方面的巨大潜力,对自动驾驶和具身智能体具有重要的应用前景。代码可在https://github.com/hustvl/GaussTR获取。

Subjects:

Computer Vision and Pattern Recognition (cs.CV)

Cite as:

arXiv:2412.13193 [cs.CV]

图片

图片

图片

图片

#xx

#xx
#xx
#xx
#xx
#xx