51c自动驾驶~合集17-EW帮帮网

我自己的原文哦~ https://blog.51cto.com/whaosoft/13793157

#汇聚感知、定位、规划控制的自动驾驶系统

自动驾驶技术在应用到车辆上之后可以通过提高吞吐量来缓解道路拥堵，通过消除人为错误来提高道路安全性，并减轻驾驶员的驾驶负担，从而提高工作效率和休息时间等诸多好处。在过去的30年间，随着传感器和技术的进步使得必要硬件的规模和价格不断减小，在工业界和学术界对于自动驾驶汽车技术的研究力度稳步加大，目前已经取得了诸多的实质性进步。

因此，本文旨在概述自动驾驶汽车软件系统领域的最新发展。本文回顾了自动驾驶汽车软件的基本组成部分，并讨论了各个领域的最新发展。自动驾驶汽车软件系统的核心能力大致可分为三类，即感知、规划和控制，这些能力与车辆与环境的交互如下图所示。此外，可以利用车对车 (V2V) 通信，通过车辆协作进一步改善感知以及规划领域。

自动驾驶汽车软件和硬件的基本组成部分

通过上图可以看出，自动驾驶汽车的软件主要包括感知，规划和控制三个大方向。

感知：感知是指自主系统从环境中收集信息和提取相关知识的能力。环境感知是指发展对环境的情境理解，例如障碍物的位置、道路标志以及标记的检测以及根据语义对数据进行分类。定位是指自动驾驶汽车确定其相对于环境的位置的能力。
规划：规划是指为了实现自动驾驶汽车更高阶的目标而做出有目的的决策的过程，通常是将车辆从起始位置带到目标位置，同时避开障碍物并优化设计的启发式方法。
控制：控制能力是指自动驾驶汽车执行由更高级别流程生成的计划动作的能力。

文章链接：https://www.mdpi.com/2075-1702/5/1/6

感知部分

环境感知

环境感知是自动驾驶汽车的一项基本功能，它为汽车提供有关驾驶环境的重要信息，包括可自由驾驶区域和周围障碍物的位置、速度，甚至未来状态的预测。一般而言自动驾驶汽车上都会配置激光雷达、摄像头、毫米波雷达、超声波雷达等信息采集传感器来实现更高效、准确的周围环境感知。无论采用哪种传感器，感知任务的两个关键要素是路面提取和道路物体检测。

激光雷达传感器

激光雷达是一种光检测和测距设备，它以精心设计的模式每秒发送数百万个光脉冲。借助其旋转轴，它能够创建环境的动态三维地图。激光雷达是大多数现有自动驾驶汽车物体检测的核心。下图显示了3D激光雷达的理想检测结果，所有移动物体均被识别。

3D激光雷达检测到所有移动物体的理想检测结果

在真实场景中，激光雷达返回的点从来都不是完美的。处理激光雷达点的困难在于扫描点稀疏、缺失点和无组织的模式。周围环境也给感知带来了更多挑战，因为表面可能是任意和不稳定的。有时甚至很难从扫描点的可视化中感知到有用的信息。激光雷达的输出是从物体反射回来的稀疏3D点，每个点代表物体相对于激光雷达的3D位置。点的三种主要表示形式通常包括点云、特征和网格。因此，很多学术界的算法都在研究如何实现对于点云特征的更准确表达。

为了要感知3D点云信息，通常涉及两个步骤：分割和分类。有些可能包括第三步，即在时间维度上的积分，以提高准确性和一致性。点云的分割是将点进行聚类的过程，而分类是识别分割的点群的类别，例如自行车、汽车、行人、路面等。3D点云分割算法可分为五类：基于边缘、基于区域、基于属性、基于模型和基于图的各类算法。但随着如今技术的快速发展和迭代，又出现了基于深度学习算法的类别。

在进行点云的分割之后，每个点云簇需要分类为不同的对象类别。每个点云簇中嵌入的信息主要来自空间关系和点的激光雷达强度，这在对象识别中的用途非常有限。因此，大多数算法将通过一些融合机制来实现视觉检测问题。

视觉

自动驾驶汽车环境感知中的视觉系统通常涉及道路检测和道路物体检测。道路检测也包括两类：车道线标记检测和路面检测。

车道线标记检测：车道线标记检测是识别道路上的车道线标记并估计车辆相对于检测到车道线的姿态。这条信息可以作为车辆位置反馈给车辆控制系统。近年来，人们在这个领域进行了大量的研究工作，并取得了较为不错的成绩。
路面检测：路面检测可告知自动驾驶汽车可在不发生碰撞的情况下行驶的自由空间位置。这是任何在线路径规划和控制操作的先决条件。一般来说，方法可分为三类：基于特征、线索的检测、基于特征、线索的学习和深度学习。

对这部分感兴趣的读者可以在论文原文的第2.1.2小节中找到相关的学术论文和研究成果。

传感器融合

不同的传感器各有优缺点。需要传感器融合技术才能充分利用每个传感器的优势。在自动驾驶汽车环境感知方面，激光雷达能够进行3D 测量，并且不受环境照明的影响，但它提供的物体外观信息很少；相反，摄像头能够提供丰富的外观数据，其中包含有关物体的更多细节，但其性能在不同照明条件下并不一致；此外，摄像头不会隐式提供3D信息。考虑到上述的问题，目前基于工业界和学术界对于各类传感器融合算法开展了大量的研究并且取得了诸多出色的研究进展。相关的学术论文及研究成果可以详见论文原文的第2.1.3小节。

定位

定位是确定自车姿态并测量其自身运动的问题。这是实现自动驾驶的基本能力之一。然而，确定车辆的准确姿态（位置和方向）通常很困难，因此定位问题通常被表述为姿态估计问题。估计自车姿态的问题通常可以分为两个子问题，即姿态固定问题和航位推算问题。在姿态固定问题中，测量值与姿态通过代数或者超越方程相关联。姿态固定需要能够根据姿态（例如地图）预测测量值。在航位推算问题中，状态与观察值通过一组微分方程相关联，并且必须将这些方程积分才能导航。在这种情况下，传感器测量值不一定可以从给定的姿态推断出来。从这个意义上讲，姿态固定和航位推算相辅相成。

在定位问题上目前也有诸多的解决方案，定位车辆的最流行方法之一是卫星导航系统和惯性导航系统的融合。卫星导航系统，如GPS可以定期定位车辆的全球位置。它们的精度可以从几十米到几毫米不等，具体取决于信号强度和所用设备的质量。惯性导航系统使用加速度计、陀螺仪和信号处理技术来估计车辆的姿态，不需要外部基础设施。然而，如果不添加其他传感器，惯性导航系统的启动可能会很困难，并且误差会随着时间的推移而无限增长。有关于其它相关的定位解决方案可以阅读论文中第2.2节相关的技术细节。

规划部分

早期的自动驾驶汽车通常只是半自动驾驶，因为它们的设计功能通常仅限于执行车道跟踪、自适应巡航控制和一些其他基本功能。随着自动驾驶规划技术的快速发展，更全面的规划框架可以使自动驾驶汽车处理各种复杂的城市驾驶场景。任务规划（或路线规划）考虑的是高级的目标，例如接送任务的分配以及应走哪条路来完成任务。行为规划做出临时决策，以便与其他交通智能体正确交互并遵守规则限制，从而生成局部目标，例如，变道、超车或通过交叉路口。运动规划（或局部规划）生成适当的路径或者动作集以实现局部目标，最典型的目标是到达目标区域同时避免与障碍物碰撞。接下来，我们对此分别进行介绍。

任务规划

任务规划通常通过对反映道路或者路径网络连通性的有向图网络进行图形搜索来执行。Dijkstra算法或者A*算法等算法都是任务规划中的经典算法，感兴趣的读者也可以看下针对路线规划为主的综述性论文。

行为规划

行为规划器负责做出决策，以确保车辆遵守任何规定的道路规则，并以常规、安全的方式与其他交通智能体进行交互，同时沿着任务规划器规定的路线逐步前进。这可以通过结合本地目标设定、虚拟障碍物放置、可驾驶区域边界调整或者区域启发式成本调整来实现。

运动规划

运动规划是一个非常广泛的研究领域，应用于移动机器人和操纵臂，应用范围广泛，包括制造、医疗、应急响应、安全监视、农业和运输。在自动驾驶汽车这一研究领域，运动规划是指决定一系列动作以达到指定目标的过程，通常同时避免与障碍物发生碰撞。运动规划器通常根据其计算效率和完整性进行比较和评估。计算效率是指过程运行时间以及它如何根据配置空间的维数进行扩展。如果算法在有限的时间内终止，当存在解决方案时始终返回解决方案，否则指示不存在解决方案，则认为该算法是完整的。

运动规划的核心思想是通过将连续空间模型转换为离散模型，目前常用的一般是如下两类转换方法：

组合规划方法：组合规划器旨在通过构建一个离散表示来找到完整的解决方案，该方法准确地表示原始问题，但其特点是对于特殊情况求解器具有方便的属性。
基于采样的方法：基于采样的方法依赖于连续空间的随机采样，以及可行轨迹图（也称为树或路线图）的生成，其中通过检查节点和连接这些节点的边的碰撞来验证可行性。理想情况下，生成的路线图应提供所有无障碍空间的良好覆盖和连通性。然后使用路线图上的路径来构建原始运动规划问题的解决方案。

但是，在日常的自动驾驶汽车行驶过程中，许多操作环境并非静态的，因此无法预先知道。在城市环境中，行人以及周围的汽车会移动，道路会因施工或事故清理而绕行和封闭，视野也会经常受阻。自动驾驶汽车必须不断感知环境中的新变化，并能够在考虑多种不确定性的同时做出反应。不确定性来自感知传感器的精度、定位精度、环境变化和控制策略的执行，因此在实际的应用过程中，如何实现准确、舒适和高效的规划依旧是非常重要的挑战。

控制

自主系统的执行能力（通常也称为运动控制）是将意图转化为行动的过程；其主要目的是通过向硬件级别提供必要的输入来执行计划的意图，从而产生所需的运动。控制器从力和能量的角度映射现实世界中的交互，而自主系统中的认知导航和规划算法通常与车辆相对于其环境的速度和位置有关。控制系统内部的测量可用于确定系统运行情况，因此控制器可以做出反应以消除干扰并将系统的动态改变为所需状态。系统模型可用于更详细地描述所需的运动，这对于令人满意的运动执行至关重要。

反馈控制是许多应用中最常见的控制器结构。反馈控制使用测量的系统响应并主动补偿与期望行为的任何偏差。反馈控制可以减少参数变化、建模错误以及不必要的干扰的负面影响。反馈控制还可以修改系统的瞬态行为以及测量噪声的影响。然而，在控制器中仅使用反馈项可能会受到一些限制。仅反馈控制器的第一个重要限制是它对错误的响应延迟，因为它只在错误发生时才做出响应。纯反馈控制器还存在耦合响应的问题，因为对干扰、建模误差和测量噪声的响应都是由同一机制计算的。有关于控制相关的更多研究和解决方案可以参考论文中的第四节内容。

结论

近年来，随着自动驾驶技术的快速发展和迭代，各个自动驾驶系统的子模块也取得了日新月异的发展，本文就针对自动驾驶系统中的感知、规划和控制等软件系统进行了较为详细的总结和归纳，以帮助自动驾驶领域的从业者进行更好的学习。

#单目深度估计的扩散模型

原标题：Diffusion Models for Monocular Depth Estimation: Overcoming Challenging Conditions

论文链接：https://arxiv.org/pdf/2407.16698

代码链接：https://github.com/fabiotosi92/Diffusion4RobustDepth

作者单位：博洛尼亚大学

论文思路：

本文提出了一种新颖的方法，旨在解决单张图像深度估计任务中由挑战性、分布外数据带来的复杂性。首先，从那些由于没有不利因素而便于深度预测的图像开始，本文系统地生成包含全面挑战和相关深度信息的用户定义场景。这是通过利用具有深度感知控制的最前沿文本到图像扩散模型实现的，这些模型以生成高质量图像内容而著称，同时保持生成图像与源图像之间的3D结构一致性。随后，通过一种自蒸馏协议对任何单目深度网络进行微调，该协议考虑到使用本文策略生成的图像及其在简单、无挑战场景中的深度预测。针对本文的目的设计的基准测试实验展示了本文提案的有效性和多功能性。

主要贡献：

本文率先使用扩散模型作为一种新颖的解决方案，解决单张图像深度估计中的挑战，特别是涉及恶劣天气条件和非朗伯面(non-Lambertian surfaces)场景的情况。
通过蒸馏扩散模型的知识，本文的方法提高了现有单目深度估计模型的鲁棒性，尤其是在具有挑战性的分布外环境中。
本文的方法同时应对恶劣天气和非朗伯面挑战，展示了在实现与依赖额外训练信息的专门解决方案（如[18, 27]）相媲美的结果的同时，解决多个挑战性场景的潜力。

论文设计：

单目深度估计作为计算机视觉中的关键任务，由于深度学习技术的最新突破而取得了显著进展。这在多个领域有着广泛的应用，从增强机器人技术和增强现实到提高自动驾驶的安全性和精确度，特别是在由于资源或空间限制而无法依赖多张图像进行深度估计的情况下。然而，尽管单目深度估计在实际应用中具有优势，但它面临着从单张图像推断深度的挑战，这一问题被公认为具有不良设定和严重欠约束的特性。通常，解决这一挑战的方法包括通过监督方法[9, 15, 46, 61, 93, 98, 101]训练单目深度网络，使用主动传感器的标注数据，或利用在训练时使用立体图像对[29]或单目视频序列[112]的自监督技术。

最先进的模型，如DPT [69]和较新的Depth Anything [96]，结合了大量数据集的见解，每个数据集的深度标注使用不同的技术提取。这种广泛的训练协议使这些模型能够在广泛的现实场景中表现出色。然而，必须强调的是，即使这些模型在许多设置中表现优异，当处理远离训练期间观察到的分布的数据时，仍面临显著挑战，例如恶劣条件（如雨天和夜间）或具有非朗伯表面的物体。这些挑战主要源于缺乏用于鲁棒模型训练的高质量标注数据，以及现有基于视觉的深度提取技术和主动传感器（如LiDAR、ToF、Kinect等）的局限性，这些技术在复杂环境中（如雨、雪或具有特定反射特性的材料）表现不佳。因此，在这些情况下的深度估计往往不可靠，对依赖准确3D信息的后续应用产生严重影响。通常，当前的方法倾向于独立解决这些挑战。有些方法专注于解决光照不足和恶劣天气的问题 [26, 27, 91]，而另一些则处理非朗伯表面的问题 [18]。这些分散的方法突显了需要一种统一的方法——一个能够同时处理所有不利场景的单一框架，提供更鲁棒和通用的解决方案。

在这项工作中，本文引入了最初为图像合成设计的扩散模型[20, 44]，作为一种开创性的策略，以应对那些位于通常用于训练深度估计模型的数据分布长尾部分的图像所带来的严峻挑战。

基于具有多模态控制的文本到图像扩散模型的原理[56, 106]，本文旨在创建一个多样化的高度逼真的场景集合，这些场景准确复制特定参考环境的3D结构，但有意地加入了各种不利因素。重要的是，这些条件完全是任意的，可以根据特定应用的需求通过用户定义的文本提示进行定制。

更具体地说，本文的方法首先选择那些最初描绘没有与不利条件相关的复杂性的场景图像。这些样本可以从现有的现实世界数据集[17, 28, 57]中获取，通过自定义集合收集，甚至可以使用生成模型[2, 59]生成。对于预选的图像，本文采用任何现成的单目深度估计网络来提供场景的初始3D表示。重要的是，这样的模型可以在不同的大规模数据集上进行预训练，或者根据应用需求定制到特定领域。

随后，本文应用文本到图像扩散模型，将最初简单的图像转化为更复杂的图像，同时保持相同的基础3D场景结构（即深度）。在结合复杂和简单图像后，用于3D数据生成的预训练深度网络进入微调阶段。在此阶段，本文将模型暴露于组合数据集，提供具有挑战性的训练图像及其在初始步骤中获得的相应深度图。这一微调过程提升了单目网络推断深度的能力，使其能够更好地处理不利环境，如图1所示。

图1：框架结果。从上到下分别为：源图像、原始Depth Anything [96]的深度预测，以及本文微调版本的结果。开发板商城天皓智联上有视觉设备哦支持AI相关~大模型相关也可用 aiot自动驾驶也可以哦

本节概述了本文的框架，如图2所示，旨在改善在不利环境下的单目深度估计。假设在一个领域中不存在同时描绘简单和复杂条件的图像，本文的方法使用具有深度感知控制的扩散模型将简单样本转换为复杂样本。随后，本文通过自蒸馏和使用生成数据的尺度和偏移不变损失来微调预训练的单目深度网络。

图2：方法概述。左侧：图像生成和自蒸馏。扩散蒸馏数据（上）：简单图像（）和文本提示（）输入到条件扩散模型中生成不利场景（）。深度标签蒸馏（下）：预训练网络从简单图像（）估计深度（）。使用（）对进行微调，采用尺度和偏移不变损失。右侧：微调后的网络在测试中处理从简单到复杂场景的多样化输入。

图3：生成图像——天气条件。(a-b)：来自KITTI 2015 [54]的RGB图像和深度图。(c-f)：由扩散模型[56]生成的图像，这些图像由(b)中的深度图和每个子图中指示的文本提示条件生成。

图4：生成图像——ToM对象。从上到下分别为：来自Stable Diffusion [2]的简单场景，来自Depth Anything [96]的深度图，使用[56]生成的转换场景。

实验结果：

图5：定性结果。从上到下分别为：RGB图像、原始模型预测的深度图以及使用本文方法微调版本预测的深度图。

总结：

本文引入了一种开创性的单目深度估计训练范式，该范式利用扩散模型来应对分布外场景。通过将简单样本转换为复杂样本，本文生成了捕捉现实世界挑战的多样化数据。本文的微调协议增强了现有深度网络的鲁棒性和泛化能力，使其能够在不需要特定域数据的情况下处理恶劣天气和非朗伯表面。跨多个数据集和最先进架构的广泛实验表明了本文方法的有效性和多功能性。

#自动驾驶行车&泊车~从原理到实践

自动驾驶的两大基础任务：行车&泊车

说起智能驾驶最核心的功能，无疑是行车和泊车。行车功能几乎占据了智能驾驶99%的时间，日常使用最多的自适应巡航控制（ACC）、车道居中控制（LCC）、自动变道辅助（ALC）、高速领航驾驶辅助（NOA）等等都属于行车的范畴。泊车功能相对简单一些，主要是低速场景的车位泊入及泊出，包含低速遥控泊车（RPA）、记忆泊车（HPA）和代客泊车（AVP）。

行车泊车功能的实现包括感知、预测、规划等多个任务，而评价智驾功能安全性及舒适度的决定因素在于规划控制。规划控制作为整个自动驾驶/机器人算法流程中最下游的模块，直接影响司机和乘客的乘车体验，更直接一点：转弯加减速是否丝滑、行车轨迹规划是否符合人类驾驶习惯、车位泊入是否顺畅等等。

虽然特斯拉FSD V12之后，国内各大新势力都在攻坚端到端。但据了解，国内端到端落地尚不明朗，很多公司的端到端虽然已经对外声称上车，但效果相比于rule-based方案，仍然有较大差异。很多公司仍在demo阶段，还不敢投入主战场。直接使用模型输出的规划结果，不出意外的话会不停地『画龙』，安全性根本无法保障，因此仍然需要传统规控兜底。特别是对安全性要求更高的L4，传统规控仍然占据主导地位，短时间内想要替换比较困难。

业内主流的决策规划框架

规划控制发展至今，行业也衍生出很多的决策规划框架，目前主要有以下三大类：

路径速度解耦的决策规划框架；
时空联合的决策规划框架；
数据驱动的决策规划框架。

据了解，业内绝大多数公司采用的都是路径速度解耦的决策规划框架。并且这种方法的上限也是很高的，不少公司都基于该框架实现了无人化的操作。而这种框架最具代表性的方法便是百度Apollo EM Planner，像地平线、大疆、华为、Momenta等诸多主流自动驾驶和芯片公司都有Apollo的影子或基于此直接进行二次开发。

自动驾驶领域为了缩短开发周期，减少框架稳定性的验证，一般会基于优秀的开源框架进行二次开发，比如ROS、Apollo等，重复造轮子对快节奏的自动驾驶行业不是很可取。

而Apollo从2017年4月发布1.0到2023年12月的9.0，已经走过了7个年头。作为最成熟的开源框架影响了无数的自动驾驶从业者，开源Apollo框架集成了很多实用的算法，工程架构完备且方便迁移使用，所以很多初创公司更是直接基于Apollo框架开发产品，可以说Apollo推动了自动驾驶行业的快速发展，这一点百度真的很有远见。

因此，对于刚入门决策规划的小白来说，Apollo决策规划框架是最合适的入门学习内容；对正在找工作和已经工作的同学来说，Apollo也是面试和开发绕不开的点。

从学习/工程角度来说：Apollo框架工程性强，C++代码规范，集成了众多优秀的算法实现。
从面试角度角度来说：对于大部分基础问题, 几乎都可以从Apollo开源代码里找到答案！
从就业角度来说：百度的招聘直接明确的标明"熟悉开源Apollo"优先。如果你学过 Apollo, 绝对是一个很大的加分项。

决策规划的难点在哪里？

整体来说，规划控制相比于感知对理论知识的要求较高。目前业界主流的行车规划EM Planner、泊车规划Hybrid A*。且量产部署均是基于C++开发优化。这段时间有很多小伙伴咨询行车&泊车决策规划的相关问题，市面上已有的鞠策规划相关学习资料质量参差不齐

#MambaST

一种即插即用的跨光谱时空融合器，用于高效行人检测

论文标题：MambaST: A Plug-and-Play Cross-Spectral Spatial-Temporal Fuser for Efficient Pedestrian Detection MambaST: 一种即插即用的跨光谱时空融合器，用于高效行人检测
论文会议：The 27th IEEE International Conference on Intelligent Transportation Systems (IEEE ITSC 2024)
论文作者：Xiangbo Gao等

1.写在前面

行人检测是自动驾驶等应用中的一项重要任务，然而在低照明场景（如夜间），可见光（RGB）摄像头难以单独检测到行人，因此跨光谱融合方法显得尤为重要，利用热成像和可见光摄像头的互补信息提升检测效果。此外，行人视频数据中的顺序运动信息也强调了结合空间和时间信息的重要性，以提高检测性能。虽然多模态融合和时空建模已取得一定进展，但跨光谱时空融合仍有待进一步研究。已有的方法主要集中在单帧的跨光谱空间融合，或多帧单模态输入。针对这一问题，本文提出了一种名为MambaST架构，基于状态空间模型（Mamba），首次结合了跨光谱的空间和时间信息，提出了多头层次化分块和聚合（MHHPA）模块，用于层次化时空特征提取。实验结果表明，MambaST在检测性能和模型效率上有显著提升，同时所需的模型参数和计算资源更少。

相关工作总结

跨模态融合方法

多模态传感器数据提供了互补信息，常见的跨模态传感器组合包括RGB-thermal、RGB-LiDAR和RGB-Depth传感器，特别是在低光照环境下，热成像摄像头因其在各种光照和环境条件下能够提供详细的灰度图像而成为一种重要的融合传感器。

Mamba 和 Vision Mamba 的基础

Mamba 是一种用于序列建模的状态空间模型（SSM），其最初应用于一维序列数据。随后，研究人员将其扩展到二维图像数据，用于视觉任务。这些扩展版本（如 VMamba 和 Vision Mamba）通过将图像划分为路径序列或加入位置嵌入，展示了Mamba架构在图像特征提取方面的潜力。尽管已有研究使用Mamba进行多模态融合，但这些工作主要集中在单帧融合上，未能推广到多时序序列。

时序融合

为了进行时间融合，已有的方法包括3D卷积、自适应2D卷积和Transformer等，但这些方法通常无法处理多模态输入。其他方法则集中在单帧跨光谱空间融合，无法直接适应时间融合。在本文中，我们提出了一种扩展Mamba架构的方法，通过递归连接帧间的特征值，实现时序序列的融合。

2.方法论详细总结

模型架构概述

多头层次化分块和聚合（MHHPA）

为了同时提取RGB和热成像特征图中的细粒度和粗粒度信息，本文提出了一种新的多头层次化分块和聚合（MHHPA）结构。现有的方法，如VMamba和Vision Mamba模型，通常在平展特征之前对其进行分块和标记，这样可以有效减少时间复杂度，但可能导致潜在的信息丢失，削弱模型提取细粒度信息的能力。相反，直接平展特征图用于融合的方法（如一些热成像-RGB融合工作）则可能引入噪声，特别是对于小物体的特征表示。因此，MHHPA模块通过层次化结构同时提取细粒度和粗粒度信息，并将它们结合在一起，从而平衡了信息提取的精细度和噪声去除。

顺序感知的拼接和平展（OCF）

为了在多光谱特征图的平展过程中保持空间连续性，本文提出了顺序感知的拼接和平展（OCF）过程。对于每一帧在时间 t 的特征图，OCF过程将来自RGB和热成像特征图的像素交替拼接，并按顺序平展，从而确保在平展表示中保持多光谱数据的结构完整性和空间关系。

OCF的具体公式如下：

用于时间融合的递归结构

本文在MHHPA模块的基础上引入了递归结构，通过在时间帧之间建立递归连接，实现了时序序列的融合。基于Mamba的转换函数公式：

这一递归结构通过时间上的连接，有效地结合了时空信息，显著提升了行人检测的性能。

3.实验结果详细总结

数据集和评价指标

我们在KAIST多光谱行人检测基准数据集上评估了所提出的MambaST方法。训练使用的是、清理后的标注数据集，包括41个视频序列，总计7,601对图像。测试则在25个视频序列中的2,252对图像上进行。

我们在KAIST基准数据集中提供了两个设置下的评估结果：合理（reasonable）和合理小尺寸（reasonable small）。“合理”设置包括高度超过55像素且未遮挡或部分遮挡的行人，而“合理小尺寸”设置包括高度在50到75像素之间的行人。两种设置都使用日志平均错失率（LAMR）作为评价指标，LAMR值越低，性能越好。我们还报告了召回率，较高的召回率表示较低的假阴性率。此外，为评估算法效率，我们报告了推理过程中的模型参数数量和GFLOPs值，参数和GFLOPs值越低，意味着处理图像序列所需的计算资源越少，效率越高。

实现细节

与其他跨模态融合方法的比较

我们将所提出的MambaST融合模块与RGB单模态和热成像单模态方法进行了比较，还包括基本特征加法策略和跨模态融合Transformer（CFT）。在基本特征加法策略中，RGB和热成像特征简单相加，所得特征图在模态间进行广播，这作为基线比较。对于更高级的跨模态融合方法，我们比较了CFT，这是一种顶级的跨模态融合方法。由于原始CFT模型仅适用于单帧，为了实现时间融合，我们实现了三个CFT的变体进行全面比较：1）CFT模型，原始CFT逐帧应用；2）T-CFT模型，通过拼接所有时间步的特征图整合时间信息；3）D-CFT模型，这是一种变体，使用可变形注意力替代Transformer中的标准自注意力，以更高效地处理时间数据。

小目标检测的评估

根据KAIST基准设置，将高度在50到75像素之间的行人视为小尺寸目标。实验结果表明，MambaST在所有设置中表现优异，尤其是在小尺寸目标检测中，显著提高了准确率和召回率。

效率评估

我们评估了推理过程中所需的参数数量、GFLOPs值以及延迟时间。相比于其他方法，MambaST在达到更好检测性能的同时，所需参数数量和GFLOPs值最低，并且具有相对较低的推理延迟。

与当前最先进方法的比较

我们将MambaST与KAIST数据集上的最先进的融合方法进行了比较。实验结果表明，MambaST在夜间场景下的检测性能最为优异，并且随着输入帧数的增加，检测性能进一步提升。

消融研究

我们进行了多组消融研究，评估不同参数选择的效果。首先，我们测试了MHHPA块中不同分块尺寸的数量。实验结果表明，在第一个MHHPA块中使用四个分块尺寸，并在随后的块中省略分块操作，能够在合理和合理小尺寸设置下实现最低的LAMR。其次，我们评估了顺序感知拼接和平展模块（OCF）的影响，发现引入OCF进一步提高了检测性能。最后，我们测试了不同帧数（）的影响，实验表明使用更多帧数能进一步提升模型性能，证明了Mamba模型在处理长序列上的优势。

4.可视化结果

#自动驾驶CornerCase变小Case

数据的收集、标注和整理过程既耗时又昂贵是自动驾驶技术发展不得不面对的问题。结合世界模型、扩散模型，来生成高质量的训练数据，为自动驾驶系统提供了更加真实和复杂的模拟环境。这种方法不仅降低了对真实世界数据集的依赖，还显著提高了数据生成的效率和多样性，为自动驾驶系统提供了更丰富的训练样本，使自动驾驶系统能够更好地适应各种复杂的交通场景，有助于提升其泛化能力和鲁棒性。

具体来说，近年来研究者多聚焦于如何让各种生成式技术各显神通，提升仿真各环节的“能力上限”。如：

1）基于世界模型生成高质量的驾驶视频和驾驶策略，在仿真环境中模拟各种复杂场景，提升系统的鲁棒性；

2）通过整合大语言模型，可以生成多视图的自动驾驶视频，充分考虑交通流、道路状况、行人行为等多种因素，实现定制化的交通模拟；

3）从原始传感器数据中提取特征，并生成自动驾驶的规划结果，实现生成式端到端自动驾驶……

4）加强自动驾驶系统的局部语义表示和图像推理能力，使得自动驾驶系统能够更好地理解交通场景中的语义信息，如交通标志、行人意图等，从而提升决策制定的准确性和安全性。

来看一些典型成果的分析。

DetDiffusion：协同生成模型和感知模型，以增强数据生成和感知

https://arxiv.org/abs/2403.13304

DetDiffusion是一个结合了生成模型和感知模型的框架，旨在提高数据生成和感知的性能。DetDiffusion的目标是通过感知信息增强图像生成质量，并促进下游感知任务的性能。模型通过在生成过程中提取和利用感知属性（Perception-Aware Attribute, P.A. Attr）来定制数据增强。感知属性为一种特殊的标记，通过预训练的检测器（如Faster R-CNN或YOLO系列）从图像中提取对象属性，属性包括类别、位置和检测难度，这些属性被设计为特殊的标记，以帮助扩散模型生成与感知模型训练目标更一致的图像。此外，模型通过分割引入了感知损失（Perception-Aware Loss, P.A. Loss），从而提高了质量和可控性。感知损失是一种新颖的损失函数，利用来自分割头的丰富视觉特征，以实现更精细的图像重建。它结合了掩码损失（mask loss）和dice损失，特别针对感知增强进行优化。

DetDiffusion的编码器使用预训练的Vector Quantized Variational AutoEncoder (VQ-VAE)，将原始图像编码到潜在空间。文本编码器使用预训练的CLIP模型将文本条件编码。然后连接一个包含不同尺寸的resnet和transformer网络的UNet，用于生成过程，并通过交叉注意力机制整合条件变量。模型还基于UNet中间特征的分割模块引入分割头，用于生成对象掩码，与标签真实值结合以增强可控性。训练时，首先利用感知属性作为条件输入，通过感知损失进行监督，生成高质量的图像。然后通过优化模型的高维特征空间，使用感知信息进行更准确的图像合成。

结果显示，DetDiffusion在图像质量和与布局的一致性方面超越了现有的图像（L2I）模型，并且在目标检测任务中表现出色，显著提高了检测器的训练性能。生成的图像与真实图像在视觉上高度一致，展现了模型在图像生成方面的高保真度和准确性。

DriveDreamer：迈向真实世界的自动驾驶世界模型

https://arxiv.org/abs/2309.09777

DriveDreamer是一个为自动驾驶设计的现实世界驱动的世界模型，它能够生成高质量的驾驶视频和驾驶策略。DriveDreamer利用扩散模型（diffusion model）来构建对复杂环境的全面表示，它采用两阶段训练流程，首先让模型理解结构化交通约束，然后赋予模型预测未来状态的能力。第一阶段训练Auto-DM（Autonomous-driving Diffusion Model），用于模拟和理解真实世界驾驶视频。该阶段以结构化交通信息作为条件输入，包括高清地图（HDMap）和3D盒子（3D box），使用时间注意力层（temporal attention layers）增强生成视频帧的一致性。第二阶段训练ActionFormer，它是用于基于驾驶动作预测未来的交通结构条件。具体为利用门控循环单元（GRU）迭代预测未来的隐藏状态，这些状态随后被解码成未来的交通结构条件。

DriveDreamer模型包括一个条件编码器，用于嵌入不同的条件输入，如参考图像、HDMap、3D盒子和动作。然后通过扩散步骤估计噪声并生成与输入噪声的损失，以优化Auto-DM。最后通过交叉注意力促进文本输入与视觉信号之间的特征交互，使文本描述能够影响生成的驾驶场景属性。训练时通过文本提示动态调整生成视频的风格，例如天气和一天中的时间。还可以通过编码历史驾驶动作和Auto-DM提取的多尺度潜在特征，生成合理的未来驾驶动作。DriveDreamer还可以扩展到多视图图像/视频生成，使用视图注意力层来保持生成内容的一致性。

DriveDreamer模型的创新之处在于其对真实世界驾驶场景的深入理解，引入了Auto-DM和两阶段训练流程，以及能够生成与交通约束高度一致的驾驶视频和基于历史观察的合理驾驶策略。这为自动驾驶的实际应用提供了一个强大的工具，特别是在提高驾驶安全性和效率方面。

DriveDreamer-2：LLM增强的世界模型，用于多样化的驾驶视频生成

https://arxiv.org/abs/2403.06845

DriveDreamer-2是一个根据用户描述生成用户自定义的驾驶视频，增强了生成视频的多样性和定制化能力。它在DriveDreamer的基础上进行了增强，并整合了大型语言模型（LLM）。DriveDreamer-2首先集成了一个大型语言模型（LLM）接口，用于将用户的查询转换成代理轨迹（agent trajectories）。然后通过HDMap生成器基于轨迹生成遵守交通规则的高清地图（HDMap），作为视频生成的背景条件。文章引入一个统一多视图模型（UniMVM），用于在DriveDreamer框架内生成多视图驾驶视频，统一了视角内和视角间的一致性。通过调整掩码（mask），UniMVM能够实现基于初始帧、前视视频输入以及无需图像输入的视频生成。

模型能够实现定制化交通模拟，即利用构建的功能库对大型语言模型进行微调，使其能够基于用户文本输入生成代理轨迹。并且，HDMap生成器使用扩散模型来模拟道路结构，将之前生成的代理轨迹作为条件输入。DriveDreamer-2能够生成高质量的驾驶视频，其Fréchet Inception Distance (FID)和Fréchet Video Distance (FVD)分数分别为11.2和55.7，相比之前的方法有显著提升。总体来说，DriveDreamer-2的主要贡献在于：（1）它提出了一个使用文本提示生成多样化交通条件的交通模拟管道。（2）引入UniMVM框架提升了生成视频中的时间和空间连贯性。（3）通过大量实验验证了DriveDreamer-2生成多样化定制化视频的能力，并且提升了下游任务的性能。

GenAD：生成式端到端自动驾驶

https://arxiv.org/abs/2402.11502

文章介绍了一个名为GenAD（Generative End-to-End Autonomous Driving）的框架，旨在通过生成模型直接从原始传感器数据中生成自动驾驶的规划结果，实现生成式端到端自动驾驶（Generative End-to-End Autonomous Driving）。本文探索了端到端自动驾驶的新范式，其中关键是如何根据过去的场景演变预测自我汽车和周围环境，将自动驾驶转变为生成建模问题。文章提出了一个以实例为中心的场景表示（Instance-Centric Scene Representation），首先使用一个场景标记器（scene tokenizer）将周围场景转换为具有地图意识的实例令牌（map-aware instance tokens）。然后通过背景网络提取图像特征，并将它们转换到3D鸟瞰图（BEV）空间。最后使用交叉注意力（cross-attention）和自注意力（self-attention）机制来细化地图和代理（agent）令牌，同时整合实例和地图信息。然后，使用变分自编码器（VAE）学习将真实轨迹映射到高斯分布的潜在空间，以模拟轨迹的不确定性和结构化先验，以进行轨迹先验建模（Trajectory Prior Modeling）。最后，为实现潜在未来轨迹生成（Latent Future Trajectory Generation），采用门控循环单元（GRU）对潜在空间中的实例进行自回归建模，以生成更有效的未来轨迹。

GenAD框架将自动驾驶视为一个生成问题，通过在结构化潜在轨迹空间中采样，并使用学习到的时间模型来生成未来场景，同时执行运动预测和规划。在训练阶段，使用实例分布和真实轨迹分布之间的Kullback-Leibler散度损失来强制分布匹配。在推理阶段，丢弃未来轨迹编码器，根据实例令牌的条件在潜在空间中采样，并使用学习到的时间模型生成未来轨迹。在nuScenes基准测试中进行了广泛的实验，证明了GenAD在基于视觉的端到端自动驾驶中取得了最先进的性能，并且具有高效率。

MagicDrive：具有多种 3D 几何控制的街景生成功能

https://arxiv.org/abs/2310.02601

文章介绍了一个名为MAGICDRIVE的框架，它是一个用于生成多视角街道视图图像和视频的模型，这些图像和视频可以捕捉精细的3D几何细节和各种场景描述。该框架通过定制的编码策略，实现了对相机姿势、道路地图、3D边界框和文本描述的精确控制。为了实现多样化的3D几何控制，模型需要理解不同相机姿势（Camera Pose）下的视图，包括内部参数（如焦距）和外部参数（如相机在世界坐标系中的位置和旋转）。模型以道路地图作为背景条件，提供了道路的二维网格格式信息，包括道路、人行道、交通标志等。3D边界框（3D Bounding Boxes）用于表示场景中对象的位置和尺寸，包括车辆、行人等，每个边界框由其8个角点的坐标定义。

通过定制编码策略提供多样化的 3D 几何控制，包括：（1）场景级编码（Scene-level Encoding）：使用模板构建文本提示，并利用预训练的CLIP文本编码器处理文本描述。（2）3D边界框编码（3D Bounding Box Encoding）：使用交叉注意力机制对每个边界框进行编码，包括类别标签和边界框位置。（3）道路地图编码（Road Map Encoding）：使用额外的编码器分支来处理道路地图信息，实现视图转换和与3D边界框的协同。此外，为了保持不同相机视角之间的一致性，MAGICDRIVE引入了一个交叉视角注意力模块（Cross-View Attention Module）。该模块允许目标视图从其相邻的左侧和右侧视图中获取信息，并通过注意力机制进行信息聚合。在训练时，使用分类器自由引导（Classifier-Free Guidance, CFG）来加强条件引导的影响，简化了在训练中丢弃条件的策略。

实验结果显示，MAGICDRIVE在生成现实感强、与3D注释高度一致的街道视图方面表现出色，可以显著提高BEV分割和3D目标检测任务的性能。MAGICDRIVE框架通过其定制的编码策略和交叉视角注意力模块，实现了对街道视图生成的精确控制，同时保持了多视角之间的一致性，为自动驾驶领域的3D感知任务提供了强大的数据支持。

CarDreamer：基于世界模型的自动驾驶开源学习平台

https://arxiv.org/abs/2405.09111

CarDreamer是一个为自动驾驶开发和评估基于世界模型（World Model, WM）的强化学习（Reinforcement Learning, RL）算法的开源学习平台。CarDreamer的架构包括三个主要部分：内置任务、任务开发套件和世界模型背骨：（1）世界模型Backbone（World Model Backbone）：集成了最先进的世界模型，如DreamerV2、DreamerV3和Planning2Explore，使用户能够轻松地再现RL算法的性能。这些模型通过标准的Gym接口与其他组件解耦和通信。（2）内置任务（Built-in Tasks）：提供了一系列高度可配置的驾驶任务，这些任务与Gym接口兼容，并配备了经验优化的奖励函数。任务包括变道、超车等，允许在难度、可观察性、观察模态和车辆意图交流方面进行广泛定制。（3）任务开发套件（Task Development Suite）：通过API提供了一系列功能，包括API驱动的车辆生成和交通流控制，以及模块化的观察者（Observer）用于轻松收集多模态数据。此外，还有一个可视化服务器，允许用户通过浏览器实时追踪代理驾驶视频和性能指标。

使用DreamerV3作为模型Backbone，在CarDreamer中的不同任务上进行训练和评估。实验结果展示了在不同驾驶任务中WM的性能。文章评估了在不同观察模态（BEV、相机、激光雷达）下，世界模型预测未来状态的能力。实验结果表明，无论观察模态如何，世界模型都能准确预测未来。此外，CarDreamer允许车辆之间进行不同程度的通信，包括视野共享和意图共享。实验结果表明，通信可以显著提高交通的安全性和效率。

#GaussianLSS

迈向真实世界的BEV感知~

鸟瞰图（BEV）感知作为三维感知任务（如三维目标检测和 BEV 分割）的基础，对于理解驾驶环境至关重要。准确的空间理解在下游的运动预测和规划中也发挥着关键作用，而BEV 通过为传感器融合提供一个稳健的中间表示，促进了有效的多模态融合。

论文链接：https://arxiv.org/pdf/2504.01957
项目链接：https://hcis-lab.github.io/GaussianLSS/

现有的 BEV 感知方法大致可以分为两类范式：

2D 反投影方法，通过估计深度并将特征反投影到 3D 空间；
3D 投影方法，将预定义的 3D 坐标体积投影到相机视图上并聚合图像特征。尽管这些范式取得了显著进展，但它们通常涉及准确度、计算成本和可扩展性之间的权衡，限制了它们在现实场景中的适用性。

3D 投影方法在准确度方面达到了SOTA的水平，然而，它们对 3D 网格的依赖导致了较高的计算成本，使其不太适合实时应用。为了克服这些限制，作者引入了 GaussianLSS，这是一种基于 2D 反投影的方法，通过引入新颖的深度不确定性建模技术，在准确性和效率之间取得了平衡，以满足自动驾驶应用的实时性要求。

图1展示了 GaussianLSS 推理速度和性能的对比，可以看到作者提出的方法在推理速度和效果上有着非常不错的权衡：

本文的主要贡献如下：

引入了 GaussianLSS，这是一种针对 BEV 感知量身定制的新型深度不确定性建模方法，它捕获并利用深度模糊性来改善空间表示。
提出了一种计算效率高的方法，将深度不确定性转换为 3D 概率分布，并将其与 Gaussian Splatting 无缝集成，以实现快速准确的 BEV 特征聚合。
GaussianLSS 在 2D 非投影方法中实现了最先进的结果，并且与 3D 投影方法具有竞争力。此外，它还显着减少了内存使用量和推理时间，使其非常适合现实世界的自动驾驶应用。

相关工作3D 投影的目标检测/分割

3D 投影方法将预定义的 3D 体素点映射到图像平面上以采样特征，消除了对显式深度估计的需求。这种方法通过将特征放置在合理的 3D 位置，绕过了直接深度预测的复杂性。值得关注的工作有，BEVFormer 和 SimpleBEV等，采用网格采样来高效地在 BEV 平面上聚合多视图特征。为了应对网格分辨率的挑战，PointBEV 引入了一种从粗到细的训练策略，从密集网格过渡到稀疏网格，这在保留准确度的同时减少了内存消耗。尽管取得了这些进展，与 2D 反投影方法相比，3D 投影方法仍然计算密集，限制了它们在现实应用中的可扩展性。

隐式 2D 反投影的目标检测/分割

隐式 2D 反投影方法利用基于 Transformer 的架构和 MLP，从 2D 图像到 3D 空间进行学习映射，而无需显式预测深度。这些方法侧重于通过在交叉注意力框架中整合 BEV 网格查询和相机感知位置嵌入，隐式地学习空间关系和深度线索。然而，由于投影是隐式的，这些方法在处理深度模糊性时面临挑战。另外，随着 BEV 网格和图像分辨率的增加，它们的计算复杂度显著增加，使其在高分辨率应用中效率较低且可扩展性较差。这些限制限制了它们在需要精确空间表示的详细场景中的实用性。

显式 2D 反投影的目标检测/分割

Lift-Splat-Shoot (LSS) 引入了一个高效的流程，将 2D 特征提升到 3D，这一设计已成为 3D 感知任务的基础。这种方法严重依赖于准确的深度估计，这使得它对深度预测误差敏感，这些误差可能会传播到 BEV 表示中。为了缓解这一问题，后续工作增加了深度监督作为辅助损失，以提高深度准确性。尽管这些方法使用概率深度分布来软性提升特征，但它们通常缺乏对深度不确定性的显式表示。这一限制阻碍了它们在复杂场景中有效处理深度模糊性的能力。GaussianLSS 通过将深度不确定性显式建模为概率分布的方差来解决这一问题。这种不确定性感知的深度表示减少了对精确深度估计的依赖，允许模型捕捉围绕深度均值的可变空间范围，见图2。

不确定性建模

不确定性建模是一种广泛采用的方法，用于捕捉计算机视觉任务中的模糊性，应用领域包括语义分割、单目深度估计和新视图合成。估计不确定性的常见方法包括：

预测分布的方差：基于预测概率分布的方差来衡量不确定性，直接表明对输出的置信度。
基于 MLP 的不确定性估计：使用多层感知器（MLP）输出单个不确定性分数或预测由均值和方差描述的分布，其中方差作为不确定性度量。
贝叶斯网络：引入概率先验分布，以原理性框架对不确定性进行建模。

这些方法各自提供了独特的不确定性建模方式，支持在各种场景中进行更稳健的预测。在作者的工作中，作者通过关注深度分布的方差来采用不确定性建模，利用它增强 BEV 分割性能，特别是在存在深度模糊性的情况下。

GaussianLSS 模型

作者的目标是将深度不确定性建模整合到 BEV 表示流程中，以应对现实场景中的深度模糊性挑战。GaussianLSS 的概述如图 3 所示。

GaussianLSS 首先预测每个像素的深度分布，提供相应深度不确定性的估计。利用相机的投影矩阵，作者定义了一个相机视锥空间，将这种深度不确定性转换为由均值和协方差矩阵表示的 3D 分布。为了实现高效的 BEV 特征绘制，作者在 3D 高斯表示中引入了一个不透明度参数，从而可以使用高斯绘制光栅化。然而，作者观察到由于相邻像素之间深度均值不一致，BEV 特征可能会出现失真。为了解决这一问题，作者采用了多尺度 BEV 渲染方法。

深度不确定度建模

作者首先回顾开创性工作 Lift-Splat-Shoot。它首先将深度范围 [d_min, d_max] 离散化为 B 个箱子。这创建了一个离散深度集合 D：

然后作者将 D 与像素坐标关联起来，创建一个相机视锥空间。对于图像中的每个像素 p，网络预测一个上下文向量和一个深度分布，其中表示 B 维概率单纯形。对于给定的深度 d，与视锥空间中的点相关联的特征定义为上下文向量按相应深度分布系数缩放的结果：

然而，这种软分配机制存在几个缺点：

稀疏 BEV 投影：离散化深度的不连续性导致稀疏的 BEV 投影，从而在 BEV 表示中产生不完整的空间覆盖。
不稳定的深度分布：深度分布是通过 softmax 操作获得的，但 softmax 可能会对相邻的深度箱产生截然不同的概率。这导致 BEV 特征不一致，因为相似的深度可能由于深度值的微小变化而获得不成比例的关注。

因此，作者提出了一种不确定性感知的深度建模方法，通过引入连续的深度表示并显式建模深度不确定性，从而缓解这些问题，允许更平滑、更可靠的 BEV 特征聚合。作者通过建模深度分布的方差来捕捉深度不确定性。设 P 为每个像素的深度分布，对于每个像素 p，作者计算深度均值和方差，其中和分别表示第 i 个箱子的深度值及其概率。使用误差容差系数 k，作者定义了一个软深度估计范围。这个范围容纳了深度不确定性，允许通过捕捉均值周围的分布范围来进行更灵活、更可靠的深度投影（见图 2）。

3D 不确定度转换

作者在深度空间中生成了一个软深度估计，然后将其转换为 3D 表示。给定视锥空间中的一个点，其中 u 和 v 表示像素坐标，d 是深度，作者使用相机内参 I 和外参 E 将 p 反投影到 3D 坐标中：

其中是在自车坐标系中的反投影 3D 点。然后作者通过以下公式计算点 p 的 3D 均值和协方差：

其中是与每个深度箱 i 相关联的概率，表示像素 p 对应深度的 3D 点。因此，软深度估计被转换为一个 3D 高斯分布，其中均值表示分布在 3D 空间中的中心，描述其分布范围。如上一节所述，作者应用误差容差系数 k 来定义围绕的 3D 不确定性范围。这个软 3D 范围由一个以为中心的椭球体表示，定义为：

其中 x 是 3D 空间中的任意一点。这个椭球体基于深度估计的范围捕捉了 p 在 3D 位置上的不确定性。作者将这种转换记为 T：

其中表示转换后的 3D 不确定性。

BEV Features Splatting

在本节中，作者描述如何将深度不确定性与预测的特征整合后高效地绘制到 BEV 表示中。

Gaussian Splatting

Gaussian Splatting 使用由 3D 均值、3D 协方差矩阵和不透明度定义的 3D 高斯分布来建模 3D 场景：

然后，这些高斯分布被投影并使用 alpha 混合渲染到 2D 平面上：

其中是每个点的颜色，C 是混合后的计算颜色。

BEV feature rendering

对于来自 n 个多视图相机的每张输入图像，作者提取多相机特征，并使用一个简单的 CNN 层获得绘制特征、深度分布和不透明度。然后，如上一小节所述，作者生成每个像素的 3D 表示，其中每个包括 3D 空间坐标和协方差矩阵。通过将这些 3D 表示与特征图 F 和不透明度整合，作者获得了一组高斯分布。接下来，n 组高斯分布被合并并投影到 BEV 平面上。将它们投影到 BEV 平面的实现方法是对原始投影方法进行了略微修改，详细内容在论文的补充材料中介绍。最后，作者将替换为，将特征 F 绘制到 BEV 平面上，得到如下 BEV 特征：

其中表示在 BEV 平面上每个位置 x 处的渲染 BEV 特征。为了应对相邻像素之间深度估计不一致的问题，作者提出了一种多尺度 BEV 特征渲染方法。该方法在不同分辨率（例如 50×50 或 200×200）的 BEV 平面上投影 G，有效地捕获分层空间表示。得到的多尺度特征随后被上采样并融合，以匹配目标 BEV 分辨率。最后，融合后的特征被送入分割头以产生最终预测。

实验及结果

作者在 nuScenes 数据集上评估了 GaussianLSS。

与现存方案的对比

作者将 GaussianLSS 与基于反投影和投影的方法进行了比较。如表 1 所示，GaussianLSS 在所有基于反投影的方法中表现最佳，并且与基于投影的方法相比具有相当的性能。作者观察到，即使使用多尺度渲染，GaussianLSS 在预测对象形状方面仍然比基于投影的方法差，但能够捕捉到更远距离的对象。

此外，表 2 比较了行人类别分割，而表 3 显示了推理速度和内存消耗。GaussianLSS 实现了 80.2 FPS，比 PointBEV 快 2.5 倍，展示了其效率。除了列出的任务外，作者还在其他应用中评估了 GaussianLSS，包括地图分割和 3D 目标检测。这些结果进一步验证了 GaussianLSS 在不同任务中的多功能性，显示了不确定性表示的有效性。

误差容差系的消融实验

误差容差系数 k 是作者不确定性建模方法中的一个关键参数。它通过控制围绕每个 3D 点的椭球体的大小，定义了 3D 不确定性表示的空间范围。较小的 k 限制了绘制到高置信度区域，但可能会忽略物体的有效范围；而较大的 k 虽然纳入了更多的不确定区域，但以牺牲精度为代价。这种平衡对于有效的 BEV 特征表示至关重要。

分析结果如图 4 所示。另一方面，作者也尝试直接预测一个固定的范围，而不是建模不确定性。通过比较这两种方法，作者旨在突出将不确定性纳入 BEV 特征提取过程的优势，因为直接预测范围会导致性能降低 1.3%。

深度不确定度分析

作者评估了 GaussianLSS 在不同距离上从自车的性能，重点关注其准确表示远距离物体的能力。为此，作者通过排除距离自车一定近邻阈值内的预测来计算 IoU。图 6 比较了 GaussianLSS 与基于投影的最先进方法 PointBEV。两种模型都表现出随着距离增加而准确度下降的相似趋势，这是由于深度模糊性增加所致。

然而，GaussianLSS 在处理远距离物体方面表现出优势。通过显式建模和利用深度不确定性，GaussianLSS 在超过 30 米的距离上提供了更准确的对象表示。当最大深度设置为 61 米时，性能降至零。

特征渲染中的不透明度

特征渲染中的不透明度可以被视为一种加权求和机制，引导模型关注语义相关区域。高不透明度区域代表置信度高、贡献大的特征，而低不透明度区域则被弱化或可以过滤掉以提高效率。经验表明，在训练后，80% 的高斯分布的不透明度低于 0.01，突出了模型在识别和将关键区域投影到 BEV 空间方面的效率，如图 7 所示。

定性结果分析

作者在图 5 中展示了定性结果。黄色区域表示在特征提升过程中由于低不透明度值而被屏蔽的区域，确保模型专注于语义重要的特征。GaussianLSS 即使在存在遮挡和杂乱的复杂城市场景中，也能捕捉到关键区域，如车辆。这突出了 GaussianLSS 在学习有意义的特征的同时过滤不相关区域的有效性，从而实现准确且高效的 BEV 表示。

图 8 展示了模型在长距离感知方面的鲁棒性，涵盖了 8 种不同场景。作者可视化了在 BEV 平面上绘制后的不确定性感知特征。尽管长距离感知存在固有挑战，包括深度模糊性增加，GaussianLSS 利用不确定性感知特征专注于感兴趣区域，同时保持 BEV 投影的准确性。

总结

作者提出了 GaussianLSS，这是一种新颖的 BEV 感知方法，它将深度不确定性建模与高效的多尺度 BEV 特征渲染相结合。通过将每个像素的深度不确定性转换为 3D 高斯表示，GaussianLSS 有效地解决了深度模糊性的固有挑战，同时实现了将特征稳健且准确地投影到 BEV 空间中。作者在基于反投影的方法中实现了最先进的性能，并且在显著降低内存使用量和推理时间方面表现出色，使其非常适合用于现实世界的自动驾驶应用。

#LLVM-AD 2025

多模态LLM与世界模型塑造自动驾驶驾驶新格局

近日，第三届大型语言与视觉模型自动驾驶研讨会(LLVM-AD 2025)在WACV 2025会议成功举办！作为连接AI技术与自动驾驶领域的重要桥梁，本次研讨会汇聚了全球顶尖专家学者，共同探讨前沿技术与未来发展方向。基于本次研讨会的内容，团队发布了一篇Position Paper: Position: Prospective of Autonomous Driving - Multimodal LLMs, World Models, Embodied Intelligence, AI Alignment, and Mamba 讨论了自动驾驶未来的重点方向。

Link: Position: Prospective of Autonomous Driving - Multimodal LLMs World Models Embodied Intelligence AI Alignment and Mamba

LLVM-AD研讨会介绍

LLVM-AD研讨会致力于促进大型语言模型与计算机视觉技术在自动驾驶领域的创新应用。随着人工智能技术的迅猛发展，如何有效利用这些技术突破自动驾驶的关键挑战，成为学术界与产业界共同关注的焦点。首届研讨会在WACV 2024举办，本次研讨会是LLVM-AD的第三届，共展示了共十篇精选论文，涵盖场景理解、轨迹预测、多模态融合、感知系统优化等自动驾驶核心技术。每篇论文均安排8分钟展示与2分钟问答环节，确保深入而高效的学术交流。

最佳论文奖揭晓：经LLVM-AD评审委员会严格评选，本届研讨会最佳论文奖授予”Query3D: LLM-Powered Open-Vocabulary Scene Segmentation with Language Embedded 3D Gaussians”，该论文创新性地将大型语言模型与3D高斯表示相结合，实现了开放词汇的场景分割，为自动驾驶感知系统带来了全新解决方案。

最佳挑战论文奖：”Evaluating Multimodal Vision-Language Model Prompting Strategies for Visual Question Answering in Road Scene Understanding ”荣获最佳挑战论文奖，该研究系统评估了多模态视觉-语言模型在道路场景理解中的提示策略，为自动驾驶系统中的视觉问答任务提供了重要参考。

开放数据集挑战：研讨会重磅推出面向真实世界高精地图理解的开放数据集MAPLM-QA v2.0挑战，包含丰富的多样化交通场景，旨在促进自动驾驶感知算法的公平比较与快速迭代。该挑战将为参与者提供宝贵的实验平台，推动算法从实验室走向实际应用环境。

顶级学者分享前沿研究

三位来自学术界与产业界的国际知名专家带来了精彩纷呈的主题演讲：

Burhan Yaman博士（博世研究院）：Representation Alignment for Autonomous Driving深入探讨了如何通过表示学习优化自动驾驶感知系统，解决数据多样性与模型泛化能力的关键问题，提供了弥合算法研究与实际部署差距的新思路。
Manmohan Chandraker博士（UCSD & NEC美国实验室）：Towards Safe Open-World Autonomy分享了在开放、动态环境中构建高可靠性自动驾驶系统的最新研究成果，特别关注如何处理边缘情况和未知场景，为自动驾驶安全保障提供了理论与技术支撑。
Hang Zhao博士（清华大学）：Fast-Slow Dual Autonomous Driving Systems创新性地提出了结合快速反应与深度规划的自动驾驶架构，平衡了实时性与决策质量的关系，展示了自动驾驶系统设计的新范式。

🌐 更多研讨会详情，请访问官方网站：https://llvm-ad.github.io/

#距离人人都能生成百万运镜短视频还有多久？

现在的AIGC学术成果可以说是呈现日均井喷的状态，每天如果不及时浏览最新论文，过不了几日就会堆积如山。不看一日如隔三秋，AI一天人类一年。尽管如此，视频生成产品的商业化仍然属于早期，路程依然很崎岖。“一眼假”、“生成慢”、“效果不确定”的评论常常伴随着视频生成模型或产品的新版本发布“同步上线”。

视频生成大模型目前究竟发展到什么样的一个水平如何？

从模型效果的sota到产品令人“眼前一亮”，究竟有多大的gap要弥补？

距离人人拥有随心定制百万运镜的时刻还有等待多久？

于是，首期AIGC炼丹煮茶线上圆桌就在这样的“疑惑”中诞生了。该场圆桌聚焦AIGC前沿技术与商业化发展，主持人Gloria和闻星、张浩杰两位特邀嘉宾一起深入探讨了视频生成领域的现状、挑战与未来。讨论首先回顾了视频生成技术的关键模型，如DDPM、Flow及AR（自回归）范式，并指出当前技术在实现物理真实性和视频长度的完美结合上仍面临挑战，还涉及了模型可控性、提示词对生成质量的影响，大模型在生成视频方面当前取得的阶段性成果与仍然存在的不足。在最后一个环节，主持人Gloria展示了国内主流的几款视频生成软件对通过同一张图和同一段提示词生成视频的效果，并邀请了嘉宾和观众一起点评与展望。

关键词：AIGC, 视频生成, 评估基准，真实性, 可控性, 创造力, 物理性, 常识, 人体真实性

炼丹时刻1：视频生成效果如何评估

圆桌第一部分由嘉宾闻星分享一个专注于AI论文的平台--PaperScope ，共收集了 190 多篇最新视频生成领域相关论文（截止分享当天）。这些论文展示了视频生成技术的最新进展，为研究人员和从业者提供了丰富的研究资料。同时，他还分享了 VBench 2.0 评估基准，包含有两种评估方法，一种是文本描述对齐，另一种是基于视频的多问答。相比上一个版本-- VBench 1.0，VBench 2.0 更注重从真实性、可控性、创造力、物理性和常识五个维度评估视频生成模型的内在质量，更全面地对当下视频生成模型的性能进行评估，为模型的发展和优化提供了重要的参考依据。

以上为闻星老师用大模型生成的ppt截图

随后，闻星对这5个维度进行了展示。

第一个维度专注于人类真实感，分为三个部分：评估角色图像的结构准确性和时间一致性。这包括评估解剖学上的正确性，例如识别手、脸和身体上的不自然变形，以及确保时间上的连贯性。例如，整个视频中的服装保持不变。
第二维度是创造力，它评估模型生成多样化输出和处理复杂组合的能力。多样性通过样本的风格和内容变化来衡量，而组合则评估对象互动、单一实体运动和多实体动态。
第三维度是可控性，评估模型对复杂姿势和动态变化的遵循程度，例如空间变换、动态属性、运动序列的理解、人机交互、复杂景观、复杂情节和镜头运动。
第四维度涉及对现实世界物理原理的遵循，包括力学（例如，水滴下落、球体弹跳）、热力学（例如，相变如汽化、液化、升华）、材料属性（例如，颜色混合、硬度、可燃性、溶解性）和几何多视角一致性。
第五维度评估视频生成中的推理能力——动作是否合理并产生现实后果。例如，虚拟动作如边走边吃但没有前进运动，会评估其逻辑一致性。

以各家今年发布的最新版视频生成模型在Vbench 2.0的评估结果来看：

Sora在人类真实感和创造力方面表现出色，但在可控性和物理方面表现不佳。
Kling 1.6在推理和与镜头相关的维度上表现强劲，同时在其他方面保持平衡性能。
CodeVideo X1.5在物理和复杂提示方面挣扎，特别是在以人为中心的维度上。
MemberVideo在与人相关的方面取得了令人印象深刻的结果，但在其他维度上滞后。

而这些模型共同的局限性则可以归结为：视频时长普遍不够长短，动态变化和空间关系的挑战依然存在，这也是当前视频生成领域前进道路的“拦路虎”。

随后，闻星介绍了CompassHub 司南评测集社区。作为司南评测体系的重要组成部分，旨在打创新性的基准测试资源导航社区，提供丰富、及时、专业的评测集信息，帮助用户了解模型在各细分领域的能力边界。与此同时，他针对当前领域发展现状，探讨了视频生成技术的资源需求和商业化潜力，比如是否可以通过会员制、广告等方式补贴项目成本。

炼丹时刻2：硬核解读视频生成领域的“前世今生”

圆桌第二部分，嘉宾浩杰带大家回顾了视频生成领域的“前世今生”。他深入探讨了视频和图像生成技术的最新发展，特别是从技术和方法论角度分析了当前领域的三点：痛点、亮点与难点。

当前的视频生成模型与图像生成的原理本质上是相同的。无论是扩散生成方式还是其他方法，其核心目标都是从一组图像样本中构建一个分布。如果这个分布能够准确反映现实世界或自然规律，那么通过随机采样，可以生成符合物理规律和人类认知的新图像。目前，所有生成模型的核心目标都是通过优化数据和模型结构，构建更高质量的分布，从而生成更逼真、更符合人类指令的结果。

从技术范式来看，目前主流的方法包括DDPM、Flow-based和自回归模型（AR）。DDPM路线始于2020年，并在2022年由Stable Diffusion实现成熟化。随后，DiT架构进一步推动了这一领域的发展，而SiT则通过Flow-based方法显著提升了采样效率，减少了生成所需的步数。

另一种范式是自回归模型（Autoregressive Model，简称AR模型），例如最近发布的GPT-4o。自回归模型类似于GPT系列，但针对图像生成时存在一些挑战。大多数之前提到的方法都基于DDPM或Flow。但AR范式，这是一种更为原生的方法，可以理解为一个多模态模型，旨在将数据（包括文本、图像和视频）统一编码到一个空间中。然后，它利用类似于GPT的下一个标记预测范式来训练生成模型。这里没有太多捷径可走——需要一个标记化工具和一个类似GPT的训练过程。

图像数据缺乏文本中的因果关系，传统的自回归方法就显得不太适合。去年的一些工作，如MAR和VAR，突破了传统自回归的限制，证明了自回归模型在质量上可以与DDPM或Flow-based模型竞争，甚至超越它们。但总体来看在视频生成领域，自回归范式的创新相对较少。

对比视频生成与图像生成，二者主要区别在于时序建模。早期的视频生成方法通常将视频视为连续的图像帧，逐帧生成。但视频的时序特性带来了额外的复杂性，这也是未来研究的重要方向。

早期的视频处理方法是将视频视为一系列图片帧，本质上是一种视频流。在模型内部，时间维度和空间维度分别被处理。在时间维度上，每一帧被当作Token处理；在空间维度上，每一帧内部的Token被单独处理。这种方法在模型较小时可行，但能力有限且建模复杂。

后来，混元和CogVideo等模型开始将连续视频帧作为一个Token处理，这种Token可视为一种立方格，同时涵盖时间跨度和空间跨度。这种建模方式更为高效，但需要更大的数据量和模型规模来同时捕捉时间和空间特征。更大的数据和模型也意味着更强的学习能力。

视频生成领域的另一个重要方向是视频压缩。Stable Diffusion之所以能生成高分辨率图片和视频，是因为采用了VAE（变分自编码器）来压缩原始图像。理论上，长视频的压缩率可以高于单张图片，因为每一帧都能提供额外信息。因此，VAE压缩成为视频生成中的关键方向。

去年，LTX Video以相对较小的模型参数实现了高分辨率视频生成，其核心在于VAE压缩技术。它能够实现高压缩率，使更多开发者能够使用。从LTX Video的示例可以看出，其VAE压缩基于固定帧数的视频流，与图片相比，视频只是扩展了图片的范围。

圆桌中，浩杰还介绍了多种下游任务中的应用展开，包括三维重建、可控视频生成、多视角视频生成、风格转换以及数字人视频生成，并强调了视频模型的生成能力及其在保持视觉一致性的同时，如何应用于如三维重建、基于运动序列的视频生成、多视角视频生成等任务。此外，他还提到了构建4D数据集的挑战以及风格转换的难度，以及如何通过科学的训练策略联合多种条件驱动视频生成，如音频和姿势信息在数字人生成中的应用。

在介绍完几项代表性工作后，浩杰总结了当前视频生成的现状：本次圆桌所讨论的方法针对的是更小、更具体的子任务。然而，这两个方向都需要大规模数据和计算能力来构建用于采样和实现预期结果的稳健分布。

对于特定任务的视频生成，构建此类数据集尤其具有挑战性。例如，通过运动引导或多摄像头设置生成视频需要大量的数据收集，如4D数据。因此，当前视频生成的首要挑战是数据创建。
条件建模无论是针对文本、音频还是其他引导——仍然相对简单。没有太多巧妙技巧的空间；大规模数据和模型优于复杂但扩展性较差的方法。这是当前的现状。

对于当下视频生成领域的研究者来说，首先考虑的是如何处理视频数据。目前的方法类似于图像处理，如基于patch的标记化以适应transformer架构，追溯到ViT。然而，这种方法对人类来说并不直观，因为人类是整体感知图像，而不是孤立地看待patch。去年的VAR通过模拟人类视觉——从远处的像素开始，逐渐放大，可谓是引入了新的研究视角，但这对于图像来说仍然具有挑战性，更不用说视频了。

根据人类的直觉，视频应该逐帧生成，并保持帧间关系。然而，当前有效的下一个标记预测方法，对于像文本这样的离散符号有效，但对于下一帧预测却失败了。这是一个值得探索的领域，正如LeCun在基础数据建模方面的工作所强调的。

对于个人开发者来说，参与大规模视频生成项目通常不切实际。即使是训练特定任务的模型也因数据收集障碍而困难重重。相反，我主张利用现有的视频生成模型，这些模型已经很好地捕捉了物理规则和人类直觉。

两种实用方法值得推荐：

轻量级适应：如ControlNet或T2i等方法旨在插入条件（例如，草图、深度图或运动流）而不影响模型性能。虽然将这些方法应用于视频更具挑战性，因为文本/音频相关性较弱，但这一方向可能会发展，因为特定任务的模型往往重复造轮子。
无需调优的方法：视频编辑是这方面的典型例子。与其收集大量数据集，不如通过微妙地操纵特征或向现有模型注入先验来实现编辑。这避免了从头开始训练新模型的资源密集型过程。

简而言之，该领域应优先考虑高效复用现有模型，而非冗余开发，再造新模型。

在应用层面，个人开发者可通过轻量化微调，如ControlNet或T2i等方法，利用现有模型开展特定任务。长视频生成时，可多次生成片段并注入特定条件保持一致性，但仍面临挑战。此外，如何借助现有模型，进一步提升图像生成视频的质量与效率，也是视频生成技术发展中需要探索的方向。

“煮茶时刻”：聊聊现有产品和技术的gap

圆桌第三部分开始由Gloria带领大家讨论视频生成产品与模型发展上的gap。讨论测评了几款国产产品的图像生成视频功能，通过上传相同图片和提示词，对比分析了几段生成的视频，主要从涉及镜头感、情绪捕捉、动作连贯性和物理细节等方面进行对比。

可灵：运镜感最棒

海螺ai：情绪最符合

即梦：配音最方便

清影：动作、情绪最连贯

vidu：物理细节最好

Gloria：目前有些视频生成产品的图生视频模块首尾帧是否是确保视频制定的关键因素，以及建模过程的难度如何？

浩杰：首尾帧需要模型建模两者之间的物理或逻辑关系，这个过程可能比仅提供一个首帧并让模型按照规则生成结果更具挑战性。增加尾帧后，模型需要构建因果关系，这相对更难。即使增加了尾帧，中间过程的连贯性仍难以保证，因为更强的约束可能使模型对物理规则的把握更加吃力。

Gloria：视频时长越长，一次性生成的挑战是否越高？目前感觉是越高的，尤其最后几秒拉跨概率不小

浩杰：视频时长越长，一次性生成的挑战确实越大。但这不仅取决于模型大小，还与压缩倍率有关。不过，通常情况下，模型需要处理更长的时间序列信息，任务难度随之增加。

视频时长的长短取决于模型规模和压缩倍率。压缩倍率越高，生成的视频可以越长，但任务难度也会相应增加。

闻星：浩杰老师能否为我们科普一下，不同参数量的模型需要多少资源才能生成多长或多高分辨率的视频？例如，在常规开发中，像Video这样的模型，其稳定输出通常在多少？

浩杰：这个我展开说下。像Video这样的模型，其稳定输出通常帧率大约为40帧，相当于大约2秒。最新模型的入门参数数量为50亿。训练数据集的确切大小尚不清楚，但很可能相当庞大。

在实际应用方面，生成视频所需的资源至关重要。对于50亿参数的模型，推理可能需要几GB的显存——可能大约10GB，尽管确切数字不确定。显存需求相对较高。对于本地部署，10GB或许可以应付，但可能需要高达24GB，这在消费级GPU的范围内。

闻星：确实，24GB消费级GPU代表了一个重要的门槛。

浩杰：对的，其实核心问题在于确定哪些开源模型可以在消费级GPU上运行，以及它们能够生成视频的质量。

在我看来，消费级GPU的上限可能处于混元Video的水平，我记得它大约有300亿个参数。资源消耗和输出质量之间的权衡是我认为最有趣的两个维度。

关于长视频生成，以往的方法通常通过一次生成一个片段来建模这个过程。这些方法旨在通过参考之前生成的片段信息来生成后续片段。虽然这是一种可行的方法，但它需要训练并存在某些挑战。

在训练过程中，我们使用不同长度的真实世界数据，但在生成过程中，我们必须参考之前生成的视频。这造成了生成视频和真实视频之间的显著分布差距，必须通过各种训练技术来解决这个问题。

这一范式理论上允许无限长度的视频生成，但由于这种分布差距，实际操作中会出现局限性。

由于分布差异导致的错误累积问题，生成的视频越长，物理规则破坏的程度就越严重。例如，在一分钟或几分钟后，这种破坏会更加明显。

闻星：什么是“Clip”？它指的是一个视频片段吗？能否解释一下这些片段的生成原理？比如，可以随便举一个模型来说明。

浩杰：我来解释下。考虑生成一个视频。通常情况下，对于一张图片，我们会使用当前的DiT架构对其进行分token。比如，我们可能会将其分解为32*32个token来表示这张图片。

在生成一个16帧的视频时，我们需要生成32*32乘以16帧。这个过程基本上就是这样运作的。然后，这个视频生成模型直接输出一个clip。

Gloria：我很好奇，目前视频生成的质量对提示词的依赖程度如何？我看我给前面几款视频生成产品喂的提示词里，其实有相当多的内容他没有识别到。

浩杰：我可以从一个理论的角度开始，因为我在视频生成方面的实践经验可能不如你丰富。我们的主要关注点在于我们的核心任务。

从基本的角度来看，生成过程涉及从分布中采样。这种采样本质上不需要提示，因为DDPM基本上是无条件的。然而，我们引入提示以符合人类指令。

通常，最高质量的输出——通过最小化与真实数据、图像或视频的偏差来衡量——是在没有提示的情况下实现的。更强的条件可能会降低质量，但这在模型训练过程中确定。提示质量是否影响推理尚不清楚。有经验的同学可以弹幕补充。

闻星：我对使用简短提示（比如单句）还是更长、更详细的提示，哪种方式能生成更符合物理规则的结果感到非常好奇。由于在这方面缺乏经验，我不确定是更多的约束还是更少的约束更可取。不过，我有兴趣进一步实验。

例如，我之前尝试根据诗句“春江潮水连海平，海上明月共潮生”来生成视频。当直接将这一诗句输入视频生成模型时，结果往往过于宽泛。然而，当我先使用DeepSeek或其他模型来扩展场景时，输出更好地捕捉到了诗意的画面——春江潮水和明月共同随潮水运动。

在这种情况下，利用大语言模型工具来详细描述场景似乎是必要的。虽然这种方法在这里效果不错，但可能并不普遍适用——有些单句提示如果没有额外上下文，可能无法有效转化为视频。

浩杰：这种艺术构思可能需要一个大模型来具体化成场景的文字描述。对于涉及角色情感变化和情节发展的场景，这种广泛的写作可能会对大型模型工具构成挑战，因为它们可能无法很好地处理。

Gloria：是的。之前，我的工作也展示了我是如何使用DeepSeek来制作提示的。

浩杰：我认为大部分信息尚未被充分消化，可能是由于训练不足所致。大胆猜测一下。

Gloria：来点“形而上”的讨论，从你们的角度来看，高质量的视频生成未来将在哪些方面展开竞争？可以从模型和产品两个维度进行探讨。

闻星：首先，我们可以将用户分为几类。第一类是专业的电影制作人和动画师。第二类是普通用户，他们只是想制作一些基础视频。视频生成模型降低了视频制作的门槛，使其对更广泛的受众变得可行。第三类包括像我这样的人——内容创作者或那些希望增加粉丝基数的人。

就我个人而言，我目前正在开发一个小工具，名为“paperscope”，它涉及视频生成。具体来说，输入是一篇研究论文，输出是一段完整的介绍该论文的视频。我的核心目标是增加观众数量。然而，我发现现有的平台并不能充分满足这一需求，因为它们更多地专注于总结论文，而不是直接从提示生成场景。

对于大型模型公司来说，他们的目标受众可能包括……我这种角色可能并不是他们主要争取的对象。他们的目标用户群体应该是广大的影视从业者。针对这两类用户群体，我们可以探讨他们的具体需求。

Gloria：从模型角度来看，张老师那边可以进一步讨论。

浩杰：尽管我使用视频生成模型的经验不多，但今天看到的例子让我意识到，当前的视频生成模型已经能够构建出符合物理规则的结果。不过，我认为还有两点需要改进：

第一，需要构建一个鲁棒性更强的模型，能够生成符合人类认知或物理规则的结果。第二，可控性非常重要。单纯依靠文本输入很难实现高度可控的效果。例如，GPT-4之所以受欢迎，就是因为它能根据用户需求不断调整输出结果。但在视频生成领域，我们可能需要结合文本和视觉输入，比如在图像上进行标注或修改，以获得更好的生成效果。这种多条件综合的方式对实际用户来说非常关键。

Gloria：最后一个比较有话题度的问题，两位认为视频生成产品的deepseek时刻还有多远？
浩杰：我认为关于以模型目前的成熟度，我认为短期内难以达到很高水平。当前视频生成模型存在底层理论缺陷，即使很多公司能实现分钟级生成或通过规则优化，很大程度上仍属于辅助工具。我更看好通过提示工程和易开发的模型来实现产品级别的创新。视频生成的“GPT时刻”可能更多出现在产品工具工程领域。

闻星：作为一名AI体验专家，我将努力整合各种人工智能技术的独特功能，以建立一个从研究论文到视频生成的流程。目前，我需要探索不同的视频生成工具，因为我并不完全熟悉其背后的原理。

虽然我无法提供一个确切的时间表，但我相信现有的模型能够实现上述功能。可能需要两到三周的探索来开发一个可行的流程。

正如浩杰老师所言，需要工程努力来探索利用GPT或DeepSeek级别产品的流程，这样的解决方案可能很快就会面世。

Gloria：好的，我们这边差不多了，邀请观众在评论区提出两个问题。看到已经有人发布了一个问题：“如果AR被广泛采用，图像生成或视频生成是否会经历类似于ARM的突发智能或类动物现象？例如，GPT-4的图像生成能力是否属于这一类？”

浩杰：虽然我在AR方面的专业知识有限——因为我主要工作是计算机视觉——但我认为AR在训练方面提出了重大挑战。图像生成必须首先达到成熟阶段，然后才能有效发展视频生成。这是一个顺序性的进展。

闻星：让我补充问一个基本技术问题--AR 代表什么？

浩杰：哦，是自回归。像 GPT-4 这样的模型确实是自回归的，但自从他们没有发布技术报告以来，我没看到太多显著的特征。他们只发布了一个model card，不是吗？我在想他们是否会发布技术报告

模型介绍本质上是一份技术报告，尽管它只包含几句话。虽然它没有明确揭示是否使用了自回归（AR）建模，但我推测它可能涉及对图像进行分词，然后在这些词元之间建立因果或非因果关系。然而，对于图像来说，不同区块之间的因果关系——比如在这个例子中——相对较弱。

我认为这种建模方法不太可能是最终的解决方案。虽然我可以提供这些判断，但问题仍然存在：这种方法能推进到什么程度？它能达到像GPT这样的当前模型的性能水平吗？这仍然是不确定的。

Gloria：挺好，大家今天聊得还是很充分的。总结就是视频生成路虽险，但仍然值得AIGCer前赴后继，持续征服，毕竟距离人人拥有随心定制百万运镜的时刻确实还要等待。我们后续还会有其他AIGC的主题讨论！欢迎大家参与进来。

51c自动驾驶~合集17

#汇聚感知、定位、规划控制的自动驾驶系统

#单目深度估计的扩散模型

#自动驾驶行车&泊车~从原理到实践

#MambaST

#自动驾驶CornerCase变小Case

#GaussianLSS

#LLVM-AD 2025

#距离人人都能生成百万运镜短视频还有多久？

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

网站公告

今日签到

热门文章

最新发布

51c自动驾驶~合集17

#汇聚感知、定位、规划控制的自动驾驶系统

#单目深度估计的扩散模型

#自动驾驶行车&泊车~从原理到实践​

#MambaST

#自动驾驶CornerCase变小Case

#GaussianLSS

#LLVM-AD 2025

#距离人人都能生成百万运镜短视频还有多久？

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

网站公告

今日签到

热门文章

最新发布

#自动驾驶行车&泊车~从原理到实践