前言
论文链接:CMX: Cross-Modal Fusion for RGB-X Semantic Segmentation With Transformers | IEEE Journals & Magazine | IEEE Xplore
代码地址:https://github.com/huaaaliu/RGBX_Semantic_ Segmentation
摘要
基于图像分割的场景理解是自动驾驶车辆的关键组成部分。通过利用辅助模态(X模态)的互补特征,可以提高RGB图像的逐像素语义分割。然而,由于不同模态间传感器特性的差异,使用模态无关模型覆盖各种传感器仍然是一个未解决的问题。
与以往的模态特定方法不同,在本研究中,我们提出了一种统一的融合框架CMX,用于RGB-X语义分割。为了在通常包含补充信息和不确定性的不同模态之间实现良好的泛化,统一的跨模态交互对于模态融合至关重要。具体而言,我们设计了一个跨模态特征校正模块(CM-FRM),通过利用一种模态的特征来校正另一种模态的特征,从而校正双模态特征。通过校正后的特征对,我们部署了一个特征融合模块(FFM),在混合之前进行充分的长程上下文交换。
为了验证CMX,我们首次统一了五种与RGB互补的模态,即深度、热成像、偏振、事件和激光雷达。大量实验表明,CMX在多模态融合中表现良好,在五个RGB-深度基准上达到了最先进的性能,并在RGB-热成像、RGB-偏振和RGB-激光雷达数据集上也取得了良好效果。此外,为了探讨对稠密-稀疏数据融合的泛化能力,我们基于EventScape数据集建立了RGB-事件语义分割基准,在该基准上CMX创下了新的最先进记录。
一、引言
场景理解是自动驾驶车辆(AVs)的一个基础组成部分,因为它能够提供全面的信息来支持高级驾驶辅助系统(ADAS),以便在与驾驶环境互动时做出正确的决策[1]。作为外部感知传感器,摄像头被广泛应用于自动驾驶车辆中以感知周围环境[2]。
图像语义分割——计算机视觉中的一项基础任务——是将图像输入转换为其潜在的语义意义区域的理想感知解决方案,为智能交通系统(ITS)提供逐像素的密集场景理解[3][4]。图像语义分割在准确性方面取得了显著进展[5][6][7]。
然而,当前模型在某些情况下可能难以提取高质量的特征,例如,当两个物体具有相似的颜色或纹理时,通过纯RGB图像区分它们会变得困难[8]。得益于传感器技术的发展,市场上出现了越来越多的模块化传感器,这些传感器在ITS应用中具有很高的适用性。不同类型的传感器可以提供RGB图像的丰富互补信息(见图1)。
例如,深度测量可以帮助识别物体的边界并提供密集场景元素的几何信息[8][9]。热成像图像通过特定的红外成像帮助区分不同的物体[10][11]。此外,偏振和事件信息对于处理镜面反射和动态现实场景的感知非常有利[12][13]。激光雷达数据可以在驾驶场景中提供空间信息[14]。由此,产生了一个研究问题:如何构建一个统一的模型,融合RGB与各种模态,即如图1所示的RGB-X语义分割?
现有的多模态语义分割方法可以分为两类:
(1)第一类[15][16]使用单个网络从RGB和另一种模态中提取特征,这些特征在输入阶段进行融合(见图2a);
(2)第二类方法[9][11][17]使用两个骨干网络分别从RGB和另一种模态中进行特征提取,然后将提取的两个特征融合为一个特征进行语义预测(见图2b)。然而,这两种类型的方法通常都是针对特定模态对(例如,RGB-D或RGB-T)进行优化,难以扩展到其他模态组合。????例如,根据我们在图3中的观察,针对RGB-D数据设计的ACNet [8]和SA-Gate [9]在RGB-T任务中的表现不尽如人意。
为了灵活覆盖ITS应用中的各种传感器组合,统一的RGB-X语义分割是非常必要和有利的。其好处有两方面:(1)能够节省研究和工程努力,无需针对特定模态组合场景调整架构;(2)使得配备多模态传感器的系统在新传感器可用时能够方便地利用它们[18][19],这有助于实现强健的场景感知。为此,在本研究中,我们努力构建一个模态无关的统一RGB-X语义分割框架。
最近,视觉transformer[20][21][22][23]将输入视为序列,并能够获取长距离的关联性,为多样化的多模态任务的统一框架提供了可能性。与基于卷积神经网络(CNNs)的现有多模态融合模块[8][12][17]相比,目前尚不清楚是否可以通过视觉变换器在RGB-X语义分割上实现潜在的改进。关键是,尽管一些先前的研究[8][9]使用简单的全局多模态交互策略,但在不同传感数据组合间的泛化能力不佳[11]。我们假设,对于具有各种补充信息和不确定性的RGB-X语义分割,需要提供全面的跨模态交互,以充分利用跨模态互补特征的潜力。
为了应对上述挑战,我们提出了CMX,一个用于RGB-X语义分割的通用跨模态融合框架,以交互融合的方式进行(见图2c)。
具体而言,CMX构建为一个双流架构,即RGB流和X模态流。为特征交互和特征融合设计了两个特定模块。
(1)跨模态特征校正模块(CM-FRM)通过利用空间和通道相关性???来校正双模态特征,使两个流能够更好地关注彼此的互补信息,同时减轻来自不同模态的噪声和不确定性影响。???这种特征校正处理了不同模态中的噪声和不确定性,使得多模态特征提取和交互变得更加高效。
(2)特征融合模块(FFM)分为两个阶段,在合并特征之前进行充分的信息交换。受到自注意力机制[20]所获得的大感受野的启发,FFM的第一个阶段设计了交叉注意力机制,以实现跨模态的全局推理。在第二个阶段,应用混合通道嵌入以生成增强的输出特征。因此,我们引入的综合交互涉及多个层面(见图2c),包括从特征图的角度进行的通道和空间校正,以及从序列到序列的交叉注意力,这对于跨模态组合的泛化至关重要。
为验证我们的统一提案,我们考虑并评估了CMX在五个不同的多模态语义分割任务上的表现,包括RGB-深度、RGB-热成像、RGB-偏振、RGB-事件和RGB-激光雷达语义分割。涉及总共9个数据集。尤其是,CMX在NYU Depth V2(RGB-D)[24]上达到了56.9%的最高mIoU,在MFNet(RGB-T)[10]上为59.7%,在ZJU-RGB-P(RGB-P)[12]上为92.6%,在KITTI-360(RGB-L)[25]上为64.3%。我们的通用方法CMX显著优于专门的架构(见图3)。
此外,为了解决社区中缺乏RGB-事件解析基准的问题,我们基于EventScape数据集[26]建立了RGB-事件语义分割基准???,在该基准上,CMX在超过10个基准模型中创下了新的最先进记录。此外,我们的实验表明,CMX框架对于CNN和变换器架构均有效。此外,我们对偏振和事件数据的表示进行了研究,指出了实现强健的多模态语义分割的最佳路径,超越了原始表示方法[12][26]。
总之,我们的贡献如下:
- 首次探索RGB-X语义分割在五种多模态传感数据组合下的应用,包括RGB-深度、RGB-热成像、RGB-偏振、RGB-事件和RGB-激光雷达。
- 从泛化的角度重新思考多模态融合,证明全面的跨模态交互对于不同模态的融合统一至关重要。
- 提出了具有跨模态特征校正和特征融合模块的RGB-X语义分割框架CMX,结合了交叉注意力和混合通道嵌入,以增强全局推理能力。
- 研究了偏振和事件数据的不同表示,并指出了实现强健的多模态语义分割的最佳路径。
- 建立了RGB-事件语义分割基准,以评估稠密-稀疏数据融合,并将其纳入到RGB-X语义分割中。
二、相关工作
A. 基于Transformer的语义分割
对于密集语义分割dense semantic segmentation,金字塔pyramid-、条带strip-和空洞空间金字塔池化atrous spatial pyramid pooling等方法被设计用于获取多尺度特征表示。
此外,交叉图像像素对比学习rossimage pixel contrast learning 被应用于解决类内紧凑性和类间分散性的问题,同时提出了非参数最近原型检索方法,以实现原型视角下的语义分割。
受到非局部块non-local block的启发,Transformer中的自注意力机制被用于建立长距离依赖关系,例如DANet和CCNet。最近,SETR和Segmenter直接采用Vision Transformer作为主干网络,能够从非常早的层次捕获全局上下文。SegFormer和Swin则创建了层次结构,以利用多分辨率特征。
沿着这一趋势,各种密集预测Transformer和语义分割Transformer的架构在该领域不断涌现。尽管这些方法已取得了良好的性能,但大多数仍然侧重于使用RGB图像,并且在RGB图像无法提供足够信息的真实场景中(例如在低照明条件或高动态区域)表现不佳。在本工作中,我们解决了多模态语义分割的问题,以利用来自深度、热成像、偏振、事件和激光雷达数据等其他模态的互补信息,从而提升RGB分割的效果。
B. 多模态语义分割
尽管之前的工作在标准RGB基础的语义分割基准上取得了高性能,但在挑战性的真实世界条件下,涉及多模态传感器以实现可靠和全面的场景理解是十分重要的。RGB-Depth和RGB-Thermal语义分割得到了广泛研究。极化光学线索和事件驱动先验常常在严酷条件下交织在一起,以增强感知。在自动驾驶中,激光雷达数据被纳入以增强语义路面场景理解。然而,这些工作大多只处理单一模态的组合。在本研究中,我们探索了一种统一的方法,可以很好地泛化到多种多模态组合。
对于多模态语义分割,有两种主要的策略。
第一种主流范式将跨模态互补信息建模为 层layer- 或 操作设计perator design。虽然这些工作验证了可以在共享网络中学习多模态特征,但它们通常是为单一模态(例如RGB-D语义分割)精心设计的,难以应用于其他模态。此外,还有多任务框架,促进RGB-D场景理解的任务间特征传播,但它们依赖于其他任务的监督进行联合学习。
第二种范式致力于开发融合方案,以连接两条并行的模态流。ACNet提出了注意力模块,以挖掘RGB-D语义分割的信息特征,而ABMDRNet则建议在选择性提取RGB-T融合的判别线索之前,减少特征的模态差异。对于RGB-P分割,Xiang等人通过通道注意力桥连接RGB和偏振分支。对于RGB-E解析,Zhang等人探索稀疏到密集和密集到稀疏的融合流程,以提取意外场景分割的动态上下文。显著物体检测作为一种特殊的图像分割类型,也可以受益于多模态融合,以识别最重要的对象,例如针对RGB-D定制的HyperfusionNet和针对RGB-D及RGB-T的CAVER。
在本研究中,我们也倡导这一范式,但与以往的工作不同,我们通过统一框架解决RGB-X语义分割问题,以便泛化到多样的传感模态组合。尽管之前的工作使用简单的全局通道策略,但在不同的传感数据上效果不佳。例如,ACNet和SA-Gate为RGB-D分割设计,但在RGB-T场景解析中的表现不尽如人意。
相反,我们假设全面的跨模态交互对于RGB-X语义分割至关重要,以应对各种补充和不确定性,从而充分发挥跨模态互补特征的潜力。此外,许多先前的工作采用了CNN主干,而没有考虑长距离依赖关系。我们提出了一种基于Transformer的框架,该框架在其架构设计中已包含全局依赖关系。与现有工作不同,我们在不同层次上进行融合,采用跨模态特征校正和跨注意力交换,以增强密集语义预测。
三、提出框架:CMX
CMX的概述如图4a所示。
A.框架概述
我们使用两个并行分支从RGB和X模态输入中提取特征,这些输入可以是RGB-深度、RGB-热成像、RGB-偏振、RGB-事件、RGB-激光雷达数据等。
具体来说,我们提出的RGB-X语义分割框架采用双分支设计,以有效提取来自RGB和X模态输入的特征。这两个分支以并行但交互的方式同时处理RGB和X模态数据,每个分支旨在捕获各自输入模态的独特特征。
我们在两个分支之间引入了一种校正机制,使得一种模态的特征能够基于另一种模态的特征进行校正。此外,我们通过在双分支架构的每个阶段交换两个模态的校正特征,促进跨模态特征的交互。基于双分支架构,我们的框架利用两种模态的互补信息,以增强RGB-X语义分割的性能。
尽管不同模态的特征具有特定的噪声测量,但另一种模态的特征有潜力用于校正和调整这些噪声信息。
如图4b所示,我们设计了一个跨模态特征校正模块(CM-FRM),以便在特征提取的每个阶段对并行流进行特征校正。通过这种方式,两个模态的特征都可以被校正。此外,CM-FRM被组装在主干网络的两个相邻阶段之间。这样,两个校正后的特征将被送入下一个阶段,以进一步加深和改进特征提取。
此外,如图4c所示,我们设计了一个两阶段特征融合模块(FFM),将同一层的特征融合为一个单一的特征图。然后,使用解码器来预测最终的语义图。在第III-B节和第III-C节中,我们分别详细介绍CM-FRM和FFM的设计。在以下内容中,我们使用X来指代补充模态,可以是深度、热成像、偏振、事件、激光雷达数据等。
B. 跨模态特征校正
如上所述,来自不同传感模态的信息通常是互补的,但包含噪声测量。这些噪声信息可以通过使用来自另一模态的特征进行过滤和校正。为此,如图4b所示,我们提出了一种新颖的跨模态特征校正模块(CM-FRM),用于在特征提取的每个阶段在并行流之间执行特征校正。为了应对不同模态中的噪声和不确定性,CM-FRM从两个维度处理特征,包括通道级和空间级特征校正,这两者共同提供了全面的校正,能够实现更好的多模态特征提取和交互。
疑惑?
不同于之前的通道级注意力方法,这篇论文在通道维度上应用了全局最大池化 和 全局平均池化保留了更多信息。
这里对比的是文献9[Bi-directional Cross-Modality FeaturePropagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation],17[FEANet: Feature-Enhanced Attention Network for RGB-Thermal Real-time Semantic Segmentation],52[SCA-CNN: Spatial and Channel-wise Attention in Convolutional Networks for Image Captioning]文献中的方法,如下,都只用了global average pooling。
但是!!!通道注意力机制CAM不是本来就是maxpool + avgpool 吗?
通俗易懂理解通道注意力机制(CAM)与空间注意力机制(SAM)-CSDN博客
容易忽略的认知!!
不管是通道注意力机制还是空间注意力机制,他都是为了得到一个权重 然后和 原来特征图相乘。
空间注意力机制
C. 特征融合
在获得每个层的特征图之后,我们构建了一个两阶段特征融合模块(FFM),以增强信息交互和组合。如图4c所示,在信息交换阶段(阶段1),两个分支仍然保持,并设计了一个跨注意力机制来在两个分支之间全局交换信息。在融合阶段(阶段2),将连接的特征通过混合通道嵌入转变为原始大小。
原始Transformer中的self-Attention 中的
大小是N*N,导致高内存占用。
在Efficient Attention 中对注意力机制重新进行了设计。
Efficient Attention
首先从 输入 生成一个 关键特征映射W_K , 一个查询特征映射W_Q, 一个值特征映射W_V。将 键值特征图 的每个通道解释为全局注意力图。Efficient Attention 将每个全局注意力图作为权重,聚合 键值特征图,生成一个全局上下文向量,该向量概括了全局特征的一个方面。然后在每个位置,模块将查询特征视为全局上下文向量的一组系数。 最后 模块以查询特征 为 权重,计算全局上下文向量的和,生成该位置的输出特征。
Efficient Attention: Attention with Linear Complexities-CSDN博客