【CVPR 2024】【多模态目标检测】SHIP 探究红外与可见光图像融合中的高阶协同交互

发布于:2025-03-06 ⋅ 阅读:(10) ⋅ 点赞:(0)

Probing Synergistic High-Order Interaction in Infrared and Visible Image Fusion
探究红外与可见光图像融合中的高阶协同交互

在这里插入图片描述

0.论文摘要

红外与可见光图像融合旨在通过整合和区分多源互补信息生成融合图像。尽管具有全局空间交互的交叉注意力机制表现出潜力,但它仅捕捉了二阶空间交互,忽略了空间和通道维度上的高阶交互。这一限制阻碍了多模态协同效应的充分利用。为了弥补这一差距,我们提出了一种协同高阶交互范式(SHIP),旨在系统地研究红外与可见光图像在空间细粒度和全局统计两个基本维度上的协作:1)空间维度:通过逐元素乘法构建空间细粒度交互,数学上等同于全局交互,然后通过迭代聚合和演化互补信息,促进高阶形式,提升效率和灵活性;2)通道维度:在基于一阶统计量(均值)的通道交互基础上,设计高阶通道交互,以促进基于全局统计量的源图像间依赖关系的识别。利用高阶交互显著增强了模型在多模态协同效应上的能力,使其在多个基准测试中表现出优于现有技术的性能。

论文链接
代码链接

1.引言

红外与可见光图像融合旨在将源图像中的互补信息聚合并识别到融合图像中,从而提升其在后续任务中的适用性[8, 10, 18, 32, 48, 50, 75]。具体而言,可见光图像以其复杂的纹理细节和与人类视觉感知的一致性而著称。相比之下,红外图像在捕捉关键的热辐射信息方面表现出色,尤其是在低光环境下,能够突出显示车辆和行人等重要目标。因此,研究不同模态之间的协同关联以整合互补信息,受到了广泛关注。

近年来,深度学习的显著进展[19, 21, 31, 35, 47, 54, 79, 81, 86, 87]在该领域引发了一场革命。一些方法通常从预训练编码器-解码器开始,用于特征提取和图像重建。随后,应用特定的融合规则,如拼接[45]、加法[51]、加权求和[25]和最大值[88],以捕捉源图像之间的相关性,进行信息融合。此外,基于图像融合特性的损失函数设计,如基于显著性[39, 45, 62]和光照感知[56],为模型探索输入源中的互补信息提供了关键指导。与此同时,基于GAN的方法[27, 30, 39, 42]通过将图像融合概念化为生成器与判别器之间的博弈,迫使生成器探索模态之间的互信息。然而,如图1(a)所示,这些方法并未明确建立红外与可见光图像之间的协同相关性和相互依赖性学习。

Transformer [6, 20, 38] 的出现,以其在空间维度上的二阶交互 [53] 为特征,挑战了卷积神经网络(CNN)的主导地位。这种交互方式不同于键、查询和值之间的点积。YDTR [59] 引入了一种动态 Transformer 模块,用于从不同模态中获取局部特征和上下文信息。SwinFusion [46] 开发了自注意力和交叉注意力机制,对域内和域间特征的依赖关系进行建模和整合。PanFormer [84] 设计了一种定制化的 Transformer,结合了来自不同模态的两个值项,以有效捕捉它们的协作关系。然而,这些 Transformer 架构将交互限制在空间维度的二阶,忽略了在空间和通道维度上高阶交互的未开发潜力。这种限制导致了对协同模态相关性的探索受限,如图1(b)所示。

在这里插入图片描述

图1. 先前融合规则与我们提出的范式之间的对比。先前的工作要么(a)缺乏明确的交互,要么(b)仅实现了二阶空间交互;而(c)我们的SHIP结合了高阶空间和通道交互,以探索模态之间在空间细粒度细节和全局统计中的协同相关性,逐步整合并区分互补信息。

基于上述分析,我们的目标是建模空间和通道维度上的高阶交互,以全面探索红外和可见光模态之间的协同作用。遗憾的是,采用在二维上简单级联自注意力操作的方法,仅能捕捉到多个二阶交互,同时由于矩阵乘法带来了难以承受的计算负担。因此,如何在不引入大量计算开销的情况下将二阶交互扩展到任意阶,是其中的关键要素。

在本文中,我们提出了一种协同高阶交互范式(SHIP),通过高阶交互创新性地高效捕捉多模态间空间细粒度和全局统计的协同效应。具体而言,它涉及两个维度:1)空间维度:我们利用频域通过逐元素乘法建立红外与可见光表示之间的空间细粒度关联,这是一种数学上等效但计算效率更高的替代方案,避免了昂贵的矩阵乘法。随后,我们迭代地聚合互补信息并演化协同关联,从而促进高阶空间交互,有效挖掘模态间的协作。2)通道维度:基于SE块使用一阶统计量(均值)进行一阶通道交互的自适应特征响应重校准,我们将这一概念提升为高阶形式。这一扩展使得能够探索基于源图像全局统计的协同关联,从而更深入地理解不同模态间复杂的相互依赖关系。

我们的贡献总结如下:

• 本研究提出的新型高阶协同交互范式(SHIP)探索了红外与可见光图像融合中的复杂高阶交互。通过在空间和通道维度上引入高阶交互,SHIP作为一种开创性方法,研究了模态之间的协同相关性。

• 该范式探讨了涉及空间细粒度和全局统计的高阶交互,协同聚合互补信息,并从源模态中区分出相互依赖性。

• 我们在多个红外-可见光基准数据集上的实验表明,所提出的框架优于现有最先进的方法。此外,我们还展示了其在全色锐化任务中的有效性。

2.相关工作

2.1 红外和可见光图像融合

红外与可见光图像融合旨在获得一幅合成图像,能够有效突出源图像中的显著目标,同时保持视觉质量。为了使合成的融合结果更符合人类视觉感知,引入了多种图像处理技术,包括离散小波变换[36]、拉普拉斯金字塔[49]、轮廓波变换[74]、稀疏表示[37]、低秩表示[26]、主成分分析[9]以及全变分[41]。然而,这些方法涉及融合规则的制定和复杂的活动水平计算,限制了它们在复杂场景中的适用性。

近年来,基于深度学习的爆炸性方法[17, 28, 29, 33, 34, 58, 62, 70, 78, 80, 83]彻底改变了图像融合领域,主要分为三大类:基于自动编码器(AE)的方法、基于卷积神经网络(CNN)的方法以及基于生成对抗网络(GAN)的方法。基于AE的方法[25, 57, 65, 66, 76]通常使用预训练的自动编码器进行特征提取和图像重建,强调网络架构和融合策略的设计。基于CNN的方法[40, 45, 45, 55, 56, 61]则将这些组件集成在一个端到端的框架中。Zhang等人[72]开发了强度和梯度分支,以保留源图像的这些关键特性。此外,研究人员还开发了多种基于图像融合特性的损失函数[40, 43, 45, 56],为网络训练提供了重要指导。例如,Ma等人[45]设计了一种融合损失,利用专门的目标掩码,允许选择性地融合目标和背景区域。然而,由于缺乏真实的融合图像作为参考,研究人员[27, 30, 42, 44, 82]尝试将GAN引入学习范式,利用判别器迫使生成器保留更多的纹理细节,并从源图像中突出显著目标。

2.2 高阶交互建模

普通的卷积操作本身并不具备捕捉特定位置与其邻近区域之间空间交互的能力。一种改进的方法,称为动态卷积 [2, 13, 22],通过生成适应输入的动态权重,引入了第一阶空间交互。在Transformer [6]中,自注意力机制通过其核心要素——涉及查询、键和值的内在矩阵乘法,实现了第二阶空间交互。转向通道维度,Squeeze-and-Excitation模块 [15, 63] 利用第一阶统计量(均值)来重新校准通道响应。总体而言,这些改进仅专注于捕捉空间或通道维度中的交互,而不是在两者中实现高阶交互。

3.方法

3.1 框架概述

所提出的范式如图2所示,其操作流程如下:给定一张红外图像 I R ∈ R H × W × 1 I_R ∈ \mathbb{R}^{H×W ×1} IRRH×W×1和一张可见光图像 I V ∈ R H × W × 3 I_V ∈ \mathbb{R}^{H×W ×3} IVRH×W×3,我们分别使用独立的卷积层提取每种模态的浅层特征,得到 F R ∈ R H × W × C F_R ∈ \mathbb{R}^{H×W ×C} FRRH×W×C F V ∈ R H × W × C F_V ∈ \mathbb{R}^{H×W ×C} FVRH×W×C。然后,这些模态感知特征经过一系列核心的协同高阶交互范式(SHIP),该范式结合了空间和通道维度。这一过程探索了两种模态在空间细粒度细节和全局统计信息上的协同作用。最后,这些特征被投影回图像空间,生成融合结果 I F ∈ R H × W × 1 I_F ∈ \mathbb{R}^{H×W ×1} IFRH×W×1。融合过程特别针对 Y C b C r YC_bC_r YCbCr色彩空间中的Y通道,遵循了先前工作[24, 57]的方法。综上所述,该范式可以表述如下:

在这里插入图片描述

其中 ψ ( ⋅ ) ψ(·) ψ() φ ( ⋅ ) φ(·) φ()表示特征提取器,L表示我们SHIP的迭代次数。

在这里插入图片描述

图2展示了所提出的协同高阶交互范式(SHIP)的详细框架,该框架包含交替进行的空间和通道高阶交互,经过L次迭代执行。具体而言,空间高阶交互充分挖掘了两种模态之间的协作关系,并通过高阶建模整合了空间细粒度的互补信息。随后,基于全局一阶统计量(均值)的通道高阶交互进一步探究了全局统计特性,区分了可见光和红外模态之间的相互依赖关系。

3.2. 高阶空间交互

回顾自注意力

自注意力机制是Transformer[6]的核心组成部分,通过键、查询和值组件之间的矩阵乘法促进二阶空间交互。这一过程使模型能够基于查询模态动态区分和聚合互补信息。在红外与可见光图像融合中,查询Q、键K和值V通过以下方式获得:

在这里插入图片描述

其中, W Q W^Q WQ W K W^K WK W V W^V WV 表示应用于投影模态感知特征表示的线性变换。

自注意力机制通过点积操作实现,该机制捕捉以输入 F V F_V FV为中心的二阶空间交互关系。

在这里插入图片描述

其中, d k d_k dk 表示键的维度,⊗ 表示点积操作, A ∈ R H W × H W \mathbf{A} ∈ \mathbb{R}^{HW×HW} ARHW×HW 是相关矩阵, O S ( ( F V ) 2 ) O_S((F_V)^2) OS((FV)2) 表示自注意力模块的输出,捕捉了关于输入特征 F V F_V FV 的二阶空间交互。

然而,尽管点积运算非常有效,但它带来了显著的计算成本,使得通过级联自注意力机制实现高阶操作变得不切实际。

等效高效形式

A \mathbf{A} A的每个元素可以通过内积重新定义: A i j = ⟨ q i , k j ⟩ \mathbf{A}_{ij} = ⟨q_i, k_j⟩ Aij=qi,kj,其中 q i ∈ A q_i ∈ \mathbf{A} qiA k j ∈ K k_j ∈ \mathbf{K} kjK ⟨ ⋅ ⟩ ⟨·⟩ 表示内积。卷积定理指出,两个信号在空间域中的相关或卷积等于它们在频域中的Hadamard积。为了利用这一特性,我们将频域引入自注意力机制,将矩阵乘法简化为轻量级的逐元素操作。首先,我们使用快速傅里叶变换(FFT)将模态感知特征 F R F_R FR F V F_V FV转换到频域。相关性的计算如下:

在这里插入图片描述

其中 F ( ⋅ ) F(·) F() F − 1 ( ⋅ ) F^{−1}(·) F1() 分别表示快速傅里叶变换(FFT)和逆快速傅里叶变换,⊙ 表示哈达玛积, F ( ⋅ ) ‾ \overline{F(·)} F() 表示共轭转置操作。此外,通过二阶空间交互作用,获得了集成特征:

在这里插入图片描述

其中 Norm 表示应用于 A \mathbf{A} A的层归一化。

深入探讨高阶格式

最近的方法,如[3, 4, 73],显示出对使用自注意力机制的强烈偏好。然而,这些方法通常以级联自注意力块的形式出现,倾向于围绕查询特征生成多个二阶交互,而不是实现更高阶的建模。形式上, L L L级级联自注意力的递归格式可以表示为:

在这里插入图片描述

其中 1 ≤ i ≤ L 1 ≤ i ≤ L 1iL。显然,这一过程仅捕捉了输入特征 F V i − 1 F_{V_{i−1}} FVi1 的二阶交互信息,同时带来了巨大的计算成本。

相比之下,站在同等高效的形式上,我们超越了二阶相互作用,将研究范围扩展到任意阶相互作用(N阶),同时保持高效性。具体来说,在每次第 i i i次迭代中,我们将公式5扩展为以下高阶形式:

在这里插入图片描述

其中 2 ≤ j ≤ N 2 ≤ j ≤ N 2jN。该公式使我们能够高效地捕捉到第 N 阶的交互作用。

一般来说,对于具有L层的传统transformer链,序列展开如下:

在这里插入图片描述

相比之下,我们的高阶建模将其替换为:

在这里插入图片描述

确实,这一修改使我们能够在每次迭代中捕捉到第N阶的交互。如图3所示,每次空间高阶交互中的不同阶次整合了不同粒度的互补信息。此外,不同迭代中的交互表现出区分性响应,丰富了整个迭代过程中的特征多样性。

在这里插入图片描述
图3展示了不同空间高阶交互步骤中每次交互后的特征可视化。例如, F V s 3 2 F^2_{V_s^3} FVs32表示在第2次空间高阶交互中第3阶交互后的特征。这些可视化从两个角度展示了高阶空间交互的有效性:(1) 在每个高阶交互中,随着阶数的增加,特征响应逐渐增强,突出了显著对象;(2) 不同的高阶交互产生独特的响应,展示了特征表示的多样性。

3.3. 高阶通道交互

重新审视压缩与激励模块

Squeeze-and-Excitation(SE)模块[15]利用一阶全局统计量——均值,来建模通道间的交互关系。这种方法使得SE模块能够显式地捕捉输入特征通道之间的相互依赖关系。在红外与可见光图像融合中,SE模块从第 i i i阶高阶空间交互中构建了红外与可见光特征之间的依赖关系,具体如下:

在这里插入图片描述
其中 F i = c o n c a t [ F V S i , F R S i ] F^i = concat[F^i_{V_S} , F^i_{R_S} ] Fi=concat[FVSi,FRSi] Z c Z_c Zc 表示一阶统计量, σ σ σ 表示 Sigmoid 函数。 W Z W^Z WZ 包含两个线性变换和一个 ReLU 函数。

深入探讨高阶格式

类似于高阶空间交互,我们将SE模块扩展以实现高阶通道交互:

在这里插入图片描述

最后,一个卷积层将 F C i F^i _C FCi 整合到融合模态中,生成集成特征 F V C i F^i_{V_C} FVCi

通过L次迭代进行的N阶空间和通道交互,交互链可以数学表达如下:

在这里插入图片描述
我们分析了沿通道维度的第二通道高阶交互中的通道响应。与不同阶数间一致的响应相反,我们的高阶建模能够自适应地区分源模态之间的相互依赖关系,如图4所示。

在这里插入图片描述

图4. 不同阶次的通道交互在通道索引上的表现。这一观察结果提供了有力的证据,表明不同阶次的交互探索了红外与可见光模态之间的多样化依赖关系。

3.4 损失函数

损失函数由强度和梯度项组成: L = L i n t + λ L g r a \mathcal{L} = \mathcal{L}_{int} + λ\mathcal{L}_{gra} L=Lint+λLgra。λ表示权衡参数。为了从可见光和红外图像中突出显著目标[30, 39],我们引入了一种基于显著性的强度损失,定义如下:

在这里插入图片描述

其中 ∥ ⋅ ∥ 1 ∥ · ∥_1 1 表示 l 1 l_1 l1 范数。加权图 ω V ω_V ωV ω R ω_R ωR 由可见光和红外图像导出,计算公式为 ω V = S V / ( S V − S R ) ω_V = S_V / (S_V − S_R) ωV=SV/(SVSR) S R = 1 − S V S_R = 1 − S_V SR=1SV,其中 S S S 是使用 [11] 中的算法计算的显著性矩阵。

为了在融合结果中保留源图像的关键纹理细节,我们引入了梯度损失:

在这里插入图片描述

其中 ∇ ∇ 表示用于图像内纹理信息测量的梯度算子, m a x ( ⋅ ) max(·) max()表示逐元素取最大值操作。

4.实验

4.1 实验设置

数据集和度量

为了评估我们SHIP的有效性,我们在三个公开可用的数据集上进行了全面的实验:M3FD [30]、RoadScene [64] 和 TNO [60]。M3FD数据集包含4200对红外和可见光图像,其中3900对用于训练,300对用于官方测试。为了进一步评估我们方法的泛化能力,我们在RoadScene和TNO数据集上测试了我们的算法(在M3FD上训练)。由于后两个数据集没有预定义的分割,我们按照[72]中描述的配置,从每个数据集中随机选择25对图像进行比较。

高质量的融合图像应能从多模态图像中捕捉到显著对象和视觉质量。为了全面衡量融合结果,我们采用了六种指标,包括空间频率(SF)[7]、互信息(MI)[52]、视觉信息保真度(VIF)[14]、平均梯度(AG)[5]、 Q a b f Q_{abf} Qabf [68]和特征互信息(FMI)[12]。此外,这些指标的数值越高,表明融合性能越优越。

实现

我们在单个NVIDIA GTX 3090 GPU上使用PyTorch实现了我们的SHIP模型。我们使用Adam优化器,其中 β 1 = 0.9 β_1 = 0.9 β1=0.9 β 2 = 0.99 β_2 = 0.99 β2=0.99,以8的批量大小更新模型,共进行30K次迭代。初始学习率设置为 1 × 1 0 − 4 1 × 10^{−4} 1×104,并每5K次迭代减少0.5倍。补丁大小设置为128 × 128。

4.2. 与现有最先进技术的对比

我们将提出的SHIP方法与9种最先进的方法进行了比较:DDcGAN [44]、DenseFuse [25]、AUIF [77]、DIDFuse [76]、ReCoNet [16]、SDNet [71]、TarDAL [30]、U2Fusion [64]和UMFusion [61],并在三个数据集上进行了测试。

定性比较

图5展示了来自不同数据集的三个典型图像对的定性结果。与现有的其他方法相比,我们提出的SHIP具有两个显著优势。首先,我们的算法在保留红外和可见光图像中的显著物体方面表现出色。如图5所示,我们方法中的行人和树枝展示了高对比度和清晰的轮廓,增强了其视觉观察的适用性(见第一个和第三个示例中的红色区域)。此外,我们的结果生成了具有复杂纹理的融合输出,与人类视觉感知高度契合。相比之下,可视化结果表明,DenseFuse、SDNet和U2Fusion未能有效突出区分性目标,而DDcGAN和ReCoNet则缺乏捕捉复杂纹理细节的能力。

在这里插入图片描述

图5. 不同融合方法在M3FD、RoadScene和TNO数据集上的定性结果。

定量比较

表1展示了我们的方法在三个数据集上多个指标中的卓越表现。较高的MI和FMI分数表明我们的模型能够有效利用来自源图像的信息,展示了其在将丰富信息传递到融合结果中的能力。此外,我们的方法在SF、AG和 Q a b f Q_{abf} Qabf指标中的领先表现,彰显了其在整合多模态互补信息和保留复杂纹理细节方面的显著能力。这些成就有助于保留细粒度纹理,最终生成视觉上吸引人且细节丰富的融合图像。此外,最高的VIF值也表明我们的融合结果具有高质量的视觉效果和较小的失真,满足了人类的视觉感知。这些结果共同强调了我们的SHIP方法在各种评估指标中的鲁棒性和泛化能力,证实了其在多种场景和数据集中的有效性。

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

表1. 我们的SHIP方法与9种最先进方法在M3FD、RoadScene和TNO数据集上的定量对比。最佳和第二佳结果分别以粗体和下划线标注。

4.3 消融实验

我们在M3FD数据集上进行了消融实验,以进一步研究我们提出的SHIP在不同阶数N和迭代次数L下的有效性。例如,L4N5表示具有4次迭代和5阶空间与通道交互的SHIP。

阶数N的影响:为了研究不同阶数的空间和通道交互的影响,我们在提出的SHIP模型上进行了实验,并设置了不同的阶数N。如图6所示,随着阶数的增加,性能显著提升,直到阶数达到5。超过这一阈值后,性能趋于稳定,随着N的进一步增加,仅有轻微提升。为了在性能和计算成本之间取得平衡,我们将默认阶数设置为N=5。此外,我们在图8中展示了SHIP模型在不同阶数下的特征响应可视化结果。这些可视化结果表明,高阶交互在揭示模态之间的协同相关性方面具有显著效果,从而突出了显著对象。

在这里插入图片描述
在这里插入图片描述

图8. 所提出的SHIP方法在M3FD数据集上不同阶数N的可视化结果。

迭代次数L的影响:我们进行了5组实验(L1N5、L2N5、L3N5、L4N5和L5N5)以研究块数对结果的影响。从图7中的观察结果可以看出,随着块数的增加,模型的性能显著提升。然而,进一步增加L会导致SF和AG呈现下降趋势,这可能是由于梯度传播的挑战所致。因此,我们在所有实验中默认采用L=3作为块数。

在这里插入图片描述

图7. 在M3FD数据集上对提出的SHIP方法进行不同块数L的消融研究。

4.4. 全色锐化扩展

为了进一步展示我们的SHIP在多模态图像融合任务中的有效性,我们将其扩展到全色和多光谱图像融合任务中,称为Pan-sharpening。根据[84],我们在三个广泛使用的数据集上进行了大量实验:WorldView II、GaoFen2和WorldView III数据集[84]。

定量比较。表2展示了三个数据集的评估指标,最佳值和次佳值分别以粗体和下划线标出。我们提出的方法在所有卫星数据集上均优于其他竞争技术。具体而言,在GaoFen2数据集上,我们的方法比次佳的INNformer高出0.105 dB。这些一致的表现凸显了我们的SHIP方法在降低光谱失真和卓越保留空间纹理方面的优势。

在这里插入图片描述
定性比较。图9直观展示了对比结果,进一步证实了我们方法的有效性。最后一行显示了输出全色锐化结果与真实值之间的均方误差(MSE)残差。相比之下,我们的模型表现出最小的空间和光谱失真。我们方法的出色表现凸显了所提出的协同高阶交互机制的有效性,该机制整合了互补信息并提升了结果的视觉质量。

在这里插入图片描述

5.结论

在本文中,我们首次探索了协同高阶交互范式(SHIP),以研究红外与可见光图像模态在图像融合中的协作关系。我们的SHIP涵盖了空间和通道两个维度。空间高阶交互逐步捕捉红外与可见光模态之间的协同相关性,通过高阶建模有效整合空间细粒度的互补信息。通道高阶交互基于全局统计量,研究并区分源模态之间的相互依赖关系。在多个红外与可见光图像融合基准上的大量实验表明,我们提出的协同高阶交互范式具有显著优势。

6.引用文献

  • [1] Jiajun Cai and Bo Huang. Super-resolution-guided progressive pansharpening based on a deep convolutional neural network. IEEE Transactions on Geoscience and Remote Sensing, 59(6):5206–5220, 2020. 8
  • [2] Yinpeng Chen, Xiyang Dai, Mengchen Liu, Dongdong Chen, Lu Yuan, and Zicheng Liu. Dynamic convolution: Attention over convolution kernels. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 11030–11039, 2020. 3
  • [3] Zheng Chen, Yulun Zhang, Jinjin Gu, Linghe Kong, Xin Yuan, et al. Cross aggregation transformer for image restoration. Advances in Neural Information Processing Systems, 35:25478–25490, 2022. 4
  • [4] Zheng Chen, Yulun Zhang, Jinjin Gu, Linghe Kong, and Xiaokang Yang. Recursive generalization transformer for image super-resolution. arXiv preprint arXiv:2303.06373, 2023. 4
  • [5] Guangmang Cui, Huajun Feng, Zhihai Xu, Qi Li, and Yueting Chen. Detail preserved fusion of visible and infrared images using regional saliency extraction and multi-scale image decomposition. Optics Communications, 341:199–209, 2015. 5
  • [6] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, et al. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020. 2, 3
  • [7] Ahmet M Eskicioglu and Paul S Fisher. Image quality measures and their performance. IEEE Transactions on communications, 43(12):2959–2965, 1995. 5
  • [8] Jiawei Feng, Ancong Wu, and Wei-Shi Zheng. Shape-erased feature learning for visible-infrared person re-identification. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 2275222761, 2023. 1
  • [9] Zhizhong Fu, Xue Wang, Jin Xu, Ning Zhou, and Yufei Zhao. Infrared and visible images fusion based on rpca and nsct. Infrared Physics & Technology, 77:114–123, 2016. 2
  • [10] Hongbo Gao, Bo Cheng, Jianqiang Wang, Keqiang Li, Jianhui Zhao, and Deyi Li. Object classification using cnn-based fusion of vision and lidar in autonomous vehicle environment. IEEE Transactions on Industrial Informatics, 14(9): 4224–4231, 2018. 1
  • [11] Sanjay Ghosh, Ruturaj G Gavaskar, and Kunal N Chaudhury. Saliency guided image detail enhancement. In 2019 National Conference on Communications (NCC), pages 1–6. IEEE, 2019. 5
  • [12] Mohammad Bagher Akbari Haghighat, Ali Aghagolzadeh, and Hadi Seyedarabi. A non-reference image fusion metric based on mutual information of image features. Computers & Electrical Engineering, 37(5):744–756, 2011. 5
  • [13] Qi Han, Zejia Fan, Qi Dai, Lei Sun, Ming-Ming Cheng, Jiaying Liu, and Jingdong Wang. Demystifying local vision transformer: Sparse connectivity, weight sharing, and dynamic weight. arXiv preprint arXiv:2106.04263, 2(3), 2021. 3
  • [14] Yu Han, Yunze Cai, Yin Cao, and Xiaoming Xu. A new image fusion performance metric based on visual information fidelity. Information fusion, 14(2):127–135, 2013. 5
  • [15] Jie Hu, Li Shen, and Gang Sun. Squeeze-and-excitation networks. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 71327141, 2018. 3, 5
  • [16] Zhanbo Huang, Jinyuan Liu, Xin Fan, Risheng Liu, Wei Zhong, and Zhongxuan Luo. Reconet: Recurrent correction network for fast and efficient multi-modality image fusion. In European Conference on Computer Vision, pages 539–555. Springer, 2022. 6, 7
  • [17] Zhanbo Huang, Jinyuan Liu, Xin Fan, Risheng Liu, Wei Zhong, and Zhongxuan Luo. Reconet: Recurrent correction network for fast and efficient multi-modality image fusion. In European Conference on Computer Vision, pages 539–555. Springer, 2022. 2
  • [18] Deyi Ji, Haoran Wang, Hanzhe Hu, Weihao Gan, Wei Wu, and Junjie Yan. Context-aware graph convolution network for target re-identification. In Proceedings of the AAAI Conference on Artificial Intelligence, pages 1646–1654, 2021. 1
  • [19] Deyi Ji, Haoran Wang, Mingyuan Tao, Jianqiang Huang, Xian-Sheng Hua, and Hongtao Lu. Structural and statistical texture knowledge distillation for semantic segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 16876–16885, 2022. 1
  • [20] Deyi Ji, Feng Zhao, and Hongtao Lu. Guided patch-grouping wavelet transformer with spatial congruence for ultra-high resolution segmentation. International Joint Conference on Artificial Intelligence, 2023. 2
  • [21] Deyi Ji, Feng Zhao, Hongtao Lu, Mingyuan Tao, and Jieping Ye. Ultra-high resolution segmentation with ultra-rich context: A novel benchmark. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 23621–23630, 2023. 1
  • [22] Xu Jia, Bert De Brabandere, Tinne Tuytelaars, and Luc V Gool. Dynamic filter networks. Advances in neural information processing systems, 29, 2016. 3
  • [23] Craig A Laben and Bernard V Brower. Process for enhancing the spatial resolution of multispectral imagery using pansharpening, 2000. US Patent 6,011,875. 8
  • [24] Zhuliang Le, Jun Huang, Han Xu, Fan Fan, Yong Ma, Xiaoguang Mei, and Jiayi Ma. Uifgan: An unsupervised continual-learning generative adversarial network for unified image fusion. Information Fusion, 88:305–318, 2022. 3
  • [25] Hui Li and Xiao-Jun Wu. Densefuse: A fusion approach to infrared and visible images. IEEE Transactions on Image Processing, 28(5):2614–2623, 2018. 1, 2, 6, 7
  • [26] Hui Li, Xiao-Jun Wu, and Josef Kittler. Mdlatlrr: A novel decomposition method for infrared and visible image fusion. IEEE Transactions on Image Processing, 29:47334746, 2020. 2
  • [27] Jing Li, Hongtao Huo, Chang Li, Renhua Wang, and Qi Feng. Attentionfgan: Infrared and visible image fusion using attention-based generative adversarial networks. IEEE Transactions on Multimedia, 23:1383–1396, 2020. 2, 3
  • [28] Jinyuan Liu, Xin Fan, Ji Jiang, Risheng Liu, and Zhongxuan Luo. Learning a deep multi-scale feature ensemble and an edge-attention guidance for image fusion. IEEE Transactions on Circuits and Systems for Video Technology, 32(1): 105–119, 2021. 2
  • [29] Jinyuan Liu, Yuhui Wu, Zhanbo Huang, Risheng Liu, and Xin Fan. Smoa: Searching a modality-oriented architecture for infrared and visible image fusion. IEEE Signal Processing Letters, 28:1818–1822, 2021. 2
  • [30] Jinyuan Liu, Xin Fan, Zhanbo Huang, Guanyao Wu, Risheng Liu, Wei Zhong, and Zhongxuan Luo. Target-aware dual adversarial learning and a multi-scenario multi-modality benchmark to fuse infrared and visible for object detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5802–5811, 2022. 2, 3, 5, 6, 7
  • [31] Jinyuan Liu, Runjia Lin, Guanyao Wu, Risheng Liu, Zhongxuan Luo, and Xin Fan. Coconet: Coupled contrastive learning network with multi-level feature ensemble for multi-modality image fusion. International Journal of Computer Vision, pages 1–28, 2023. 1
  • [32] Jinyuan Liu, Zhu Liu, Guanyao Wu, Long Ma, Risheng Liu, Wei Zhong, Zhongxuan Luo, and Xin Fan. Multiinteractive feature learning and a full-time multi-modality benchmark for image fusion and segmentation. In Proceedings of the IEEE/CVF international conference on computer vision, pages 8115–8124, 2023. 1
  • [33] Risheng Liu, Jinyuan Liu, Zhiying Jiang, Xin Fan, and Zhongxuan Luo. A bilevel integrated model with data-driven layer ensemble for multi-modality image fusion. IEEE Transactions on Image Processing, 30:1261–1274, 2020. 2
  • [34] Risheng Liu, Zhu Liu, Jinyuan Liu, and Xin Fan. Searching a hierarchically aggregated fusion architecture for fast multimodality image fusion. In Proceedings of the 29th ACM International Conference on Multimedia, pages 1600–1608, 2021. 2
  • [35] Risheng Liu, Long Ma, Jiaao Zhang, Xin Fan, and Zhongxuan Luo. Retinex-inspired unrolling with cooperative prior architecture search for low-light image enhancement. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10561–10570, 2021. 1
  • [36] Yipeng Liu, Jing Jin, Qiang Wang, Yi Shen, and Xiaoqiu Dong. Region level based multi-focus image fusion using quaternion wavelet and normalized cut. Signal Processing, 97:9–30, 2014. 2
  • [37] Yu Liu, Xun Chen, Rabab K Ward, and Z Jane Wang. Image fusion with convolutional sparse representation. IEEE signal processing letters, 23(12):1882–1886, 2016. 2
  • [38] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF international conference on computer vision, pages 10012–10022, 2021. 2
  • [39] Zhu Liu, Jinyuan Liu, Guanyao Wu, Long Ma, Xin Fan, and Risheng Liu. Bi-level dynamic learning for jointly multi-modality image fusion and beyond. arXiv preprint arXiv:2305.06720, 2023. 2, 5
  • [40] Yongzhi Long, Haitao Jia, Yida Zhong, Yadong Jiang, and Yuming Jia. Rxdnfuse: A aggregated residual dense network for infrared and visible image fusion. Information Fusion, 69:128–141, 2021. 2
  • [41] Jiayi Ma, Chen Chen, Chang Li, and Jun Huang. Infrared and visible image fusion via gradient transfer and total variation minimization. Information Fusion, 31:100–109, 2016. 2
  • [42] Jiayi Ma, Wei Yu, Pengwei Liang, Chang Li, and Junjun Jiang. Fusiongan: A generative adversarial network for infrared and visible image fusion. Information fusion, 48:1126, 2019. 2, 3
  • [43] Jiayi Ma, Pengwei Liang, Wei Yu, Chen Chen, Xiaojie Guo, Jia Wu, and Junjun Jiang. Infrared and visible image fusion via detail preserving adversarial learning. Information Fusion, 54:85–98, 2020. 2
  • [44] Jiayi Ma, Han Xu, Junjun Jiang, Xiaoguang Mei, and XiaoPing Zhang. Ddcgan: A dual-discriminator conditional generative adversarial network for multi-resolution image fusion. IEEE Transactions on Image Processing, 29:49804995, 2020. 3, 6, 7
  • [45] Jiayi Ma, Linfeng Tang, Meilong Xu, Hao Zhang, and Guobao Xiao. Stdfusionnet: An infrared and visible image fusion network based on salient target detection. IEEE Transactions on Instrumentation and Measurement, 70:113, 2021. 1, 2
  • [46] Jiayi Ma, Linfeng Tang, Fan Fan, Jun Huang, Xiaoguang Mei, and Yong Ma. Swinfusion: Cross-domain long-range learning for general image fusion via swin transformer. IEEE/CAA Journal of Automatica Sinica, 9(7):1200–1217, 2022. 2
  • [47] Long Ma, Tengyu Ma, Risheng Liu, Xin Fan, and Zhongxuan Luo. Toward fast, flexible, and robust low-light image enhancement. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 56375646, 2022. 1
  • [48] Long Ma, Dian Jin, Nan An, Jinyuan Liu, Xin Fan, Zhongxuan Luo, and Risheng Liu. Bilevel fast scene adaptation for low-light image enhancement. International Journal of Computer Vision, pages 1–19, 2023. 1
  • [49] Run Mao, Xian Song Fu, Ping-juan Niu, Hui Quan Wang, Jie Pan, Shu Shu Li, and Lei Liu. Multi-directional laplacian pyramid image fusion algorithm. In 2018 3rd International Conference on Mechanical, Control and Computer Engineering (ICMCCE), pages 568–572. IEEE, 2018. 2
  • [50] Nirmala Paramanandham and Kishore Rajendiran. Infrared and visible image fusion using discrete cosine transform and swarm intelligence for surveillance applications. Infrared Physics & Technology, 88:13–22, 2018. 1
  • [51] K. R. Prabhakar, V. S. Srikar, and R. V. Babu. Deepfuse: A deep unsupervised approach for exposure fusion with extreme exposure image pairs. In IEEE International Conference on Computer Vision, pages 4724–4732, 2017. 1, 7
  • [52] Guihong Qu, Dali Zhang, and Pingfan Yan. Information measure for performance of image fusion. Electronics letters, 38(7):1, 2002. 5
  • [53] Yongming Rao, Wenliang Zhao, Yansong Tang, Jie Zhou, Ser Nam Lim, and Jiwen Lu. Hornet: Efficient highorder spatial interactions with recursive gated convolutions.Advances in Neural Information Processing Systems, 35: 10353–10366, 2022. 2
  • [54] Linfeng Tang, Yuxin Deng, Yong Ma, Jun Huang, and Jiayi Ma. Superfusion: A versatile image registration and fusion network with semantic awareness. IEEE/CAA Journal of Automatica Sinica, 9(12):2121–2137, 2022. 1
  • [55] Linfeng Tang, Jiteng Yuan, and Jiayi Ma. Image fusion in the loop of high-level vision tasks: A semantic-aware realtime infrared and visible image fusion network. Information Fusion, 82:28–42, 2022. 2
  • [56] Linfeng Tang, Jiteng Yuan, Hao Zhang, Xingyu Jiang, and Jiayi Ma. Piafusion: A progressive infrared and visible image fusion network based on illumination aware. Information Fusion, 83:79–92, 2022. 2
  • [57] Linfeng Tang, Xinyu Xiang, Hao Zhang, Meiqi Gong, and Jiayi Ma. Divfusion: Darkness-free infrared and visible image fusion. Information Fusion, 91:477–493, 2023. 2, 3
  • [58] Linfeng Tang, Hao Zhang, Han Xu, and Jiayi Ma. Rethinking the necessity of image fusion in high-level vision tasks: A practical infrared and visible image fusion network based on progressive semantic injection and scene fidelity. Information Fusion, page 101870, 2023. 2
  • [59] Wei Tang, Fazhi He, and Yu Liu. Ydtr: Infrared and visible image fusion via y-shape dynamic transformer. IEEE Transactions on Multimedia, 2022. 2
  • [60] Alexander Toet. The tno multiband image data collection. Data in brief, 15:249–251, 2017. 5, 7
  • [61] Di Wang, Jinyuan Liu, Xin Fan, and Risheng Liu. Unsupervised misaligned infrared and visible image fusion via crossmodality image generation and registration. arXiv preprint arXiv:2205.11876, 2022. 2, 6, 7
  • [62] Di Wang, Jinyuan Liu, Risheng Liu, and Xin Fan. An interactively reinforced paradigm for joint infrared-visible image fusion and saliency object detection. Information Fusion, 98: 101828, 2023. 2
  • [63] Sanghyun Woo, Jongchan Park, Joon-Young Lee, and In So Kweon. Cbam: Convolutional block attention module. In Proceedings of the European conference on computer vision (ECCV), pages 3–19, 2018. 3
  • [64] Han Xu, Jiayi Ma, Junjun Jiang, Xiaojie Guo, and Haibin Ling. U2fusion: A unified unsupervised image fusion network. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44(1):502–518, 2020. 5, 6, 7
  • [65] Han Xu, Hao Zhang, and Jiayi Ma. Classification saliencybased rule for visible and infrared image fusion. IEEE Transactions on Computational Imaging, 7:824–836, 2021. 2
  • [66] Meilong Xu, Linfeng Tang, Hao Zhang, and Jiayi Ma. Infrared and visible image fusion via parallel scene and texture learning. Pattern Recognition, 132:108929, 2022. 2
  • [67] Shuang Xu, Jiangshe Zhang, Zixiang Zhao, Kai Sun, Junmin Liu, and Chunxia Zhang. Deep gradient projection networks for pan-sharpening. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1366–1375, 2021. 8
  • [68] Costas S Xydeas, Vladimir Petrovic, et al. Objective image fusion performance measure. Electronics letters, 36(4):308309, 2000. 5
  • [69] Junfeng Yang, Xueyang Fu, Yuwen Hu, Yue Huang, Xinghao Ding, and John Paisley. Pannet: A deep network architecture for pan-sharpening. In Proceedings of the IEEE international conference on computer vision, pages 5449–5457, 2017. 8
  • [70] Wei Yu, Qi Zhu, Naishan Zheng, Jie Huang, Man Zhou, and Feng Zhao. Learning non-uniform-sampling for ultra-highdefinition image enhancement. In Proceedings of the 31st ACM International Conference on Multimedia, pages 14121421, 2023. 2
  • [71] Hao Zhang and Jiayi Ma. Sdnet: A versatile squeeze-anddecomposition network for real-time image fusion. International Journal of Computer Vision, 129:2761–2785, 2021. 6, 7
  • [72] Hao Zhang, Han Xu, Yang Xiao, Xiaojie Guo, and Jiayi Ma. Rethinking the image fusion: A fast unified image fusion network based on proportional maintenance of gradient and intensity. In AAAI Conference on Artificial Intelligence, pages 12797–12804, 2020. 2, 5
  • [73] Jiale Zhang, Yulun Zhang, Jinjin Gu, Yongbing Zhang, Linghe Kong, and Xin Yuan. Accurate image restoration with attention retractable transformer. arXiv preprint arXiv:2210.01427, 2022. 4
  • [74] Qiong Zhang and Xavier Maldague. An adaptive fusion approach for infrared and visible images based on nsct and compressed sensing. Infrared Physics & Technology, 74:1120, 2016. 2
  • [75] Yukang Zhang and Hanzi Wang. Diverse embedding expansion network and low-light cross-modality benchmark for visible-infrared person re-identification. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pages 2153–2162, 2023. 1
  • [76] Zixiang Zhao, Shuang Xu, Chunxia Zhang, Junmin Liu, Pengfei Li, and Jiangshe Zhang. Didfuse: Deep image decomposition for infrared and visible image fusion. arXiv preprint arXiv:2003.09210, 2020. 2, 6, 7
  • [77] Zixiang Zhao, Shuang Xu, Jiangshe Zhang, Chengyang Liang, Chunxia Zhang, and Junmin Liu. Efficient and modelbased infrared and visible image fusion via algorithm unrolling. IEEE Transactions on Circuits and Systems for Video Technology, 32(3):1186–1196, 2021. 6, 7
  • [78] Naishan Zheng, Jie Huang, Feng Zhao, Xueyang Fu, and Feng Wu. Unsupervised underexposed image enhancement via self-illuminated and perceptual guidance. IEEE Transactions on Multimedia, 2022. 2
  • [79] Naishan Zheng, Jie Huang, Qi Zhu, Man Zhou, Feng Zhao, and Zheng-Jun Zha. Enhancement by your aesthetic: An intelligible unsupervised personalized enhancer for low-light images. In Proceedings of the 30th ACM International Conference on Multimedia, pages 6521–6529, 2022. 1
  • [80] Naishan Zheng, Jie Huang, Man Zhou, Zizheng Yang, Qi Zhu, and Feng Zhao. Learning semantic degradation-aware guidance for recognition-driven unsupervised low-light image enhancement. In Proceedings of the AAAI Conference on Artificial Intelligence, pages 3678–3686, 2023. 2
  • [81] Naishan Zheng, Man Zhou, Yanmeng Dong, Xiangyu Rui, Jie Huang, Chongyi Li, and Feng Zhao. Empowering lowlight image enhancer through customized learnable priors.In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 12559–12569, 2023. 1
  • [82] Huabing Zhou, Wei Wu, Yanduo Zhang, Jiayi Ma, and Haibin Ling. Semantic-supervised infrared and visible image fusion via a dual-discriminator generative adversarial network. IEEE Transactions on Multimedia, 2021. 3
  • [83] Huabing Zhou, Jilei Hou, Yanduo Zhang, Jiayi Ma, and Haibin Ling. Unified gradient-and intensity-discriminator generative adversarial network for image fusion. Information Fusion, 88:184–201, 2022. 2
  • [84] Man Zhou, Jie Huang, Yanchi Fang, Xueyang Fu, and Aiping Liu. Pan-sharpening with customized transformer and invertible neural network. In Proceedings of the AAAI Conference on Artificial Intelligence, pages 3553–3561, 2022. 2, 8
  • [85] Man Zhou, Keyu Yan, Jie Huang, Zihe Yang, Xueyang Fu, and Feng Zhao. Mutual information-driven pan-sharpening. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1798–1808, 2022. 8
  • [86] Qi Zhu, Man Zhou, Naishan Zheng, Chongyi Li, Jie Huang, and Feng Zhao. Exploring temporal frequency spectrum in deep video deblurring. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 1242812437, 2023. 1
  • [87] Qi Zhu, Jie Huang, Naishan Zheng, Hongzhi Gao, Chongyi Li, Yuan Xu, Feng Zhao, et al. Fouridown: Factoring downsampling into shuffling and superposing. Advances in Neural Information Processing Systems, 36, 2024. 1
  • [88] Zhiqin Zhu, Hongpeng Yin, Yi Chai, Yanxia Li, and Guanqiu Qi. A novel multi-modality image fusion method based on image decomposition and sparse representation. Information Sciences, 432:516–529, 2018. 1