文章目录
基本信息
摘要翻译
提示:翻译来自AI
在本文中,我们提出了一种用于RGBT SOD任务的多交互双解码器网络。考虑到双模态之间的不同相关性,以及编码的层次特征和全局语境,我们设计了一个具有级联多交互模块的双解码器网络,以实现不同来源数据的充分融合。所提出的方法可以在交互过程中防止两种模态之间信息的过度影响。同时,在相同的监督下,两个解码分支趋于一致,从而隐式地抑制了双模态之间的偏差。实验结果表明,我们的方法在RGBT SOD和RGBD SOD任务上都具有明显的优势。此外,我们还讨论了更多值得研究的潜在问题,并将在未来进一步探索解决这些问题的方法。
引言
提示:引言翻译和引言总结【研究问题、难点、贡献】
1.1 引言翻译
无人系统享有优点,并有助于对军事和民用地区的应用,例如无人驾驶汽车(UAV),无人战斗车(UCV)和自动驾驶[1]。但是,由某些无人系统配备的单模式视觉技术难以应对野外挑战的场景,从而导致未能找到隐藏的对象和低精度的定位。为此,引入了多模态传感器,其中红外传感器是最常用的一种。红外传感器通过拍摄物体发出的热辐射图像,具有抗干扰和抗遮挡的特性,因此红外图像能突出显示显著物体。相比之下,RGB传感器捕捉的可见光图像包含了丰富的纹理和细节,因为它们包含了反射光的信息。因此,**红外和可见光图像的融合(IVIF)**可以从二者中提取互补信息生成融合图像,使难以发现的物体变得明显,有助于物体定位,这为无人系统带来了很多前景。
当前主流的IVIF方法[2]、[3]、[4]、[5]、[6]、[7]、[8]、[9]、[10]、[11]在突出显著物体和展现丰富纹理方面表现极为出色。通常,这些融合方法包括基于源图像纹理和强度比例保留[5]、[10]、[12]、[13]的方法,基于标注显著物体掩膜的空间引导方法[7],以及基于生成对抗网络(GAN)的方法[2]、[3]、[4]、[14]。然而,这些方法主要集中于获得具有良好视觉效果的融合图像,很少讨论其实用应用中的适应性和与下游高级视觉任务的关联。另外**,由于现有的IVIF方法难以将精确的语义信息传递给下游高级任务,导致下游应用性能严重下降**(见图1(a))。同时,还有一些低级视觉方法[15]、[16]、[17]、[18]、[19]、[20]依赖于高级语义信息,但它们只是将语义概率图作为条件嵌入到某些特定层,而不是两个任务之间的适应桥梁。
基于上述讨论,我们倾向于设计一个联合范式,将红外和可见光图像融合与下游视觉任务结合起来,充当桥梁角色。考虑到红外-可见光突出对象检测(SOD)和融合任务之间的共同特征,两者都试图从两个源图像中提取并融合互补的线索来预测最终结果,我们初步尝试探索它们之间的协作关系。我们面临以下三个主要障碍:(i) 设计一个能够有效传递与突出性相关的语义特征的融合网络,以适应突出对象检测。由于红外-可见光SOD [21]、[22]、[23]、[24] 的目标是从两个源图像中提取并融合层次互补的线索,从而预测最突出对象的准确二元位置图。这依赖于诸如对象的突出结构等语义信息。(ii) 开发一种无缝且高效的连接方式,使图像融合能够促进下游SOD任务。典型的多模态SOD方法通常为每个源图像采用独立的特征提取器,然后通过互补融合模块聚合提取的模态特定特征。如果我们遵循这种模式,必将导致重量级模型、未充分利用的模态共享特征以及复杂的特征聚合。(iii) 设计一种协作学习策略,使得两个任务紧密耦合并互相加强。大多数先驱多任务方法要么遵循由低到高的范式,要么遵循由高到低的范式,往往会单方面提高其中一个任务。
在本文中,我们构建了一个互动加强范式来连接红外和可见光图像融合以及突出对象检测,称为IRFS(见图1(b))。整体框架由图像融合和SOD之间的双向优化流组成。对于由低到高流,我们特别设计了一种基于特征筛选的图像融合网络FSFNet,以筛选出干扰特征并保留与突出性相关的和纹理信息丰富的特征。然后,为更高效地连接这两个任务,FSFNet生成的融合图像被用作第三种模态来指导下游SOD。具体来说,我们引入了一个基于融合图像的特征重权和交叉互补的融合导向增强(FGSE)模块。然后,我们将FGSE模块嵌入共享主干网络的每一层中,并构建了一个称为FGC2Net的融合导向交叉互补SOD网络,用于在整个SOD过程中保持融合图像的指导效应,从而实现两个任务之间的无缝连接。对于由高到低流,我们使用标注的突出性地图监督SOD检测器并建立一个语义损失,然后反向传播到融合子网络,从而促使生成富含语义信息的融合图像。此外,我们还开发了一种交互式环路学习策略来交互优化图像融合和SOD任务,最终通过较短的训练周期和较少的网络参数实现两者最优结果。
我们的主要贡献总结如下:
我们构建了一个交互强化的范式,用于联合红外-可见光图像融合和显著目标检测,在这种范式中,首次探讨了两个任务之间的协作关系。
我们提出了一种基于特征筛选的图像融合网络,以突出与显著目标检测(SOD)相关的语义特征。同时,我们引入了一种融合引导的显著性增强模块,使其能够将上游融合结果的指导贯穿于下游的SOD任务中。因此,成功实现了两个任务之间的无缝衔接。
我们设计了一种交互式闭环学习策略,将红外-可见光图像上的融合任务和SOD任务紧密耦合在一起,以最小的训练成本实现它们之间的最佳平衡。
实验结果表明,所提出的IRFS能够无缝地将红外-可见光图像融合和SOD任务结合起来,两者互相受益,表现出优越的能力。
贡献2和3 说的是同一件事?
1.2 引言总结
相关工作
2.1 工作翻译
多模态图像融合和多模态显著目标检测是本工作的重要支持技术。在本节中,我们充分调研现有技术,并回顾其发展历程。
2.1 多模态图像融合
在过去的几十年里,多模态图像融合取得了显著进展,大致可分为传统方法和基于深度学习的方法两大类。
2.1.1 传统图像融合方法
典型的传统方法包括基于多尺度变换(MST)[25]、基于稀疏表示[26]、基于子空间[27]和基于显著性的[28]融合方法。
基于多尺度变换的图像融合方法通常包括三个步骤:多尺度特征分解、多尺度特征融合和融合特征逆变换。陈等人[25]遵循这一流程,利用Laplacian金字塔变换进行多尺度特征分解。除了Laplacian金字塔,小波变换[29]、小提琴变换[30]和保持边缘的滤波器[31]也在基于多尺度变换的图像融合中广泛使用。
基于稀疏表示的图像融合方法[32,33]通常 依赖于从大量高质量自然图像中学习到的过度完全字典。 具体来说, 通过学习到的过度完全字典从每个源图像生成稀疏表示,随后通过该过度完全字典将编码的融合稀疏系数转换为融合图像。 此外,稀疏编码模式也多种多样。例如,Bin等人[34]提出了使用多重选择策略的近似稀疏表示,以从源图像中获得稀疏系数。刘等人[35]利用卷积稀疏表示来获取稀疏系数。
基于 子空间的图像融合方法是通过将高维输入映射到低维空间或子空间来捕获源图像的固有结构,涉及不同的降维方法,例如主成分分析(PCA)、独立成分分析(ICA)和非负矩阵分解(NMF)。 例如,李等人[36]利用PCA融合分解后的低频图像,而巴维里舍蒂等人[37]采用PCA融合高频细节图像。Cvejic等人[27]提出将源图像分割成不同的区域,然后通过一组从自然图像中预训练的基获得每个区域的ICA系数。莫等人 [38] 提出通过非负矩阵分解(NMF)从红外和可见光图像中提取特征,该方法能够保持可见光图像的纹理和红外图像的高对比度结构,同时去除噪声。
基于显著性的图像融合方法受到人类视觉注意力的启发,有助于突出融合图像中的显著对象。显著性融合方法分为两类:显著目标提取和权重计算。第一类方法是从源图像中提取显著区域并将它们映射到融合图像中,能够保留主导信息,如 [39,40]。另一类方法首先需要分别获得基础图像层和细节图像层的显著权重图,然后通过相应权重图在图像层之间加权组合得到基础图像和细节图像,如 [41]。尽管生成了视觉上令人满意的融合图像,但这些传统的图像融合方法仍然不如基于深度学习的方法。
2.1.2 基于深度学习的图像融合方法
基于深度学习的方法分为四类:**基于自动编码器(AE)**的方法 [42]、基于深度卷积神经网络(CNN)的方法 [5,8]、基于生成对抗网络(GAN)的方法 [2-4] 以及基于Transformer的图像融合方法。
基于自动编码器的图像融合方法遵循编码器-解码器范式来实现多模态特征的提取和融合图像的重构。作为先驱,李等人 [42] 提出了密集块作为自动编码器的基本组成部分来进行特征提取,然后通过粗略的加和融合和 𝑙1范数融合规则融合提取的多模态特征。融合后的特征通过简单的解码器重构为融合图像。由于自动编码器中的连续下采样操作导致有效信息的丢失,李等人 [43] 在编码器-解码器范式中引入了残差连接以减轻这一问题。为了解决自动编码器的可解释性问题,赵等人 [12] 提出了通过多尺度分解和编码器中提取低频和高频特征来区分背景和细节特征的方法。
基于深度卷积神经网络的图像融合方法 主要集中在各种网络架构和融合策略的设计上。张等人 [5] 引入了一种双路径密集网络,分别从多模态图像中学习强度和梯度特征,然后再设计特定损失以在融合图像中保持强度和梯度信息的平衡。仍然遵循密集网络结构,徐等人 [6] 融合了密集网络和信息测量方法,该方法能够适应性地估计不同图像来源的重要性,并可用于解决各种融合问题。然而,简单的密集网络在保留高质量结构和细节方面表现不佳。随后,刘等人 [44] 应用了从粗到细的网络结构来提取多尺度特征,其特征表示能力优于简单的密集网络。刘等人还设计了边缘导向注意力模块,以促使网络突出显示显着的结构,并保留丰富的细节。上述手动网络在面对不同类型的数据时缺乏灵活性。为此,刘等人 [45] 首次利用神经架构搜索(NAS)方法构建了一种层次聚合的融合架构,对于不同的融合需求更加灵活和有效。一些相关后续研究,例如 [46,47],应用了 NAS 为红外和可见光图像融合搜索模态定向网络和轻量级目标感知网络。
基于GAN的图像融合方法旨在从概率分布的角度建立约束,以实现融合图像的清晰目标和丰富的纹理,同时在源图像的信息传输保持平衡。Ma等人[2]首次将生成对抗网络引入图像融合领域,在生成器和判别器之间以对抗的方式建模这一任务。然而,这种单判别器模型[2,4]会强制生成器公平对待不同的模态,导致融合图像过度平滑。因此,提出了一些双判别器图像融合网络,如[3,14,48],能够突出高对比结构和细粒度纹理。
自Transformer提出以来的两年内,基于Transformer的图像融合方法[49-51]逐渐兴起,因为Transformer具有全局感受野并能建模邻近像素的长距离依赖关系。但由于现有的Transformer忽略了像素之间的局部空间相关性,Fu等人[49]首次提出了补丁金字塔Transformer (PPT)框架,其中使用补丁Transformer建模局部特征表示,使用金字塔Transformer建模非局部特征表示。随后,Li等人[51]提出了卷积引导的Transformer,旨在首先利用卷积特征提取器学习局部特征,然后用这些特征来引导基于Transformer的特征提取器捕捉特征之间的长距离相互依赖关系。随着Swin Transformer[52]的普及,Ma等人[50]设计了一种基于[52]中的移窗机制和自我和交叉注意力机制的统一多任务融合框架。这些方法在保留图像结构和细节方面表现良好。然而,上述方法过度关注视觉质量,而忽视了与高层视觉任务的联系。考虑到在野外的无人系统综合理解能力,有必要开发一种与高层视觉任务结合的红外可见图像融合的联合框架。
2.2. 多模态显著目标检测
近年来,随着多模态显著目标检测(SOD)领域中热红外传感器的普及,热红外和可见光显著性目标检测取得了显著的进步,包括传统方法 [53-55] 和基于深度学习的方法 [22, 23, 56, 57]。传统的热红外和可见光显著性目标检测方法主要分为基于排名的方法和基于图学习的方法。王等 [55] 首次将排名算法应用于多模态显著性目标检测任务,并提出了多任务流形排名模式。他们还构建了一个称为 VT821 的热红外和可见光基准。基于图学习的显著性目标检测方法,例如,Tu 等 [54] 提出了一种协作式图学习模型,在该模型中,源图像被分割为超像素节点,然后学习图关联性和节点显著性。随后,Tu 等 [53] 还提出了一种结合图学习和排名理论的基于图的流形排名模型,在多尺度超像素集合中进行,并基于 ADMM 优化器优化模型。
由于 CNN 的表征能力,基于深度学习的热红外-可见光显著性目标检测方法的基本思想是从源图像中提取互补信息以预测显著物体的准确显著性图。Tu 等 [56] 构建了一个名为 VT5000 的大规模热红外-可见光基准,并提出了一种双编码器框架来从不同的模态中提取互补特征。为了更好地探索多模态特征之间的交互,Tu 等 [22] 提出了一个双解码器框架来执行多尺度特征的交互,这对于具有挑战性的场景更为有利。由于双编码器和双解码器方法的模型大小较大,Liao 等 [58] 设计了一个单编码器框架,使用共享编码器从热红外和可见光图像中提取互补特征。
然而,无论是传统的还是基于深度学习的热红外-可见光显著性目标检测方法,都仅在特征空间上追求跨模态交互和融合,而从未在像素级别进行融合。实际上,融合后的图像可以突出显示物体的结构,而这些结构在区分显著物体方面也发挥着关键作用。因此,自然地考虑在单一框架中结合图像融合任务和显著性目标检测任务以实现互惠互利似乎是合理的。
2.3 多视觉任务联合框架
最近,一些实际需求促进了低级和高级视觉任务的整合。一种途径是建立一个从低级到高级的递进流水线,使低级任务能够促进高级任务 [59-64]。另一种途径是将语义概率图嵌入到某些特定层中,作为条件提供从高级到低级的指导,例如图像超分辨 [15,65]、图像增强 [66-68] 和图像高动态范围 (HDR) [16]。第三种途径是构建并行框架,平等对待低级和高级视觉任务 [69,70]。遗憾的是,这些方法都没有讨论任务之间的自适应桥梁,导致一个任务过度拟合,偏离它们之间的最优平衡。实际上,最近两项研究 [71,72] 探索了图像融合与高级任务之间的关系。然而,[72] 只考虑了以高级任务为导向的联合训练,而 [71] 只关注低级和高级损失之间的权衡。最新的研究称为 SuperFusion [73],将图像注册、图像融合和语义分割整合到一个统一框架中。在该框架中,图像注册和融合采用对称优化方案共同优化,使两项任务能够相互促进。然后部署一个预训练的语义分割模型来引导融合网络更关注语义相关的特征。然而,这些方法忽略了像素级融合结果与多模态高级视觉任务之间的内在联系,这也是本文关注的重点。
2.2 工作总结
方法
提示:这里可以添加技术细节
3.1 方法翻译
在我们提出的交互式强化融合框架IRFS中,联合红外和可见光图像融合及显著目标检测的交互式强化范式如图2所示。该范式包含两个子任务:图像融合被视为主导任务,而多模态显著目标检测任务则作为图像融合的下游任务,并辅助其作为显著性导向的图像融合的辅助工具。整体网络结构包括基于特征筛选的图像融合子网络(FSFNet)和融合导向的跨互补显著目标检测(SOD)子网络(FGC2Net)。
’ layer1-5 是什么?’
3.1. 基于特征筛选的图像融合
为了实现融合图像在我们的IRFS框架中促进显著目标检测的目标,设计了一个专门的融合网络,如图2(a)所示。该网络不仅能生成高质量的融合图像,还能保留融合图像中的语义信息。给定一对可见光图像 𝐼𝑟 ∈ R𝐻× 𝑊×3 和红外图像 𝐼𝑡 ∈ R𝐻× 𝑊×1 ,我们首先利用一个粗特征提取器 F^c(*),它由两个卷积层和Leaky ReLU激活函数组成,以提取粗特征 𝐅𝑐 = [𝐅𝑟_𝑐 ,𝐅t_c]。需要注意的是,可见光图像需要转换到YCbCr色度空间,然后将Y通道图像作为可见光分支的输入。接下来,需要研究如何从 (F_c ) 中筛选出干扰特征并保留与显著性相关特征,以促进后续的SOD任务。由于注意力机制可以在通道和空间维度上建模特征相关性,并有助于捕捉精细结构纹理特征,我们决定部署一个双注意力导向的特征筛选模块(DAFS),以筛选出无用特征并保留与显著性相关且包含纹理信息的精确特征,以满足SOD任务的需求。因此,这些精确特征可以表示为:
然后,我们通过
融合了源图像中保留的特征,其中⊕表示元素求和操作。我们采用串行残留块将融合的Y通道图像重建为𝐼𝑦_f。然后,我们将𝐼𝑦_f转换为RGB图像𝐼_𝑓∈R𝐻×3×3,以便它服务于后续的SOD任务.
3.2 3.2. 光融合引导的跨互补SOD
得益于融合图像中清晰物体和物体与背景之间的高对比度,我们将融合图像视为红外可见SOD任务的第三种模态,用以引导该任务。这是首次尝试打破标准的多模态SOD配置。如图2(b)所示,我们提出了一种融合引导的跨互补SOD网络,命名为FGC2Net,该网络接受一系列图像 {𝐼𝑟, 𝐼𝑓, 𝐼𝑡 } 作为输入,并预期预测出最显著物体的精确显著性图 𝐌𝑝。
与一些出色的工作 [22,75] 不同,这些工作为红外和可见光图像分别分配了一个单独的骨干网络,用于提取跨模态层次特征,然后在额外的分支中逐步融合这些特征,我们的FGC2Net使用了孪生编码器,交替进行特征提取和跨模态特征聚合。特别是,我们引入了一个融合引导的显著性增强(FGSE)模块来执行跨模态特征聚合,并将其置入骨干网络的每个特征尺度之后。目的是利用融合图像中物体和背景的高对比度差异重新加权红外和可见光图像,进一步增强与显著性相关的特征并抑制周围的干扰特征。
如图3所示,FGSE分为三个步骤。给定来自第(i−1)尺度骨干的特征集 {𝐹𝑖−1_𝑟, 𝐹𝑖−1_𝑡, 𝐹𝑖−1_𝑢 },在融合特征 𝑓𝑖_𝑢 的引导下,首先获得显著性增强的红外和可见光图像特征,并将其公式化为
其中,CR()表示卷积和ReLU函数,CS() 表示卷积和Sigmoid函数。(\oplus) 和 (\otimes) 分别表示元素级求和和乘法。基于自注意力机制,我们然后引入一种跨模态互补特征变换层(C2FTL),用于从 𝐹𝑖 𝑟 and 𝐹𝑖 𝑡 中学习跨模态结构和纹理信息特征。在此之前,𝐹𝑖 𝑟 被转换成 (Q_r)、(K_r) 和 (V_r),同时对𝐹𝑖 𝑡 也执行相同操作。然后,我们采用 C2FTL 生成互补的跨模态特征,由
其中, S(*)是sigmoid函数。
为了防止干扰信息在 ̃𝐹𝑖𝑟 和 ̃𝐹𝑖𝑡 中进一步前向传播,我们部署了一个可学习的特征选择器(LFS)来抑制与显著性无关的特征。特征选择的核心是基于全局平均池化操作和特征挤压-激励(SE)操作生成一个权重向量,然后通过softmax函数生成两个可学习参数。这一过程可以表示为:
其中,(\mathcal{P}(\cdot)) 表示全局平均池化操作,([\cdot]) 表示沿通道维度的拼接。紧接着,我们利用 (\omega_r) 和 (\omega_t) 来重新加权 ̃𝐹𝑖𝑟 和 ̃𝐹𝑖𝑡,以重建增强显著性的跨模态特征。
注意,在连接(concatenation)之后,使用了一个 1 × 1 卷积来降低特征维度,以使其与输入(即, ̃𝐹𝑖𝑟 和 ̃𝐹𝑖𝑡 )匹配。
通过暹罗编码器,设置一个层次化特征集{𝐹𝑖_𝑟 ,𝐹𝑖 𝑡 ,𝐹𝑖 𝑢|𝑖 ∈ {1,2,…,5}}是可学习的。接下来,我们引入一个modality-specific group decoder(MSGD)来预测显著图,如图4所示。为了减轻计算负担,我们只将特征 {𝐹𝑖𝑟,𝐹𝑖𝑡,𝐹𝑖𝑢|𝑖 ∈ {3,4,5}} 输入到MSGD中。组解码器由三个模态特定解码分支构成,即红外模态解码分支、可见光模态解码分支和融合模态解码分支。其中,融合模态解码分支仅通过一个Conv+BN+ReLU(CBR)层预测粗略的显著图𝑀𝑐𝑢,而红外模态和可见光模态解码分支同时预测粗略图(例如𝑀𝑐𝑟,𝑀𝑐𝑡)和精确图(例如𝑀𝑝𝑟,𝑀𝑝𝑡)。最后,将具体的模态特定精确显著图(即𝑀𝑝𝑟,𝑀𝑝𝑡)整合生成最终的精确显著图𝑀𝑝。需要注意的是,所有需要解码的特征都经过全局上下文模块和级联的CBR层,在MSGD模块中生成显著图。
3.3 损失函数
融合损失。在融合阶段,我们从强度和梯度的角度提升融合结果的视觉质量,融合损失定义为:
其中 (\lambda) 是一个权衡参数。为了在 RGB 和热成像图像中保留关键对象,我们构建了受 [46, 72] 启发的相关强度损失。强度损失定义为:
它依赖于 𝐿1 范数和 MS-SSIM 来衡量合成图像与源图像的像素级相似性。这里,其中, ( \omega_r ) 和 ( \omega_t ) 分别是 RGB 图像和热成像图的加权图,这些加权图是通过
S代表由[76]计算的显著性矩阵。为了保留融合图像中的细粒度纹理,我们对融合图像和源图像的梯度分布施加了一个约束,即
其中符号 ∇ 表示拉普拉斯梯度运算符。max(⋅) 表示两个源图像的细粒度纹理的最大聚合。
SOD损失。 在SOD阶段,我们使用加权二进制交叉熵损失(wBCE)和加权IOU(wIoU)来监督FGC2Net。给定来自Siamese编码器顶层的粗糙显著图
,粗糙损失通过以下方式计算:
然后,给定由 MSGD 结束时产生的精确显着性图 Mp,精确损失是通过以下方式计算的:
因此,总体损失定义为:
其中, 𝜏 and 𝜂 是权衡系数。初始时, 𝜂 设置为 1,并且随着交互式学习循环的增加而增加,而 𝜂 保持恒定,始终设置为 1。我们在第 4.6 节中讨论了 𝜏不同值的影响。
3.4 交互式循环学习策略
在多任务框架中,通常采用一步训练方式来寻找最优结果。例如,将多模态图像输入融合网络后,生成的融合图像会传递给SOD网络,然后计算联合损失来同时更新框架的两个部分。然而,这种训练方式往往难以在任务之间取得平衡。为了解决这一问题,我们设计了一种交互式循环学习策略。具体而言,在优化融合部分时,为了加强融合图像的语义信息,并适应后续的SOD任务,我们强制融合图像通过FSFNet,并使用公式(13)更新FSFNet的参数。此时,SOD网络被冻结,不更新参数。相反,在优化SOD部分时,使用生成的融合图像来引导从源图像中提取与显著性相关的多模态特征,并在公式(12)的约束下更新FGC2Net的参数。同时,在融合部分结束时截断梯度,防止梯度反向传播干扰融合部分的优化。交互式循环训练过程总共进行m次。每次循环中,融合网络通过nf个时期,而SOD网络通过ns个时期。通过这种方式,图像融合和SOD任务的性能可以在最短的训练周期内达到最优平衡。
3.2 方法小结
实验
4.1 部分翻译
文中4.2
4.2 联合图像融合与SOD评价
我们在VT5000数据集上评估了我们的IRFS在联合多模态图像融合和SOD性能方面的能力。采用了当前最先进的图像融合方法,如FGAN [2]、DIDFuse [12]、PMGI [5]、MFEIF [44]、RFN [43]、U2F [6]、DDcGAN [3]、GANMcC [4] 和UMF [80] 进行对比。为了全面评估IRFS的有效性,我们将前述的融合模型与提出的FGC2Net和最近的SOD方法CTDNet [81] 结合,形成了几个临时的多任务框架。CTDNet是一个针对RGB图像的单模态SOD方法。因此,我们仅将每个融合模型的融合结果作为CTDNet的输入,在VT5000数据集上同时进行联合融合与SOD学习。为了公平起见,我们在整个训练过程中保持CTDNet的原始设置不变。
为了进行定量比较,表1报告了VT5000数据集上的中间融合结果和最终SOD结果,这些结果是由前述融合模型与CTDNet和我们的FGC2Net形成的临时多任务框架得出的。通过比较,我们的IRFS在常见的图像融合指标(即MI、VIF和CC)和SOD指标(即 𝑆𝛼、 𝐹𝛽、 𝐹𝑤 𝛽 和MAE)中表现始终优于现有的SOTA方法。具体而言,在VIF指标上,我们的IRFS比第二好的方法提高了45.8%。在MI和CC指标上,我们的IRFS分别比第二名提高了5.2%和2.18%。相比之下,与融合模型和CTDNet形成的临时多任务框架相比,我们提出的IRFS表现出色,最终预测的显著性图在四个常用SOD指标上排名第一。与使用FGC2Net形成的临时多任务框架相比,我们的IRFS仍然能排名第一。与第二好的方法相比,在平均 𝐹𝛽 上提高了2.08%,在平均MAE得分上提高了5.56%。此外,我们发现使用FGC2Net形成的临时多任务框架优于使用较新的CTDNet [81] 形成的那些框架。分析这些结果显示证明了我们提出的IRFS范式的优越性。
对于定性结果,我们在图5中展示了两个示例。在每个示例中,展示了一组由现有融合模型生成的热红外可见图像,以及从CTDNet [81] 和我们的IRFS框架中的FGC2Net生成的一组相应的显著性图。通过比较这些结果,我们可以发现,由我们的IRFS生成的融合图像中的目标与背景的对比度更为明显,过度曝光也得到了抑制,这有助于比其他临时多任务框架更准确地预测显著性图,如图5所示。
定量和定性结果表明,一方面,热红外可见图像融合与SOD之间存在紧密的合作关系。另一方面,我们的交互增强范式在联合图像融合与SOD中的有效性也得到了支持。
文中4.3
4.3 图像融合的泛化分析
我们通过与现有融合方法(包括FGAN [2]、DIDFuse [12]、PMGI [5]、MFEIF [44]、RFN [43]、U2F [6]、DDcGAN [3]、GANMcC [4] 和UMF [80])的比较,评估了IRFS的中间融合结果。根据表2中的数据显示,在VIF和CC指标上,我们的IRFS显著优于现有的红外-可见光图像融合方法。这一结果表明,由于SOD任务的反向推动,由我们的IRFS生成的融合图像更好地保留了源图像传递的信息。虽然在TNO数据集上的定量结果未能在MImetric上排名第一,但它们仍然有利于我们IRFS的直接泛化评估。为了直观地评估我们的IRFS,我们在三个融合数据集(即TNO、RoadScene和M3FD)上展示了所有讨论方法的融合结果,分别如图7、图6和图8所示。通过观察每个图像的局部放大区域,我们可以发现,FGAN [2]、RFN [43]、DDcGAN [3] 和GANMcC [4] 的结果都存在严重的模糊物体和过度平滑的背景。DIDFuse [12] 和U2F [6] 在其融合结果中带来了明显噪声和伪影。相比之下,由IRFS生成的融合图像显示出更加显著和清晰的物体,这些物体有助于后续的SOD任务,同时其背景也显得更为干净,没有额外的干扰。
文中4.4
4.4. SOD 任务的一般化分析
我们通过与10种当前最先进的热红外和可见光SOD方法(包括MTMR[55]、M3S-NIR[53]、SGDL[54]、ADF[56]、MIDD[22]、CSRN[57]、MMNet[75]、OSRNet[82]、ECFFN[24]和MIA[83])进行对比分析来进行SOD任务的一般化分析。表3客观地展示了通过四种常见指标测量的数量结果。可以看出,提出的IRFS在这些三个数据集上要么排名第一,要么排名第二。例如,与VT5000数据集上第二好的方法OSRNet相比,IRFS的平均Fβ值提高了2.1%,平均Eξ值提高了1.6%,MAE得分为13.16%。就平均Sα指标而言,我们的结果仅比OSRNet低0.11%。为了更好地反映我们的IRFS的优势,如图9所示,我们可视化了所有前述方法预测的显著性图。可以明显观察到,与最新研究OSRNet相比,我们的IRFS获得了更准确的显著性图,且假阳性检测较少。例如,以第二张图片为例,尽管其他SOD方法也能定位图片中的环并准确预测出圆周轮廓,但在识别环内的小对象方面存在困难。相比之下,我们的IRFS不仅能突出显著对象的结构完整性,还能保证对象轮廓内部的连贯性。这表明,我们的IRFS对某些具有挑战性的场景(如热交叉、小对象和低对比度)更为稳健。
4.2 实验总结
实验设置
联合图像融合和SOD评估