红外与可见光图像融合新突破:DAF-Net双分支特征融合网络

发布于:2024-10-10 ⋅ 阅读:(10) ⋅ 点赞:(0)

众所周知,红红外光有几个优点,比如强穿透力,不受光照和天气的影响。而可见光则能提供丰富的纹理和细节信息,具有更高的空间分辨率。不过,在光线不好的情况下,比如雨天、雾天或弱光环境中,可见光成像效果会变差。因此,理想的情况是结合红外光的穿透力和辐射信息,以及可见光的纹理和细节,生成一张融合图像,以便更清晰、准确地识别目标。但是,由于成像原理、分辨率和光谱响应的差异,如何在融合过程中保持关键信息的一致性,是一个主要的挑战。

现有的图像融合方法

        传统方法:这些方法通过简单的规则进行融合,虽然计算效率高,易于实现,但往往无法充分利用红外和可见光图像的互补信息,导致融合效果不尽如人意。

        变换域方法:如小波变换和拉普拉斯金字塔技术,这些方法通过分解图像的频率成分来保留细节,但在重建过程中可能会丢失关键的模态特定特征。

        深度学习方法:近年来,深度学习方法,如卷积神经网络(CNN)和生成对抗网(GAN),通过学习模态间的非线性关系,能够生成视觉质量更高的融合图像。然而,这些方法通常需要大量的标注数据,且在保持全局结构和细节纹理方面仍然存在挑战,基于GAN发图像融合网络如下图

DAF-Net工作原理

为了更好地对齐红外图像和可见光图像的特征,作者提出了一种叫做DAF-Net的双分支特征融合网络。这个方法使用一种技术叫做多核最大均值差异(MK-MMD),来减少红外和可见光图像之间的差异,从而提升合成图像的质量。

DAF-Net的基础部分使用了一种叫做Restormer的网络,专门用来捕捉全局的结构信息;而细节部分则基于可逆神经网络(INN),负责提取图像中的细节纹理。MK-MMD只在基础部分使用,以确保整体特征的一致性,避免对局部细节过于调节,这样可以保护模态特有的信息。这种设计使得DAF-Net在保留整体结构和细节方面达到了良好的平衡。

A. 网络架构
DAF-Net由编码器-解码器部分和域自适应层组成。为了优化网络训练,引入了包含域自适应损失的新损失函数。

编码器-解码器部分:编码器有三个部分:基于Transformer的共享特征层、使用Restormer块的基础编码器和细节编码器(用INN块)。基础编码器提取全局信息,细节编码器关注细节纹理。

域自适应层:这个层通过计算MK-MMD减少红外和可见光图像特征之间的差异,促进跨模态特征转移。它在基础编码器的最后三层卷积中工作,用于对齐全局特征,而细节编码器则不使用这个方法,以保持局部细节。

B. 两阶段训练
为了解决红外和可见光图像融合中缺乏真实标签的问题,采用两阶段学习进行训练。

第一阶段:训练编码器-解码器部分,输入成对的红外和可见光图像,编码器提取特征并重构原始图像。如图


第二阶段:训练融合层,使用训练好的编码器特征,融合结构和细节特征,生成最终的融合图像

C. 损失函数
DAF-Net的总损失是编码器-解码器损失和融合层损失的加权和。编码器-解码器的损失包括均方误差(MSE)、结构相似性(SSIM)和梯度损失,还增加了相关性损失和InfoNCE损失来捕捉跨模态关系。融合层的损失则包括强度损失、最大梯度损失和相关性损失。

实验设置

我们在三个数据集上进行了实验:MSRS、RoadScene和TNO。部分MSRS数据用于训练,其余部分以及TNO和RoadScene数据用于评估。评价指标包括互信息(MI)、视觉信息保真度(VIF)、熵(EN)、标准差(SD)、空间频率(SF)、边缘信息QAB/F和结构相似性指数(SSIM)。

实现细节

实验是在一台配备两块NVIDIA A100 GPU的系统上进行的。训练过程中,将样本随机裁剪为128×128的图像块。模型以无监督方式训练40个epoch,每次批量大小为4。我们使用Adam优化器,初始学习率设置为10⁻⁴,并且每10个epoch减半学习率。

定性结果

与现有的方法相比,DAF-Net在融合过程中有效保留了红外图像中的热辐射信息和可见光图像的细节。从实验结果可以看出,DAF-Net在暗区增强了物体的可见性,能够清晰地区分前景目标和背景。如图

D. 定量结果

通过在TNO和MSRS数据集上的实验,定量结果表明DAF-Net在大多数指标上均优于其他方法,在视觉质量和融合性能上表现出色,如图

总结

本文介绍的DAF-Net模型通过加入一种叫做MK-MMD的技术,在基础编码器中实现了全局特征的对齐,同时保留了不同模态的细节特征。实验结果显示,DAF-Net在多个数据集上表现出色,具有很好的融合效果和视觉质量。