DW-GAN: A Discrete Wavelet Transform GAN for NonHomoge-neous Dehazing

发布于:2024-07-05 ⋅ 阅读:(16) ⋅ 点赞:(0)

DW-GAN:用于非均匀去雾的离散小波变换GAN

摘要        

        模糊的图像经常出现色彩失真、模糊和其他可见的质量下降。现有的一些基于cnn的方法在去除均匀雾霾方面有很好的效果,但在非均匀情况下,鲁棒性较差。原因主要有两方面。首先,由于雾霾分布复杂,在除雾过程中容易丢失纹理细节。其次,由于训练对很难收集,在有限的数据上训练容易导致过拟合问题。为了解决这两个问题,我们引入了一种新的二维离散小波变换去雾网络,即DW-GAN。具体来说,我们提出了一个双分支网络来解决上述问题。通过小波变换在DWT分支中的应用,可以保留更多的高频知识。为了防止过拟合,在知识自适应分支中采用了ImageNet预训练的Res2Net。由于ImageNet预训练的鲁棒性特征表示,极大地提高了网络的泛化能力。最后,采用基于补丁的鉴别器对恢复后的图像进行伪影处理。大量的实验结果表明,所提出的方法在定量和定性上都优于目前最先进的方法。源码:https://github.com/liuh127/DW-GAN-Dehazing

图1:我们在NH-HAZE2测试集上的去雾结果。

1.引言

        模糊图像往往容易出现色彩失真、模糊等可见质量下降现象。各种各样的图像退化通常会降低图像的感知质量,并破坏许多智能系统,如跟踪[43]、卫星遥感[31,35]和目标检测[42,21]。因此,图像去雾在计算机视觉界受到了广泛的关注。以前的许多除雾方法都是基于经典的大气散射模型[34]:

式中,I(x)为朦胧图像,J(x)为清晰图像,A(x)为全局大气光,t(x)为介质透射,x为像素。此外,t(x) = e−βd(x)。其中β和d(x)分别为大气散射参数和场景深度。

        基于大气散射公式,已经提出了一些基于先验的方法[19,6,49,14]。这些方法通过手工先验估计大气光A(x)和介质传输图t(x),如暗信道先验[19]和非局部先验[6]。然而,要准确地估计A(x)和t(x)是相当困难的。特别是在非均匀除雾任务中,雾霾分布要复杂得多,雾霾密度与图像深度的相关性不强。因此,使用基于先验的方法会导致巨大的估计误差。这种方法不再是非均质除雾的好选择。近年来,随着深度学习技术的发展[23],许多基于深度学习的除雾方法也被提出[7,26,47,8,36]。这些方法使用卷积神经网络(cnn)来提取特征,并直接学习模糊和无模糊图像对之间的映射。然而,这些方法在训练过程中通常需要大量的图像对。随着训练数据越来越少,许多基于深度学习的方法越来越难以成功。此外,在清晰图像中的高频成分,如边缘和精细纹理,往往会被非均匀的雾霾严重退化。因此,从模糊图像中恢复清晰的纹理细节和锐利的边缘对于获得良好的感知质量至关重要。

        综上所述,非均匀除雾的困难主要来自于两个方面。首先,由于雾霾分布复杂,在复原过程中容易丢失纹理和颜色细节。其次,训练图像对难以收集。使用有限的数据来训练一个鲁棒的非均匀除雾模型是相当具有挑战性的。为了解决上述两个问题,我们提出了一个双分支生成对抗网络。在我们的第一个分支中,我们使用设计的小波下采样模块来替换部分卷积层通过这样做,可以减少参数的数量。轻量级模型可以在小型训练数据集上有更好的性能,避免模型冗余导致的过拟合问题。此外,离散小波变换[33]保留了图像和特征映射中的频域信息。这样的信息更有利于纹理细节的恢复。在我们的第二个分支中,我们使用预训练的Res2Net[15]作为主干提取多层特征。这种预训练的编码器可以为小型训练数据集带来大量的先验知识[18]。通过利用先验知识,我们可以在小规模数据集上观察到关于测试准确性的显著改进。此外,我们进一步在我们的管道中使用了注意力机制。像素级关注模块和频道级关注模块允许网络聚焦于模糊区域和更关键的频道信息。最后,利用鉴别器在训练阶段引入对抗损失。通过采用对抗性损失,我们的网络被推动去学习自然和逼真的解决方案。

        总的来说,我们总结了我们的贡献如下:

        1、我们提出了一种双分支端到端可训练GAN来解决非均匀除雾问题。

        2、我们提出了一种新颖的方法将二维离散小波变换嵌入到我们所提出的网络中,旨在保留足够的高频知识并恢复清晰的纹理细节。为了在小规模数据集上表现良好,我们使用ImageNet预训练的权值作为初始化,采用先验特征知识。

        3、 我们展示了大量的实验结果和全面的消融分析来说明我们提出的方法的有效性。

2. 相关工作

        单幅图像去雾。近年来,图像去雾问题引起了计算机视觉界的广泛关注。研究者们提出了许多单幅图像去雾的方法。这些方法大致可以分为两类:基于先验的方法和基于学习的方法。

        基于先验的方法利用先验的统计知识和手工制作的图像去雾特征。暗信道先验(Dark channel prior, DCP)[19]是基于先验的方法中的杰出代表之一。DCP假定模糊图像在至少一个颜色通道中可能具有极低的强度。颜色衰减先验(color attenuation prior, CAP)[49]基于模糊图像的亮度和饱和度的差异,建立了一个线性模型,作为强先验知识来估计场景深度。[6]假设无雾图像的颜色可以用几百种不同的颜色很好地近似。尽管基于先验的方法在单幅图像去雾中取得了良好的效果,但手工特征和先验知识阻碍了这些方法在可变场景中实现时取得令人满意的效果。近年来,随着深度学习方法的快速发展[23],深度学习在解决单幅图像去雾问题上显示出了显著的能力。一些基于深度学习的方法仍然依赖于大气散射模型。例如,[7]提出DehazeNet作为第一个学习传输图的端到端CNN。具体来说,它遵循传统的程序和大气散射公式,但使用CNN来估计传输图。类似地,随后提出了一种新的多尺度神经网络(MSCNN)[37]来从模糊图像中估计传输图。与[7,37]不同的是,AOD-Net通过轻量级神经网络联合估算透光率和大气光。除了上面列出的依赖于大气散射模式的方法外,最近的去雾方法注重从模糊图像到清晰图像的良好映射。GFN[38]使用白平衡、对比度增强和伽马校正方法对模糊输入进行预处理。然后通过融合三个派生输入的特征来生成去雾输出。GCANet[8]在管道中采用平滑扩张技术,去除扩张卷积造成的网格伪影。FD-GAN[13]提出了一种带有融合鉴别器的端到端GAN[16]。融合鉴别器在训练阶段将频率信息作为附加先验信息进行融合。与[13]在频域中区分清晰图像和生成图像不同,我们的方法侧重于将高频域特征直接融合到生成器中。这些基于深度学习的方法在均匀除雾任务中取得了很好的效果。然而,成功离不开大型训练数据集的支持。我们将通过大量的实验经验证明,它们在非均匀除雾中往往会急剧失败。

        频域学习。频率分析一直是图像处理的有力工具。有效地利用图像频域信息可以大大提高图像恢复方法的性能。近年来,一些方法将频率信息嵌入到网络结构中,充分利用频域信息的有效性。发现神经网络可以从小波子带学习中获益后,提出了小波残差网络[5]。DWSR[17]设计了一种可以恢复子带缺失细节的深度小波网络。MWCNN[30]采用多级小波变换扩大感受野。AWNet[9]进一步将频域知识用于图像ISP。这些方法利用离散小波变换的优点,并将其应用于深度学习网络的结构设计中。

        生成对抗网络。生成式对抗网络(GANs)[16]由生成器和鉴别器两部分组成。它们通过博弈论的最小-最大优化框架相互竞争。gan在真实感图像合成方面取得了优异的成绩。许多研究人员将对抗损失用于各种低级视觉任务,如图像到图像的翻译[20,29]、超分辨率[24]、单幅图像去雾[11]和图像脱雾[48]。

3. 方法

        在本节中,我们首先描述整个网络架构(如图2所示),并解释双分支设计的意义。然后,我们介绍了离散小波变换(DWT)的概念,并分析了在主干中使用DWT的好处。最后,我们进一步论证了在训练阶段所采用的损失函数。

图2:所提方法的网络结构。该生成器是一个双分支网络,由DWT分支和知识适应分支组成。在立方体中使用相同的颜色表示相同的操作。

图3:左:DWT下采样模块。右:DWT上采样模块。

3.1.网络架构

        双分支设计的网络已成功应用于各种计算机视觉任务中[44,25]。通过使用这种体系结构,每个网络分支都可以有自己的信息处理过程,并从相同的输入中提取不同的表示。由此可见,如果我们能够明智地利用这些不同的信息,并通过适当的融合策略使它们相互补充,那么来自两个分支的充分和全面的信息可以大大提高图像去雾的性能。基于这一思想,我们设计了一个双分支神经网络。

        DWT分支。我们的第一个分支,即DWT分支(如图2所示),旨在直接学习从模糊图像到无模糊图像的颜色映射。为了实现这一点,我们遵循U-Net[39]来构建DWT分支。它有一个编码器,一个解码器,在每个特征尺度上都有大量的跳过连接。为了满足我们在去雾过程中保留更多纹理细节的要求,我们提出在特征提取阶段使用离散小波变换(DWT)。由于输入特征映射可以通过DWT分解为低频和高频分量(详细说明请参见3.2节),因此我们的网络可以强制从高频和低频分量中学习。如图3所示,低频分量作为下采样特征与卷积输出相连接,高频分量通过跳跃式连接加入到DWT上采样模块。这样,我们的网络不仅从空间域和频率域学习了丰富的信息,而且通过高频跳过连接保留了良好的图像细节。

        然而,由于非均匀除雾任务的数据有限,仅依靠DWT分支很难达到合理的性能。为了在小规模数据集上获得更好的性能,我们引入了第二个分支来进一步利用额外的知识。

        知识适应分支。我们的第二个分支,即知识适应分支(如图2所示),专注于将图像分类获得的先验知识应用到当前的去雾任务中。它利用迁移学习的力量[12,46],并为小数据集带来额外的信息。为了实现这一点,我们使用ImageNet[10]预训练的Res2Net[15]作为编码器的主干。在解码器模块中,我们使用pixel-shuffle层进行上采样,减少了计算负荷[40],使特征图的大小逐渐恢复到原始分辨率。此外,受[36]的启发,在每个pixel-shuffle层之后使用注意块来识别动态模糊模式。最后,在编码器和解码器之间增加了多个跳跃连接,如图2所示。这样,我们的DW-GAN变得更加鲁棒,具有更好的泛化能力。

        最后,我们添加一个简单的7 × 7卷积层作为融合操作,将两个分支的组合特征映射到清晰的图像。

3.2.离散小波变换

        在二维离散小波变换中,有四个滤波器,即低通滤波器f_{LL}和高通滤波器 f_{LH}f_{HL}f_{HH}。这些滤波器具有固定参数,在变换过程中进行第 2 步卷积操作。因此,通过对每个滤波器进行卷积,可以将图像或特征图分解成四个子带,即 x_{LL}x_{LH}x_{HL}x_{HH}:我们可以将 x_{LL}表示为 (f_{LL} \circledast x) ↓2,其中\circledast表示卷积运算,x 表示输入信号,↓2 表示按比例因子 2 向下采样。在我们提出的方法中嵌入了 Haar DWT [32],其中f_{LL} =\begin{pmatrix} 1 &1 \\ 1&1 \end{pmatrix}f_{LH}=\begin{pmatrix} -1 &-1 \\ 1& 1 \end{pmatrix} ,fHL = \begin{pmatrix} -1 &1 \\ -1& 1 \end{pmatrix},fHH =\begin{pmatrix} 1 &-1 \\ -1& 1 \end{pmatrix}。二维 Haar 小波变换后x_{LL} 的 (i, j) -th 值可定义为

x_{LH}x_{HL}x_{HH} 的表达式与 x_{LL}相似。通过使用 DWT,我们可以获得保留模糊图像细节的频域知识,尤其是从 x_{LH}x_{HL}x_{HH}中。然而,仅使用 DWT 来对图像进行去噪处理是不够的。因此,我们将这些频域操作与卷积结合起来,使网络能够同时从空间和频率信息中学习。实验结果表明,使用 DWT 方法有很大改进(详见第 4.3 节)。

3.3. 损失函数

        我们用\hat{I} 表示去雾图像。I^{gt}I^{hazy} 分别是地面实况图像和灰度图像。双分支去雾网络和判别器分别表示为 G 和 D。

        平滑 L1 损失\hat{I}_{c(i)}I_{c}^{gt}(i)分别表示去雾图像和地面实况图像中像素 i 的第 c 个通道的强度,N 表示像素总数。平滑 L1 Loss 可定义为

        感知损失。除了像素监督外,我们还使用在 ImageNet [10] 上预先训练好的 VGG16 [41] 作为损失网络来衡量感知相似性。损失函数定义如下

其中,H^{_{j}}W_{j}C_{j}分别表示主干网络第 j 层特征图的高度、宽度和通道,φj 是第 j 层的激活度。I^{_{gt}}\hat{I}分别是地面实况图像和我们的去雾结果。

        MS-SSIM 损失。让 O 和 G 分别表示去雾图像和无雾图像中以像素 i 为中心的两个大小相同的窗口。对 O 和 G 使用高斯滤波器,并计算所得到的均值 µO;µG;标准偏差 σO;σG1 和协方差 σOG:像素 i 的 SSIM 定义为

其中,l(i) 表示亮度,cs(i) 表示收缩和结构度量,C1,C2 是两个变量,用于稳定弱分母除法。MS-SSIM 损失使用 M 级 SSIM 计算。具体来说,我们有

α 和 βm 为默认参数。

        对抗损失 对抗损失 L^{_{adv}} 是根据所有训练样本的判别器 D(G(I朦胧))的概率定义的:

这里,D(G(I^{hazy})) 是重建图像 G(I^{hazy}) 成为无雾霾图像的概率。

总损失 我们将平滑 L1 损失、感知损失、MS-SSIM 损失和对抗损失结合在一起,以监督去雾网络的训练。

其中,α = 0:2、β = 0:001 和 γ = 0:005 是每个损失函数的超参数权重。

4. 实验

        在本节中,我们首先描述了用于评估我们提出的方法的有效性的数据集。其次,我们介绍了我们的实验设置,即实施细节和评估指标。然后,我们进行了消融研究,以说明DW-GAN中每个组件的优势。之后,最后将该方法与已有的方法进行了定性和定量的比较,我们将在NTIRE 2021非均匀去雾挑战赛中展示我们的数据预处理方法和去雾结果。

4.1.数据集

        RESIDE Benchmark。RESIDE[27]的室内训练集(ITS)包含1399张干净图像和13990张模糊图像,这些图像由相应的干净图像生成,其中中等消光系数β从[0:6; 1:8]中均匀选择,全局大气光A从[0:7; 1:0]中均匀选择。我们使用ITS来训练我们的网络。测试采用了包含500个室内图像对的综合目标测试集(SOTS)。

        真实世界的数据集。我们进一步评估我们在三个小规模真实世界数据集上的性能:DENSEHAZE [1],NH-HAZE [3,2]和NH-HAZE 2 [4]。DENSEHAZE的特征是密集和均匀的朦胧场景。它包含45个训练数据,5个验证数据和5个测试数据。在我们的工作中,我们使用官方测试数据进行评估,并将官方训练集和评估集结合联合收割机来训练我们的模型。NH-HAZE包含45个训练数据,5个验证数据和5个测试数据。这个数据集中的雾模式是不均匀分布的。我们使用50个训练对和5个验证对作为训练集,使用5个测试对作为测试集。NTIRE 2021去雾挑战中引入了NH-HAZE 2。它只包含25个训练数据,5个验证数据和5个测试数据。因为验证和测试集目前还不是公开的,我们使用图像1-20作为训练集,21-25作为测试集。

4.2.实验设置

        尽管每个数据集的特征各不相同,但我们对所有数据集采用了相同的训练策略,具体地说,我们随机裁剪了大小为256 × 256的补丁。为了扩充训练数据,我们实现了随机旋转(90、180或270度)和随机水平翻转。我们用16的批量大小训练DW-NET并使用Adam优化器[22]。(β1=0.9,β2=0.999),在训练过程中,采用了特定的衰减策略,初始学习率设为1 e-4,在3000时衰减0.5倍,在两个NVIDIA 1080Ti图形处理器上进行了实验,实验结果表明,该算法具有较好的鲁棒性和鲁棒性。

        质量测量。为了定量评估我们的方法的性能,我们采用了两个常用的度量:峰值信噪比(Peak Signal to Noise Ratio,PSNR)和结构相似性(Structural Similarity Index,SSIM)[45]。

4.3.消融研究

        首先,我们进行了全面的消融研究,以证明我们提出的方法中每个组件的必要性。根据消融原理,我们构建了四个不同的网络来说明每个模块的重要性。(1)vanilla DWT分支:只使用vanilla DWT分支,而不使用DWT下采样模块和高频跳跃连接。(2)知识适应分支:(3)两分支:采用两分支结构,由普通小波变换分支和知识自适应分支组成;(4)两分支+小波变换:采用两分支结构,在小波变换分支中嵌入小波变换下采样和上采样模块。

表1:架构和损失函数的消融研究。可以观察到,具有所有组件并由所有损失函数监督的模型在PSNR和SSIM方面表现最好。

        从表1的顶部,我们可以观察到,使用两个分支结构可以显著提高我们在PSNR和SSIM方面的性能(通过比较(1),这是因为双分支网络不仅可以通过普通小波变换分支直接学习模糊图像对和无模糊图像对之间的映射,而且可以适应预处理,通过知识自适应分支将学习到的知识应用到当前任务中。为了证明离散小波变换的有效性,我们比较了两个分支网络采用离散小波变换和不采用离散小波变换的情况。通过观察(3)和(4)的性能,我们可以得出结论,小波变换在提高PSNR和SSIM方面起着重要的作用,SSIM的增加也表明频域信息对于恢复纹理细节是必不可少的。

        此外,我们进一步说明了本工作中所采用的损失函数的重要性。从表1的第四到第七行可以看出,每一种损失都是有效的,对提高PSNR和SSIM至关重要。平滑L1损失提供了逐像素的监督,感知损失让输出在深特征空间中与地面真实值趋于一致,MS-SSIM损失用于最小化结构相似性误差,GAN损失进一步改善输出结果。通过在训练阶段集成所有损失,我们的模型获得了最佳性能(见表1的最后一行)。

4.4.与最先进方法的比较

        我们在合成数据集和真实数据集上将所提出的方法与最先进的方法进行了比较。这些SOTA方法包括DCP [19],AOD-Net [26],GCANet [8],FFA [36]和TDN [28]。TDN是NTIRE 2020非均匀去雾挑战赛的赢家者。

表 2: SOTA 方法与 SOTS、DENSE-HAZE、NH-HAZE、NH-HAZE2 的定量比较。最佳结果以粗体表示,次佳结果以下划线表示。

        定量结果比较。实验结果如表2所示。对于三个真实世界的数据集,我们的方法具有出色的性能,在PSNR和SSIM方面达到最佳。

        值得注意的是,我们的模型在非均匀去雾方面具有一流的性能,并大大超过了排名第二的模型(在NH-HAZE和NH-HAZE 2上分别高出1.07dB和1.54dB)。对于合成数据集,我们的模型的性能略低于FFA。在大规模基准测试中的成功往往需要大量的网络设计。相比之下,我们的目标是建立一个合适的模型,以平衡良好的映射能力和过度拟合。但值得庆幸的是,我们仍然表现得第二好,接近FFA。

        定性的视觉效果比较。我们在图4和图5中展示了定性的结果。DCP在ITS测试集上得到了更亮的结果,而在真实世界的数据集上得到了更蓝的结果。AOD-Net的输出结果在真实世界的数据集上经常遭受严重的颜色失真和不完全的haze去除。尽管GCANet和FFA的表现优于上述两种方法,但它们仍然无法处理雾区。GCANet倾向于生成模糊和颜色失真的图像,并且它无法去除DENSE-HAZE。尽管FFA在ITS上取得了成功,但它在非均匀去雾任务中表现不佳。例如,在NH-HAZE和NH-HAZE 2中,FFA不能有效地去除雾,并产生令人不愉快的伪影。令人惊讶的是,TDN在DENSE-HAZE和NH-HAZE 2中显示出不满意的结果。例如,在DENSE-HAZE数据集上可以观察到去雾图像与地面真实值之间存在较低的颜色偏差,去雾图像的亮度要暗得多,并且在NH-HAZE 2上图像细节恢复得不好。值得指出的是,我们提出的方法在所有数据集上都表现良好,这进一步揭示了我们模型的鲁棒性。可以看出,我们的去雾图像在视觉上令人愉悦,并且最接近地面实况。

        推理时间比较。我们比较了这些 SOTA 方法在使用英伟达 1080Ti GPU 处理一幅 1600 × 1200 图像时的推理时间。如表 3 所示 3 所示,AOD-Net 和 DCP 完成去雾处理所需的时间较短。但是,这两种方法不能有效去除灰霾(详情见第 4.4 节)。与 GCANet、FFA 和 TDN 相比,我们提出的方法耗时更短,这是一个决定性的事实。同时,我们的方法在定性和定量方面都有更好的性能。

表 3:SOTA 方法处理一张 1600 × 1200 图像的推理时间比较。

4.5. NTIRE2021去雾挑战赛

        数据预处理的讨论。NTIRE 2021 Nonhomogeneous Dehazing Challenge仅提供了25个训练对。为了增加训练数据,我们混合了来自NH-HAZE的图像对,其中包括55个非均匀的模糊图像和清晰的对应图像。然而,NH-HAZE和NH-HAZE 2中的图像在亮度方面存在巨大差异。NH-HAZE中图像的视觉效果要暗得多,为了进一步验证我们的观测结果,我们定量分析了两个数据集的灰度分布(见图6(左))。NH-HAZE中所有无雾图像的平均灰度值为102.30,方差为62.42,而在NH-HAZE 2中,统计值分别为131.45和57.45。由于亮度的差异,如果我们简单地采用NH-HAZE训练的模型作为额外的数据来恢复NH-HAZE 2中的模糊图像,这些去雾图像的平均亮度应该低于131.45,高于102.3。不准确的亮度估计可能会导致性能不满意。为了减少两个数据集之间的亮度差异,对NH-HAZE图像进行灰度校正,当gamma值为0.65时,NH-HAZE图像的平均灰度值变为133.30,方差变为57.78。NH-HAZE的灰度级分布与NH-HAZE 2的灰度级分布更相似(如图6(中间)所示),并且两个数据集的色调风格更接近。        

图 6:左:未进行伽马校正的数据分布对比。中图:经过伽马校正的数据分布对比。右图:NH-HAZE 中伽马校正后的清晰图像。

        在 NTIRE2021 Dehazing Challenge 上的表现。从报告结果[4]来看,我们的 DW-GAN 在 PSNR 和 SSIM 方面均名列前茅。具体来说,我们的去雾结果达到了合理的 PSNR(21.08dB)和 SSIM(0.8393)。为了直观地展示我们的性能,我们在图中展示了 DW-GAN 的测试结果。1. 从图中可以看出,我们的 DW-GAN 可以去除大部分雾度,并生成视觉上令人愉悦的结果。不过,我们仍然可以在图 1 中找到一个失败案例(第三幅图像)。我们在今后的工作中将考虑进一步开发一种方法来处理这些严重的雾霾区域。

4.6. 结论

        本文提出了一种用于单幅图像去雾的新型生成式对抗网络,即 DW-GAN。DWT 分支直接学习从有雾到无雾的图像映射,并利用离散小波变换的强大功能帮助网络获取更多频域信息。知识适应分支通过使用预先训练好的 Res2Net 作为编码器来利用先验知识。从异构任务(即图像分类)中引入额外信息来补充小规模数据集,这使得我们的 DWGAN 在处理有限的真实世界数据时更加稳健。广泛的实验结果表明,DW-GAN 在合成数据集、具有浓雾和非均匀雾度的真实世界场景中都有出色的表现。


网站公告

今日签到

点亮在社区的每一天
去签到