Multi-Stage Progressive Image Restoration论文阅读

发布于:2025-04-01 ⋅ 阅读:(16) ⋅ 点赞:(0)

摘要

图像复原任务在恢复图像时需要在空间细节与高层语境化信息之间取得复杂的平衡。本文提出了一种新颖的协同设计方法,能够最优地平衡这些竞争目标。我们的核心方案是一种多阶段架构,通过逐步学习退化输入的复原函数,将整体恢复过程分解为更易管理的步骤。具体而言,我们的模型首先利用编码器-解码器架构提取语境化特征,随后将其与保留局部信息的高分辨率分支相结合。在每个阶段,我们引入了一种基于原位监督注意力机制的逐像素自适应设计,用于重新加权局部特征。这种多阶段架构的关键在于不同阶段之间的信息交换。为此,我们提出了双管齐下的策略:信息不仅沿早期到后期阶段依次传递,特征处理块之间的横向连接也得以保留以避免信息丢失。由此产生的紧密互联多阶段架构(命名为MPRNet)在包括图像去雨、去模糊和降噪在内的十项任务中取得了显著性能提升。源代码和预训练模型可在https://github.com/swz30/MPRNet获取。

3. 本文提出的方法 —— 多阶段渐进式修复

提出的图像复原框架(如图2所示)包含三个阶段,逐步恢复图像。前两个阶段基于编码器-解码器子网络,通过较大的感受野学习全局上下文信息。由于图像复原是位置敏感的任务(需要输入到输出的像素级对应),最后一个阶段采用直接处理原始输入分辨率的子网络(不进行下采样),从而在最终输出图像中保留所需的精细纹理。

我们没有简单地堆叠多个阶段,而是在每两个阶段之间引入监督注意力模块。借助真实图像的监督,该模块在传递特征图到下一阶段前重新调整其权重。此外,我们提出了一种跨阶段特征融合机制:早期子网络的多尺度上下文特征有助于整合后期子网络的中间特征。

尽管MPRNet堆叠了多个阶段,但每个阶段都能访问输入图像。类似于近期复原方法[70,88],我们在输入图像上采用多块分层策略,将其分割为非重叠图像块:第一阶段4块,第二阶段2块,最后一阶段处理原始图像(如图2所示)。
在这里插入图片描述
在任意给定阶段S,模型预测残差图像R_S,而非直接生成修复图像X_S。通过将退化输入图像I与R_S相加得到最终结果:X_S = I + R_S。我们端到端优化MPRNet,采用以下损失函数:
L = ∑ S = 1 3 [ L c h a r ( X S , Y ) + λ L e d g e ( X S , Y ) ] , \mathcal{L} = \sum_{S=1}^{3} [\mathcal{L}_{char}(\mathbf{X}_S, \mathbf{Y}) + \lambda \mathcal{L}_{edge}(\mathbf{X}_S, \mathbf{Y})], L=S=13[Lchar(XS,Y)+λLedge(XS,Y)],

其中 Y \mathbf{Y} Y为真实图像, L c h a r \mathcal{L}_{char} Lchar为Charbonnier损失[12]:
L c h a r = ∥ X S − Y ∥ 2 + ε 2 , \mathcal{L}_{char} = \sqrt{\|\mathbf{X}_S - \mathbf{Y}\|^2 + \varepsilon^2}, Lchar=XSY2+ε2 ,

实验中经验设置 ε = 1 0 − 3 \varepsilon=10^{-3} ε=103。此外, L e d g e \mathcal{L}_{edge} Ledge为边缘损失,定义为:
L e d g e = ∥ Δ ( X S ) − Δ ( Y ) ∥ 2 + ε 2 , \mathcal{L}_{edge} = \sqrt{\|\Delta(\mathbf{X}_S) - \Delta(\mathbf{Y})\|^2 + \varepsilon^2}, Ledge=∥Δ(XS)Δ(Y)2+ε2 ,

其中 Δ \Delta Δ表示拉普拉斯算子。式(1)中的参数 λ \lambda λ控制两项损失的相对权重,参考[37]设为0.05。接下来我们将详细描述方法的关键组件。


3.1 互补特征处理

现有的单阶段CNN图像复原架构通常采用以下两种设计之一:1)编码器-解码器结构;2)单尺度特征流水线。编码器-解码器网络[7,13,43,65]首先将输入映射到低分辨率表示,再逐步反向映射恢复原始分辨率。虽然这些模型能有效编码多尺度信息,但反复下采样可能导致空间细节丢失。相比之下,单尺度特征流水线方法[6,18,93,97]擅长生成具有精细空间细节的图像,但由于有限的感受野,其语义鲁棒性较差。这表明现有架构存在固有局限性——只能生成空间精确或上下文可靠的输出,无法兼顾两者。

为结合两者的优点,我们提出多阶段框架:早期阶段采用编码器-解码器网络,最后一阶段使用原始分辨率网络。

编码器-解码器子网络:图3a展示了基于标准 U-Net [65] 的子网络结构,包含以下组件:
1)在每个尺度添加通道注意力块(CABs,见图3b)提取特征;
2)U-Net 跳跃连接处的特征图也经过 CAB 处理;
3)解码器中用双线性上采样+卷积替代转置卷积,以减少因转置卷积导致的棋盘效应 [55]。

图 (a) 编码器-解码器子网络;(b) ORSNet子网络中的原始分辨率块(ORB)示意图。每个ORB包含多个通道注意力模块。GAP表示全局平均池化[49];

原始分辨率子网络(ORSNet):为从输入到输出保留精细细节,我们在最后一阶段引入ORSNet(见图2)。该网络不进行下采样,生成空间增强的高分辨率特征。它由多个原始分辨率块(ORBs)组成,每个ORB内部包含CABs(如图3b所示)。

3.2 跨阶段特征融合

在我们的框架中,我们引入了跨阶段特征融合(CSFF)模块,其位置包括两个编码器-解码器之间(见图3c),以及编码器-解码器与原始分辨率子网络(ORSNet)之间(见图3d)。值得注意的是,来自某一阶段的特征在传递到下一阶段进行聚合前,会先通过 1×1 卷积层进行优化。提出的CSFF模块具有以下优势:

  1. 降低信息损耗风险:通过减少编码器-解码器中反复上采样和下采样操作带来的信息损失,使网络更稳健;
  2. 多尺度特征增强:某一阶段的多尺度特征有助于丰富下一阶段的特征表示;
  3. 优化稳定性提升:通过促进信息流动,网络优化过程更加稳定,从而支持整体架构中添加多个阶段。

在这里插入图片描述
图 (c ) 阶段1与阶段2之间的跨阶段特征融合(CSFF);(d) 阶段2与最后阶段之间的跨阶段特征融合(CSFF)。

3.3 监督注意力模块

近期的多阶段图像复原网络[70,88]直接在每个阶段预测一幅图像,并将其传递到下一阶段。相比之下,我们提出了一种监督注意力模块(SAM),其位于每两个阶段之间,有助于显著提升性能。SAM的示意图如图4所示,其贡献体现在两方面:

  1. 提供逐级监督信号:为各阶段的渐进式图像复原过程提供真实值监督信号;
  2. 生成注意力图:通过局部监督预测生成注意力图,抑制当前阶段中不重要的特征,仅允许有用特征传递到下一阶段。

在这里插入图片描述
在这里插入图片描述

实验部分

该论文提出的多阶段渐进式架构(MPRNet)通过协同设计在多个图像复原任务(去雨、去模糊、降噪)中均表现出色,其实验结果验证了其通用性和高效性。以下是核心实验总结:


实验与结果

  1. 多任务性能验证

    • 去模糊:在GoPro数据集上达到 32.66 dB PSNR,比前最佳方法Suin等[70]提升0.81 dB;在真实模糊数据集HIDE和RealBlur中,分别提升0.98 dB和0.66 dB,且参数量仅为DMPHN[88]的50%,速度提升13倍。
    • 去雨:在Rain100L数据集上PSNR达 36.40 dB,比前最佳MSPFN[37]提升4 dB,参数量减少73%,速度提升2.4倍。
    • 降噪:在SIDD数据集上PSNR为 33.64 dB,优于CycleISP[86](33.45 dB),DND数据集上达32.91 dB,超越SADNet[11](32.70 dB)。
  2. 消融实验

    • 模块重要性:移除监督注意力模块(SAM)导致PSNR下降0.42 dB,移除跨阶段特征融合(CSFF)下降0.18 dB,双模块移除则下降0.63 dB。
    • 阶段数影响:从1阶段到3阶段,PSNR逐步提升(29.86→30.49 dB),验证多阶段设计的必要性。
    • 子网络设计:早期阶段用编码器-解码器提取全局特征,后期用原始分辨率子网络(ORSNet)保留细节,此组合效果最佳。
  3. 效率与轻量化

    • 参数与速度:去雨任务参数量仅为MSPFN的1/3.7,去模糊任务参数量比DMPHN少50%,支持实时处理(如RealBlur-J子集推理时间0.18秒)。
    • 阶段灵活性:早期阶段可独立用于低功耗设备(如1阶段PSNR 29.86 dB),接近复杂模型性能。
  4. 可视化与泛化

    • 细节恢复:在去雨案例中有效去除雨纹并保留纹理(如图5),去模糊生成接近真实参考图的清晰结果(图6)。
    • 跨数据集泛化:仅用GoPro训练的模型在RealBlur-R/J上分别优于DMPHN 0.29 dB和0.28 dB,显示对真实场景的适应性。

结构通用性分析

MPRNet的通用性源于其分阶段协同设计

  • 多阶段分解:将复杂任务分解为渐进步骤,早期阶段通过编码器-解码器提取全局上下文,后期通过ORSNet保留局部细节,平衡了不同任务的需求(如去雨需高频细节,去模糊需大感受野)。
  • 动态特征筛选:监督注意力模块(SAM)在每阶段生成注意力图,抑制冗余特征,确保关键信息传递(如降噪中区分噪声与真实纹理)。
  • 跨阶段信息融合:CSFF模块横向连接多尺度特征,减少下采样导致的信息丢失,增强模型对多任务(如雨纹、模糊、噪声)的鲁棒性。

补充:消融实验和结论

4.6 消融实验

本节我们通过消融实验分析模型各组件的贡献。实验基于GoPro数据集[53]进行,采用128×128尺寸的图像块训练去模糊模型,迭代次数为10^5次,结果如表6所示。
在这里插入图片描述

阶段数量的影响:随着阶段数增加,模型性能逐渐提升,验证了多阶段设计的有效性。

子网络选择:由于各阶段可采用不同子网络设计,我们测试了多种组合。结果显示,在早期阶段使用编码器-解码器结构,最后一阶段使用ORSNet(原始分辨率子网络),相比全阶段统一使用U-Net(29.4 dB)或ORSNet(29.53 dB),能获得更优性能(29.7 dB)。

SAM与CSFF的作用:通过移除监督注意力模块(SAM)和跨阶段特征融合机制(CSFF),验证其有效性。表6显示,移除SAM导致PSNR从30.49 dB降至30.07 dB;移除CSFF则降至30.31 dB。两者同时移除时,性能大幅下降至29.86 dB。


5 资源高效图像复原

卷积神经网络(CNN)通常存在准确率与计算效率的权衡。追求更高精度时,往往开发更深、更复杂的模型。尽管大型模型性能优于小型模型,但计算成本可能过高。因此,开发资源高效的图像复原模型具有重要意义。一种解决方案是通过调整网络容量(网络容量指模型的复杂度,通常由参数量、层数、通道数等决定。容量越高,模型表达能力越强,但计算资源(内存、算力)需求也越大)来适应不同目标系统,但这通常繁琐且不可行。更理想的方法是构建单个网络,既能为低功耗系统提供早期预测,又能通过后期预测实现高精度。多阶段复原模型天然具备这种功能。

表7展示了我们的多阶段方法在各阶段的性能。MPRNet 在每一阶段均表现出竞争力:第一阶段模型轻量、快速,性能优于 SRN 和 DeblurGAN-v2 等复杂算法。与近期方法 DMPHN 相比,第二阶段模型在参数量减少约2倍、速度提升13倍的情况下,仍取得 0.51dB 的 PSNR 增益。
在这里插入图片描述
在这里插入图片描述


6 结论

本文提出了一种多阶段渐进式图像复原架构,通过逐阶段注入监督信号逐步优化退化输入。我们提出了互补特征处理原则,要求多阶段协同处理上下文丰富与空间精确的特征。为此,我们引入跨阶段特征融合机制和注意力引导的输出交换策略,确保各阶段间的协同作用。实验表明,该模型在多个基准数据集上取得显著性能提升,同时在模型大小和运行效率方面表现优异,适用于资源受限设备。


完结!!!撒花★,°:.☆( ̄▽ ̄)/$:.°★ ~



网站公告

今日签到

点亮在社区的每一天
去签到