论文阅读-ZeroDCE和ZeroDCE++

发布于:2025-08-10 ⋅ 阅读:(21) ⋅ 点赞:(0)

1 概述

本文提出了名为Zero-DCE的图像亮度增强方法,速度很快,泛化能力很强。作者训练了一个轻量级深度网络DCENet,用于对给定图像进行高阶曲线参数估计,每个像素会估计一个高阶曲线,用于调整每个像素的亮度。该曲线估计方法经过专门设计,充分考虑了像素值范围、单调性和可微性等特性。
Zero-DCE的优势在于其对参考图像的宽松假设:训练过程中既不需要配对数据也不需要非配对数据,整个是一个无监督的过程。

2 模块

2.1 总体说明

图2-1展示了ZeroDCE的网络架构。该框架通过设计深度曲线估计网络(DCE-Net),能够根据输入图像生成一组最佳拟合的亮度增强曲线(LE曲线)。随后,系统通过迭代应用这些曲线对输入图像的RGB通道所有像素进行映射处理,最终获得增强后的图像。
ZeroDCE网络框架

图2-1 ZeroDCE网络架构

2.2 LE曲线(Light Enhance Curve)

作者尝试设计一种能够自动将低光图像映射到增强版本的自适应曲线。该曲线参数完全依赖输入图像,其设计包含三个目标:
1)增强图像的每个像素值应保持在[0,1]的标准化范围内,避免因溢出截断导致的信息丢失;
2)曲线需保持单调性以保留相邻像素间的对比度差异;
3)曲线形态应尽可能简洁,并在梯度反向传播过程中保持可微性。
作者根据这三个目标设计的曲线为

L E ( I ( x ) ; α ) = I ( x ) + α I ( x ) ( 1 − I ( x ) ) (2-1) LE(I(x);\alpha) = I(x) + \alpha I(x) (1 - I(x)) \tag{2-1} LE(I(x);α)=I(x)+αI(x)(1I(x))(2-1)

其中, x x x表示像素坐标; I ( x ) I(x) I(x)为原始的像素值;已经被归一化为 [ 0 , 1 ] [0, 1] [0,1] L E ( I ( x ) ; α ) LE(I(x);\alpha) LE(I(x);α)为亮度增强后的像素值; α ∈ [ − 1 , 1 ] \alpha \in [-1, 1] α[1,1]是训练得到的参数,每个像素位置不同。
作者将LE曲线分别单独应用于RGB通道,而不仅仅是在照明通道上应用。这种三通道调整可以更好地保留固有颜色,减少过饱和的风险。
图2-1(b)展示了不同 α \alpha α下像素的映射关系。显然,LE曲线符合上述三个目标。此外,LE曲线使我们能够增加或减少输入图像的动态范围。这一功能不仅有助于增强低光区域,还有助于消除过曝伪影。
从图2-1(b)中不难看出,当 α = 1 \alpha=1 α=1时,原先为0.2的值会被映射到0.4左右;当 α = − 1 \alpha=-1 α=1时,原先为0.2的值会被映射到0.05左右。可见LE曲线既可以增强亮度,也可以减弱亮度,结果取决于模型预测的 α \alpha α值大小。
式2-1所示的LE曲线可以经过多次迭代得到更高阶的曲线,有很强的非线性表达能力。

L E n ( x ) = L E n − 1 ( x ) + α n L E n − 1 ( x ) ( 1 − L E n − 1 ( x ) ) (2-2) LE_n(x) = LE_{n-1}(x) + \alpha_n LE_{n-1}(x)(1 - LE_{n-1}(x)) \tag{2-2} LEn(x)=LEn1(x)+αnLEn1(x)(1LEn1(x))(2-2)

其中, n n n表示迭代的次数,在本文中 n = 8 n=8 n=8
图2-1©展示了当 α 1 = α 2 = α 3 = − 1 \alpha_1=\alpha_2=\alpha_3=-1 α1=α2=α3=1时, α 4 \alpha_4 α4取不同值时的 L E 4 ( x ) LE_4(x) LE4(x)曲线。这是为了展示其非线性表达能力。
高阶曲线能够调整图像在更宽动态范围内的表现。然而,由于 α α α参数应用于所有像素,这种全局调整仍存在局限性——容易导致局部区域过度或不足增强。为解决这一问题,作者将α参数化为逐像素的配置方案,即给定输入图像中每个像素都对应一条最佳拟合的动态范围调节曲线。因此,式2-2可重新表述为

L E n ( x ) = L E n − 1 ( x ) + A n ( x ) L E n − 1 ( x ) ( 1 − L E n − 1 ( x ) ) (2-3) LE_n(x) = LE_{n-1}(x) + A_n(x) LE_{n-1}(x)(1 - LE_{n-1}(x)) \tag{2-3} LEn(x)=LEn1(x)+An(x)LEn1(x)(1LEn1(x))(2-3)

其中, A A A为参数矩阵图。
作者假设局部区域内的像素具有相同的强度(以及相同的调整曲线),因此输出结果中的相邻像素仍能保持单调关系。通过这种方式,像素级的高阶曲线也符合三个目标。
作者在图2-2中展示了三个通道的估计曲线参数图示例。不同通道的最佳拟合参数图虽然调整趋势相似,但数值存在差异,这表明低光图像的三个通道具有相关性与差异性。曲线参数图精准呈现了不同区域的亮度特征(例如墙面上的两处反光点)。通过这些拟合图,可直接进行像素级曲线映射生成增强版图像。如图2-2(e)所示,增强版图像能清晰呈现暗部内容并保留亮部细节。
像素级别曲线参数图例子

图2-2 像素级别曲线参数图例子

在可视化方面,作者对所有迭代( n = 8 n=8 n=8)的曲线参数图进行平均,并将数值归一化到 [ 0 , 1 ] [0,1] [0,1]范围内。 A n R A_n^R AnR A n G A_n^G AnG A n B A_n^B AnB分别表示RGB三个通道的最佳LE曲线参数,通过热力图进行可视化。

2.3 DCE-Net

为实现输入图像与其最佳拟合曲线参数图之间的映射关系,作者提出了一种深度曲线估计网络(DCE-Net)。该网络以低光图像作为输入,输出对应高阶曲线的像素级参数图。
DCE-Net的详细架构不是重点,这里不进行详述,可参考图2-3。需要注意的是,作者去除了破坏相邻像素关联性的下采样和批量归一化层。然后,对于尺寸为256×256×3的输入图像,该网络仅需79,416个可训练参数和5.21G次浮点运算量,因此具有轻量化特性,适用于移动平台等计算资源受限的设备。

DCE-Net网络结构图

图2-3 DCE-Net网络结构图

2.4 无监督损失

亮度增强训练的数据对难以获得,因此作者设计了四个不需要真值的损失函数,用于评价经过网络后生成的图像的亮度。

2.4.1 空间一致性损失

空间一致性损失 L s p a L_{spa} Lspa通过保留输入图像与其增强版本之间相邻区域的差异,促进了增强图像的空间一致性。

L s p a = 1 K ∑ i = 1 K ∑ j ∈ Ω ( i ) ( ∣ ( Y i − Y j ) ∣ − ∣ ( I i − I j ) ∣ ) 2 (2-4) L_{spa} = \frac{1}{K} \sum^K_{i=1} \sum_{j \in \Omega(i)} (|(Y_i - Y_j)| - |(I_i - I_j)|)^2 \tag{2-4} Lspa=K1i=1KjΩ(i)((YiYj)(IiIj))2(2-4)

其中, K K K表示局部区域的数量, Ω ( i ) Ω(i) (i)代表以该区域为中心的四个相邻区域(上方、下方、左侧、右侧)。分别用 Y Y Y I I I表示增强版图像与原始输入图像中对应局部区域的平均强度值。实验中作者经验性地将局部区域尺寸设定为4×4。该损失函数在其他区域尺寸条件下保持稳定。

空间一致性损失示意图

图2-4 空间一致性损失示意图

2.4.2 曝光控制损失

为抑制欠曝光/过曝光区域,作者设计了曝光控制损失函数 L e x p L_{exp} Lexp来调控曝光水平。该损失函数通过测量局部区域平均亮度值与最佳曝光度E之间的距离进行评估。作者参照现有研究将E设定为RGB色彩空间中的灰度级别。实验中将E设为0.6,作者实验发现在[0.4,0.7]范围内调整E值并未显著影响性能表现。
该损失函数 L e x p L_{exp} Lexp可表示为

L e x p = 1 M ∑ k = 1 M ∣ Y k − E ∣ (2-5) L_{exp} = \frac{1}{M} \sum^M_{k=1} |Y_k - E| \tag{2-5} Lexp=M1k=1MYkE(2-5)

其中M表示大小为16×16的非重叠局部区域的数量,Y是增强图像中局部区域的平均强度值。
取不同的 E E E进行训练的效果如下图2-5所示。
不同E的效果对比

图2-5 不同E的效果对比

2.4.3 颜色恒定损失

根据灰度世界颜色恒定性假设(该假设认为每个传感器通道的颜色在整个图像中平均为灰色),设计了颜色恒定性损失函数,用于校正增强图像中可能出现的颜色偏差,并建立三个调整后的通道之间的关联关系。颜色恒定性损失函数 L c o l L_{col} Lcol可表示为

L c o l = ∑ ∀ ( p , q ) ∈ ϵ ( J p − J q ) 2 , ϵ = { ( R , G ) , ( R , B ) , ( G , B ) } (2-6) L_{col} = \sum_{\forall (p,q) \in \epsilon} (J^p - J^q)^2, \epsilon = \{(R,G), (R,B), (G,B)\} \tag{2-6} Lcol=(p,q)ϵ(JpJq)2,ϵ={(R,G),(R,B),(G,B)}(2-6)

其中, J p J_p Jp表示增强图像中 p p p通道的平均强度值, ( p , q ) (p,q) (p,q)表示一对通道。

2.4.4 照明平滑度损失

为了保持相邻像素之间的单调性关系,也就是相邻像素之间的变化尽可能一致,作者在每个曲线参数图 A A A中添加了一个光照平滑损失。光照平滑损失 L t v A L_{tvA} LtvA的定义为

L t v A = 1 N ∑ n = 1 N ∑ c ∈ ξ ( ∣ ∇ x A n c ∣ + ∣ ∇ y A n c ∣ ) 2 , ξ = { R , G , B } (2-7) L_{tvA} = \frac{1}{N}\sum^N_{n=1} \sum_{c \in \xi} (|\nabla_xA_n^c| + |\nabla_yA_n^c|)^2, \xi = \{R,G,B\} \tag{2-7} LtvA=N1n=1Ncξ(xAnc+yAnc)2,ξ={R,G,B}(2-7)

其中, N N N是迭代次数, ∇ x \nabla_x x ∇ y \nabla_y y分别表示水平和垂直梯度算子。

2.5 ZeroDCE++

ZeroDCE++只是轻量化了模型,效果还是ZeroDCE更好
为了进一步轻量化模型,作者深入研究了增强性能与网络结构、曲线估计及输入尺寸之间的关系。研究发现:
1)DCE-Net中使用的卷积层可替换为更高效的深度可分离卷积,可在不显著影响性能的前提下减少网络参数;
2)不同迭代阶段(Zero-DCE共八次迭代)的曲线参数估计结果大多相似。图2-6展示了不同迭代阶段的曲线参数估计图及其差异图对比。观察发现,曲线参数图具有高度一致性,差异图中的数值差异微乎其微。这些结果表明,曲线参数图可在多数情况下重复使用于不同迭代阶段,因此可将曲线参数估计图数量从24个精简至3个;
不同迭代阶段估计的曲线参数

图2-6 不同迭代阶段估计的曲线参数

3)本文的方法对输入图像尺寸不敏感。因此,可采用降采样的输入作为曲线参数估计网络的输入,再将估计的曲线参数图上采样回原始分辨率进行图像增强。低分辨率输入能显著降低计算成本。
基于上述发现,我们从三个方面对Zero-DCE进行了改进。
第一,通过将卷积层替换为深度可分离卷积来重新设计DCE-Net,从而减少网络参数。每个深度可分离卷积层由两部分组成:首先是步长为1的3×3深度卷积,其次是步长同样为1的1×1逐点卷积。
第二,重新构建曲线估计模型,仅需估算3个曲线参数图,然后在不同迭代阶段重复使用这些参数,而无需像传统方法那样在八次迭代中估算24个参数图。因此,方程2-3可重新表述为

L E n ( x ) = L E n − 1 ( x ) + A ( x ) L E n − 1 ( x ) ( 1 − L E n − 1 ( x ) ) (2-8) LE_n(x) = LE_{n-1}(x) + A(x) LE_{n-1}(x)(1 - LE_{n-1}(x)) \tag{2-8} LEn(x)=LEn1(x)+A(x)LEn1(x)(1LEn1(x))(2-8)

第三,可以将降采样后的图像作为网络输入来估计曲线参数图。默认情况下,在Zero-DCE++中将输入图像按12倍比例降采样,以平衡增强效果与计算成本。即使采用极端降采样比例,本文的方法仍能保持良好性能。具体原因简要说明如下:首先,虽然本文使用降采样后的输入来估计曲线参数,但基于局部区域像素具有相同强度(以及相同调整曲线)的假设,会将缩小后的曲线参数图重新调整至与原始输入图像相同的尺寸。从输入图像到增强图像的映射是在原始分辨率下完成的。其次,提出的空间一致性损失函数促使结果保留输入图像的内容特征。第三,本框架采用的是区域级而非像素级的损失函数。
不同下采样比例的效果对比

图2-7 不同下采样比例的效果对比

这些修改使Zero-DCE++具有微小的网络(10K可训练参数,0.115G FLOPs用于大小为1200×900×3的图像),实时推理速度(在单个GPU/CPU上对大小为1200×900×3的图像进行推理时为1000/11 FPS)和快速训练(20分钟)等优点。

3 效果

3.1 不同损失函数组合的效果

图3-1中展示了采用不同损失函数组合训练的ZeroDCE模型效果。
无空间一致性损失 L s p a L_{spa} Lspa时,对比度表现(如云层区域)明显逊色于完整模型。这表明 L s p a L_{spa} Lspa在保留输入图像与增强图像相邻区域差异方面具有关键作用。
无曝光控制损失 L e x p L_{exp} Lexp,则无法有效恢复低光区域细节。
无颜色恒定性损失 L c o l L_{col} Lcol时,会出现严重的色彩偏移现象。该变体在应用曲线映射时忽略了三个通道间的关联性。
无光照平滑性损失 L t v A L_{tvA} LtvA会破坏相邻区域间的关联性,导致明显的伪影生成。

不同损失效果

图3-1 不同损失效果

3.2 参数设置影响

图3-2表示了在不同的参数设置下训练得到的模型效果, l − f − n l-f-n lfn分别表示 l l l层卷积, f f f表示特征图的通道数, n n n表示迭代次数。
在图3-2(b)中,仅需3个卷积层的 Z e r o − D C E 3 − 32 − 8 Zero-DCE_{3−32−8} ZeroDCE3328模型就能取得令人满意的效果。 Z e r o − D C E 7 − 32 − 8 Zero-DCE_{7−32−8} ZeroDCE7328 Z e r o D C E 7 − 32 − 16 ZeroDCE_{7−32−16} ZeroDCE73216模型在视觉效果上表现最佳,展现出自然曝光与恰当对比度。当迭代次数减少至1次时,如图3-2(d)所示, Z e r o − D C E 7 − 32 − 1 Zero-DCE_{7−32−1} ZeroDCE7321模型的性能出现明显下降。这是因为单次迭代的曲线调整能力有限,说明本文的方法需要采用更高阶的曲线模型。综合考虑效率与修复效果之间的平衡,最终选定 Z e r o − D C E 7 − 32 − 8 Zero-DCE_{7−32−8} ZeroDCE7328作为最优模型。
不同参数设置效果

图3-2 不同参数设置效果

3.3 训练数据的影响

为测试训练数据的影响,作者对Zero-DCE模型进行了不同数据集的再训练:
1)仅使用原始训练集中2422张图像中的900张低光图像( Z e r o − D C E L o w Zero-DCE_{Low} ZeroDCELow
2)采用DARK FACE数据集提供的9000张未标注低光图像( Z e r o D C E L a r g e L ZeroDCE_{LargeL} ZeroDCELargeL
3)使用SICE数据集中Part1和Part2子集经过数据增强组合后的4800张多曝光图像( Z e r o − D C E L a r g e L H Zero-DCE_{LargeLH} ZeroDCELargeLH
如图3-3©和(d)所示,在剔除过曝训练数据后,Zero-DCE即使使用更多低光图像(即 Z e r o D C E L a r g e L ZeroDCE_{LargeL} ZeroDCELargeL),仍倾向于过度增强明亮区域(如人脸)。这些结果表明,在网络训练过程中使用多曝光训练数据具有合理性和必要性
此外,当使用多种曝光训练数据时(即 Z e r o − D C E L a r g e L H Zero-DCE_{LargeLH} ZeroDCELargeLH),Zero-DCE能更好地恢复暗部区域,如图3-3(e)所示。

不同训练数据的效果

图3-3 不同训练数据的效果

3.4 不同模型效果对比

不同模型之间的可视化效果对比可见图3-4。
不同模型可视化效果对比

图3-4 不同模型可视化效果对比

不同模型之间的指标对比可见表3-1。
不同模型之间的指标对比

表3-1 不同模型之间的指标对比

不同模型之间的速度对比可见表3-2。
不同模型之间的速度对比

表3-2 不同模型之间的速度对比

参考文献

[1] Zero-Reference Deep Curve Estimation for Low-Light Image Enhancement
[2] Learning to Enhance Low-Light Image via Zero-Reference Deep Curve Estimation


网站公告

今日签到

点亮在社区的每一天
去签到