一、微步卷积
微步卷积(Fractionally Strided Convolution),通常也称为转置卷积(Transposed Convolution)或反卷积(Deconvolution),是深度学习(尤其是卷积神经网络,CNN)中用于上采样(Upsampling)或特征图尺寸恢复的关键操作。它的核心目的是通过卷积操作将较小的特征图(低分辨率)扩展为更大的特征图(高分辨率)。
1. 微步卷积的核心思想
在普通卷积中,步长(stride)决定了卷积核移动的间隔。例如,步长=2时,每次移动2个像素,输出特征图的尺寸会缩小。而微步卷积的步长可以视为小于1(例如步长=0.5),这实际上是一种数学上的逆向操作,目的是通过卷积核的“反向滑动”来放大特征图。
直观理解:如果普通卷积是“压缩”信息,微步卷积则是“恢复”或“扩展”信息。
应用场景:图像分割(如U-Net)、生成对抗网络(GAN)、超分辨率重建等需要上采样的任务。
2. 微步卷积的原理
输入与输出的尺寸关系
普通卷积的输出尺寸公式为:
而微步卷积的输出尺寸公式为:
这里的“步长”实际上是一个分数(如0.5),对应转置卷积中的步长>1(如2)。
实现方式
微步卷积通过以下步骤实现上采样:
插入空白(或填充):在输入特征图的元素之间插入零(或插值)以扩大尺寸。
普通卷积操作:对扩展后的特征图执行普通卷积(步长=1)。
例如,输入尺寸为 4×4,若希望输出尺寸为 8×8,可以通过插入零将输入扩展为 7×7(步长=2),再使用卷积核完成填充。
3. 微步卷积的直观示例
假设输入是一个 2×2 的矩阵,微步卷积的步长=2(即分数步长=0.5):
插入零:在输入元素之间插入零,得到一个 3×3 的矩阵。
卷积操作:对扩展后的矩阵应用步长=1的普通卷积。
最终输出尺寸会被放大,具体取决于卷积核大小和填充方式。
4. 微步卷积的应用
图像生成(GAN):生成器网络通过微步卷积从低维潜在向量生成高分辨率图像。
语义分割(如U-Net):解码器部分通过微步卷积恢复空间分辨率,实现像素级分类。
超分辨率重建:将低分辨率图像上采样为高分辨率图像。
5. 微步卷积的注意事项
棋盘效应(Checkerboard Artifacts):由于插入零的规则性,输出可能产生棋盘状伪影。解决方法包括使用可学习的上采样(如PixelShuffle)或调整卷积核大小。
与反卷积的区别:数学上的反卷积是卷积的逆运算,而微步卷积(转置卷积)仅是正向卷积的转置操作,并非严格的逆运算。
初始化:微步卷积的权重需要合理初始化,以避免训练不稳定。
总结
微步卷积通过反向步长和填充机制实现上采样,是深度学习模型中对空间信息恢复的核心工具。它的核心价值在于允许网络自动学习如何从低分辨率特征重建高分辨率信息,广泛应用于生成模型和密集预测任务。
二、空洞卷积
空洞卷积(Dilated Convolution),也称为膨胀卷积或带孔卷积(Atrous Convolution),是卷积神经网络中一种特殊的卷积操作,旨在扩大感受野(Receptive Field)而不增加参数量或降低特征图分辨率。它通过引入“膨胀率”(Dilation Rate)来控制卷积核的稀疏性,从而高效捕获多尺度上下文信息。
1. 空洞卷积的核心思想
普通卷积的局限:传统卷积通过堆叠多层或增大卷积核尺寸来扩大感受野,但这会导致参数量增加或特征图分辨率下降(通过池化)。
空洞卷积的改进:在卷积核的权重之间插入“空洞”(间隔),使卷积核覆盖更大的区域,同时保持参数数量不变。
膨胀率(Dilation Rate):定义卷积核元素之间的间隔。例如,膨胀率=2时,3×3的卷积核实际覆盖的区域为5×5)。
2. 空洞卷积的数学原理
普通卷积核的覆盖范围:
3×3卷积核的覆盖范围为3×3(膨胀率=1)。空洞卷积的覆盖范围:
(k+(k−1)(r−1))×(k+(k−1)(r−1))
膨胀率=r时,实际覆盖范围大小为:其中,k为原始卷积核尺寸。
例如,3×3卷积核膨胀率=2时,覆盖范围=3 + 2×(3−1) = 5×5。输出尺寸公式:
输入尺寸为H×W时,空洞卷积的输出尺寸为:- 其中,p为填充(padding),s为步长(stride)。
3. 空洞卷积的直观示例
假设输入是一个7×7的矩阵,使用3×3卷积核,膨胀率=2:
膨胀后的卷积核:原始3×3的核元素之间插入1个零(间隔为2),实际覆盖5×5区域。
计算方式:仅对非零位置的权重进行乘加运算,忽略空洞位置的零值。
输出结果:感受野显著增大,但参数量仍为3×3=9(与普通3×3卷积相同)。
4. 空洞卷积的应用场景
(1)多尺度特征融合
语义分割(如DeepLab系列):通过不同膨胀率的空洞卷积并行捕获多尺度上下文信息(如ASPP模块)。
示例:膨胀率=1, 6, 12, 18的卷积核并行使用,覆盖不同范围的上下文。
(2)保持高分辨率特征图
实时图像处理:避免池化导致的分辨率损失,直接在高分辨率特征图上进行密集预测。
(3)序列建模
WaveNet:利用空洞卷积堆叠(膨胀率指数增长)捕获长距离时序依赖,用于音频生成。
5. 空洞卷积的优缺点
优点:
增大感受野不增加参数量:相比普通卷积或池化,更高效。
保持分辨率:无需下采样,适合密集预测任务(如分割、检测)。
灵活的多尺度设计:通过组合不同膨胀率捕获局部和全局特征。
缺点:
局部信息丢失:膨胀率过大时,卷积核覆盖的区域可能过于稀疏,导致局部细节丢失。
棋盘效应:高膨胀率下,特征图可能因间隔采样产生棋盘状伪影(需合理设计膨胀率组合)。
6. 空洞卷积与普通卷积的对比
特性 | 普通卷积 | 空洞卷积 |
---|---|---|
感受野 | 由卷积核尺寸和层数决定 | 由膨胀率和卷积核尺寸共同决定 |
分辨率保持 | 可能通过池化降低分辨率 | 通常保持高分辨率 |
参数效率 | 参数量随卷积核尺寸增加 | 参数量固定,仅依赖原始卷积核尺寸 |
适用场景 | 通用特征提取 | 密集预测、长距离依赖建模 |
7. 代码示例(PyTorch)
import torch.nn as nn
# 空洞卷积定义
dilated_conv = nn.Conv2d(
in_channels=3,
out_channels=64,
kernel_size=3,
dilation=2, # 膨胀率=2
padding=2 # 填充需调整以保证输出尺寸
)
# 输入尺寸计算(假设输入为H×W)
H_out = (H + 2*padding - dilation*(kernel_size-1) -1 ) // stride + 1
8. 总结
空洞卷积通过引入膨胀率,在不增加参数量的前提下显著扩大感受野,解决了传统卷积在密集预测任务中感受野不足或分辨率损失的问题。其核心价值在于:
高效捕获多尺度上下文:适用于语义分割、序列建模等任务。
保持特征图分辨率:避免因池化导致的信息丢失。
灵活的参数设计:通过调整膨胀率平衡局部细节与全局语义。