【目标检测】【Transformer】Swin Transformer-EW帮帮网

Swin Transformer： Hierarchical Vision Transformer using Shifted Windows
Swin Transformer：基于移位窗口的分层视觉Transformer

CVPR 2021

在这里插入图片描述

0.论文摘要

本文提出了一种新型视觉Transformer——Swin Transformer，其可作为计算机视觉领域的通用骨干网络。将Transformer从语言领域迁移至视觉领域时，面临两大域间差异的挑战：视觉实体尺度的巨大变化性，以及图像像素相较于文本单词的高分辨率特性。为解决这些问题，我们提出了一种基于移位窗口的分层Transformer架构。该移位窗口方案通过将自注意力计算限制在非重叠局部窗口内来提升效率，同时保留跨窗口连接能力。这种分层架构具有多尺度建模的灵活性，其计算复杂度与图像大小呈线性关系。Swin Transformer在图像分类（ImageNet-1K 87.3% top-1准确率）和密集预测任务（COCO testdev 58.7% 边界框AP/51.1% 掩膜AP，ADE20K val 53.5% mIoU）中均展现出卓越性能，以显著优势超越此前最佳成果（COCO +2.7边界框AP/+2.6掩膜AP，ADE20K +3.2 mIoU），证实了Transformer作为视觉骨干网络的潜力。其分层设计与移位窗口策略对全MLP架构同样具有借鉴价值。

代码链接
 论文链接

1.引言

计算机视觉领域的建模长期以来一直由卷积神经网络（CNN）主导。从AlexNet[39]在ImageNet图像分类挑战中取得突破性性能开始，CNN架构通过更大规模[30,76]、更广泛的连接[34]以及更复杂的卷积形式[70,18,84]不断发展，变得日益强大。随着CNN成为各类视觉任务的主干网络，这些架构上的进步带来了性能提升，从而全面推动了整个领域的发展。

另一方面，自然语言处理（NLP）领域的网络架构演进路径则有所不同，当前主流架构是Transformer[64]。该架构专为序列建模与转导任务设计，其显著特点在于利用注意力机制建模数据中的长程依赖关系。Transformer在语言领域的巨大成功促使研究者探索其在计算机视觉领域的适应性，近期已在图像分类[20]和视觉-语言联合建模[47]等特定任务中展现出优异性能。

在本文中，我们致力于拓展Transformer的适用性，使其能像在自然语言处理领域那样成为计算机视觉的通用主干网络，如同卷积神经网络在视觉领域的地位。我们注意到，将其在语言领域的高性能迁移至视觉领域时存在显著挑战，这主要源于两种模态间的差异。其中一个差异涉及尺度问题：与语言Transformer中作为基本处理单元的单词标记不同，视觉元素可能具有极大的尺度变化，该问题在目标检测等任务中备受关注[42,53,54]。现有基于Transformer的模型[64,20]采用固定尺度的标记，这一特性难以适应视觉应用需求。另一差异是图像像素分辨率远高于文本段落中的单词。语义分割等众多视觉任务需进行像素级密集预测，而Transformer在高分辨率图像上对此类任务的计算不可行，因其自注意力机制的计算复杂度与图像尺寸呈平方关系。

为解决这些问题，我们提出名为Swin Transformer的通用Transformer主干网络，它能构建分层特征图并具有与图像尺寸线性的计算复杂度。如图1(a)所示，Swin Transformer通过从小尺寸图像块（灰色轮廓）出发，并在深层Transformer中逐步合并相邻块，形成分层表示。这种分层特征图结构使得Swin Transformer能便捷地采用特征金字塔网络(FPN)[42]或U-Net[51]等先进密集预测技术。线性计算复杂度通过将图像划分为不重叠窗口（红色轮廓）并在局部计算自注意力实现。由于每个窗口包含固定数量的图像块，复杂度与图像尺寸呈线性关系。这些优势使Swin Transformer适合作为各类视觉任务的通用主干网络，而此前基于Transformer的架构[20]仅能生成单一分辨率特征图且具有平方计算复杂度。

在这里插入图片描述
图1. (a) 提出的Swin Transformer通过合并深层图像块（灰色显示）构建分层特征图，由于仅在各局部窗口（红色显示）内计算自注意力，其计算复杂度与输入图像大小呈线性关系，因此可作为图像分类与密集识别任务的通用骨干网络。(b) 相比之下，先前视觉Transformer[20]生成单一低分辨率特征图，且因全局计算自注意力导致计算复杂度与输入图像大小呈二次方关系。

Swin Transformer的一个关键设计元素是在连续自注意力层之间移动窗口分区，如图2所示。这种窗口偏移机制将前一层的窗口连接起来，通过建立跨窗口的交互显著提升了模型表达能力（见表4）。该策略在实际延迟方面也表现高效：同一窗口内的所有查询块共享相同的键集合，这有利于硬件中的内存访问。相比之下，早期基于滑动窗口的自注意力方法[33,50]由于不同查询像素对应不同键集合，在通用硬件上存在较高延迟。我们的实验表明，所提出的窗口偏移方法在保持相近建模能力的同时（见表5和表6），延迟远低于滑动窗口方法。窗口偏移策略对全MLP架构[61]同样具有优势。

在这里插入图片描述
图2. Swin Transformer架构中采用移位窗口方法计算自注意力的示意图。在层l（左图）中采用常规窗口划分方案，各窗口内独立计算自注意力；至层l+1（右图）时窗口划分发生位移，形成新窗口。新窗口的自注意力计算将跨越层l中原有窗口边界，从而建立相邻窗口间的联系。

所提出的Swin Transformer在图像分类、目标检测和语义分割三项识别任务中均展现出强劲性能。在保持相近计算延迟的前提下，其表现显著优于ViT/DeiT[20,63]及ResNe(X)t系列模型[30,70]。该模型在COCO test-dev数据集上取得58.7的检测框AP与51.1的掩模AP，较此前最佳结果分别提升+2.7检测框AP（无外部数据的Copy-paste[26]方法）和+2.6掩模AP（DetectoRS[46]）。在ADE20K语义分割任务中，其验证集mIoU达到53.5，较原最优方法（SETR[81]）提升+3.2 mIoU。此外，该模型在ImageNet-1K图像分类任务中实现了87.3%的Top-1准确率。

2.相关工作

CNN及其变体

卷积神经网络（CNN）是计算机视觉领域的标准网络模型。尽管CNN已存在数十年[40]，但直到AlexNet[39]的提出才使其真正兴起并成为主流。此后，更深层、更高效的卷积神经网络架构不断涌现，进一步推动了计算机视觉中的深度学习浪潮，例如VGG[52]、GoogleNet[57]、ResNet[30]、DenseNet[34]、HRNet [65]与EfficientNet [58]。除这些架构创新外，针对单个卷积层的改进也取得大量成果，例如深度可分离卷积[70]和可变形卷积[18, 84]。尽管CNN及其变体仍是计算机视觉应用的主要骨干架构，但我们强调类Transformer架构在视觉与语言统一建模方面的巨大潜力。我们的工作在多项基础视觉识别任务上表现优异，有望推动建模范式的转变。

基于自注意力机制的骨干架构

同样受到自注意力层和Transformer架构在NLP领域成功的启发，部分研究采用自注意力层替代了经典ResNet[33,50,80]中部分或全部空间卷积层。这些工作在计算每个像素的自注意力时采用局部窗口以加速优化[33]，其精度/计算量权衡略优于对应的ResNet架构。但由于高昂的内存访问开销，其实际延迟显著高于卷积网络[33]。我们提出通过连续层间滑动窗口的移位机制替代传统滑动窗口操作，从而在通用硬件上实现更高效的运算。

自注意力/Transformer模型对CNN的补充

另一研究方向是在标准CNN架构中融入自注意力层或Transformer模块。这类自注意力层能够通过编码远程依赖或异构交互关系，增强主干网络[67, 7, 3, 71, 23, 74, 55]或检测头网络[32, 27]的性能。最新进展表明，Transformer的编码器-解码器结构已被成功应用于目标检测与实例分割任务[8, 13, 85, 56]。本研究重点探索Transformer在基础视觉特征提取中的适应性，与上述工作形成互补。

基于Transformer的视觉骨干网络

与我们的工作最为相关的是Vision Transformer（ViT）[20]及其后续研究[63, 72, 15, 28, 66]。ViT的开创性工作直接将Transformer架构应用于非重叠的中等尺寸图像块进行图像分类。与卷积网络相比，它在图像分类任务上实现了令人瞩目的速度-精度权衡。虽然ViT需要大规模训练数据集（如JFT-300M）才能表现良好，但DeiT[63]引入了若干训练策略，使得ViT在较小的ImageNet-1K数据集上也能有效工作。ViT在图像分类上的成果令人鼓舞，但由于其特征图分辨率较低且计算复杂度随图像尺寸呈二次方增长，其架构不适合作为密集视觉任务的通用主干网络或处理高分辨率输入图像。已有若干研究尝试通过直接上采样或反卷积将ViT模型应用于目标检测和语义分割等密集视觉任务，但性能相对较低[2, 81]。与我们同期的工作中，部分研究通过修改ViT架构[72, 15, 28]来改进图像分类效果。实验表明，尽管我们的研究重点在于通用性能而非专门针对分类任务，但Swin Transformer架构在这些方法中实现了最佳的图像分类速度-精度权衡。另一项同期工作[66]探索了类似的思路，在Transformer上构建多分辨率特征图，但其复杂度仍与图像尺寸呈二次方关系，而我们的方法保持线性复杂度并采用局部操作，这已被证明对建模视觉信号的高度相关性具有优势[36, 25, 41]。我们的方法兼具高效性和有效性，在COCO目标检测和ADE20K语义分割任务上均达到了最先进的精度水平。

3.方法

3.1. 整体架构

图3展示了Swin Transformer架构的微型版本（SwinT）概述。该架构首先通过图像分块模块将输入RGB图像分割为不重叠的块，与ViT类似。每个块被视为一个"令牌"，其特征由原始像素RGB值拼接而成。在我们的实现中，采用4×4的块大小，因此每个块的特征维度为4×4×3=48。随后通过线性嵌入层将这些原始值特征投影至任意维度（记为C）。

在这里插入图片描述
图3. (a) Swin Transformer (Swin-T) 的架构；(b) 两个连续的 Swin Transformer 模块（标注与公式(3)对应）。W-MSA 和 SW-MSA 分别为采用常规窗口配置和移位窗口配置的多头自注意力模块。

在这些图像块令牌上应用了多个具有改进自注意力计算机制的Transformer模块（Swin Transformer模块）。这些Transformer模块保持令牌数量不变（H/4 × W/4），与线性嵌入层共同构成"第一阶段"。

为生成层次化表征，随着网络深度增加，通过块合并层逐步减少令牌数量。首个块合并层将每组2×2相邻图像块的特征进行拼接，并在4C维拼接特征上应用线性层。此操作使令牌数量减少2×2=4倍（分辨率下采样2倍），同时将输出维度设置为2C。随后应用Swin Transformer块进行特征变换，并保持H/8×W/8的分辨率。这一包含块合并与特征变换的首个处理单元称为"阶段2"。该过程重复两次，依次形成"阶段3"与"阶段4"，输出分辨率分别为H/16×W/16和H/32×W/32。这些阶段共同构建出层次化表征。具有与典型卷积网络（如VGG[52]和ResNet[30]）相同的特征图分辨率。因此，所提出的架构可以便捷地替换现有方法中的骨干网络，适用于各类视觉任务。

Swin Transformer 模块

Swin Transformer通过将Transformer块中的标准多头自注意力（MSA）模块替换为基于移位窗口的模块（如3.2节所述）而构建，其余层保持不变。如图3(b)所示，Swin Transformer块由基于移位窗口的MSA模块组成，后接一个中间带有GELU非线性的双层MLP。每个MSA模块和MLP前均应用LayerNorm（LN）层，每个模块后均采用残差连接。

3.2. 基于移位窗口的自注意力机制

标准Transformer架构[64]及其在图像分类中的适配方案[20]均采用全局自注意力机制，即计算每个标记与所有其他标记的关联性。这种全局计算会导致标记数量的二次方复杂度，因此不适用于需要海量标记进行密集预测或表示高分辨率图像的多数视觉任务。

非重叠窗口中的自注意力机制

为实现高效建模，我们提出在局部窗口内计算自注意力。这些窗口以非重叠方式均匀划分图像。假设每个窗口包含M × M个图像块，则全局MSA模块与基于窗口的模块在h × w图像块上的计算复杂度分别为：

$\Omega(\mathrm{MSA})=4hwC^2+2(hw)^2C,$

$\Omega(\mathrm{W-MSA})=4hwC^2+2M^2hwC,\quad(2)$

前者计算量与图像块数hw呈平方关系，后者在固定M时（默认设为7）呈线性增长。全局自注意力计算对于较大hw值通常难以承受，而基于窗口的自注意力则具备可扩展性。

连续块中的移位窗口分区

基于窗口的自注意力模块缺乏跨窗口的连接，这限制了其建模能力。为了在保持非重叠窗口高效计算的同时引入跨窗口连接，我们提出了一种移位窗口划分方法，该方法在连续的Swin Transformer块中交替使用两种划分配置。

如图2所示，第一个模块采用常规的窗口划分策略：从左上角像素开始，将8×8特征图均匀划分为2×2个4×4尺寸的窗口（M=4）。随后，下一模块采用相对于前一层窗口配置的偏移策略，即在常规划分窗口的基础上沿两个方向各位移（⌊M/2⌋, ⌊M/2⌋）个像素。

采用移位窗口分区方法时，连续的Swin Transformer块按如下方式计算：

$\begin{aligned}&\hat{\mathbf{z}}^l=\mathrm{W-MSA}\left(\mathrm{LN}\left(\mathbf{z}^{l-1}\right)\right)+\mathbf{z}^{l-1},\\&\mathbf{z}^l=\mathrm{MLP}\left(\mathrm{LN}\left(\hat{\mathbf{z}}^l\right)\right)+\hat{\mathbf{z}}^l,\\&\hat{\mathbf{z}}^{l+1}=\mathrm{SW-MSA}\left(\mathrm{LN}\left(\mathbf{z}^l\right)\right)+\mathbf{z}^l,\\&\mathbf{z}^{l+1}=\mathrm{MLP}\left(\mathrm{LN}\left(\hat{\mathbf{z}}^{l+1}\right)\right)+\hat{\mathbf{z}}^{l+1},\end{aligned}$

其中 $\hat{z}ˡ$ 和 $z^{l}$ 分别表示第l个块中(S)WMSA模块和MLP模块的输出特征；

W-MSA和SW-MSA分别表示采用常规窗口划分和偏移窗口划分配置的基于窗口的多头自注意力机制。

移位窗口分区方法在相邻非重叠窗口之间建立了连接，如表4所示，该方法在图像分类、目标检测和语义分割任务中均被证实有效。

高效移位配置的批量计算

平移窗口分区的一个问题在于，它会导致窗口数量从常规配置的 $\frac{h}{M} \times \frac{w}{M}$ 增加到移位配置下的 $(\frac{h}{M} + 1) \times (\frac{w}{M} + 1)$ ，其中部分窗口尺寸会小于 $\times M$ 。原始解决方案是对较小窗口进行 $\times M$ 填充，并在计算注意力时遮蔽填充值。当常规分区的窗口数量较少时（例如 $\times 2$ ），这种原始方案的计算量增幅显著（ $\times 2 \rightarrow 3 \times 3$ ，即增加至2.25倍）。为此，我们提出通过如图4所示的向左上方向循环位移来实现更高效的批计算。移位后的批处理窗口可能包含特征图中不相邻的多个子窗口，因此采用掩蔽机制将自注意力计算限制在各子窗口内。通过循环位移，批处理窗口数量与常规窗口分区保持一致，从而保持高效性。该方法的低延迟特性如表5所示。
在这里插入图片描述

图4. 移位窗口分区中自注意力高效批量计算方法的示意图。

相对位置偏差

在计算自注意力时，我们遵循[49, 1, 32, 33]的方法，通过为每个注意力头在相似度计算中加入相对位置偏置 $\mathbb{R}^{M²×M²}$ 来实现：

$\mathrm{Attention}(Q,K,V)=\mathrm{SoftMax}(QK^T/\sqrt{d}+B)V,\quad(4)$

其中 $Q 、 K 、 V \in R^{M 2} \times^{d}$ 分别表示查询矩阵、键矩阵和值矩阵； $d$ 为查询/键的维度， $M^{2}$ 是窗口中的图像块数量。由于每个轴上的相对位置范围在 $[- M + 1, M - 1]$ 之间，我们参数化一个较小尺寸的偏置矩阵 $\hat{B} ∈ ℝ^{(2M-1)×(2M-1)}$ ， $B$ 中的值均取自 $\hat{B}$ 。

我们观察到，相较于未使用此偏置项或采用绝对位置嵌入的对照方法，性能有显著提升（如表4所示）。若进一步如文献[20]在输入中添加绝对位置嵌入，性能会轻微下降，因此我们的实现方案未采用该策略。

预训练中习得的相对位置偏差也可通过双三次插值[20,63]用于初始化不同窗口尺寸的微调模型。

3.3. 架构变体

我们构建的基础模型Swin-B，其参数量与计算复杂度与ViT-B/DeiT-B相当。同时推出了Swin-T、Swin-S和Swin-L三个变体，其参数量与计算复杂度分别约为基准模型的0.25倍、0.5倍和2倍。需注意，Swin-T和Swin-S的复杂度分别与ResNet-50（DeiT-S）和ResNet-101相近。默认窗口大小设为M=7。所有实验中，每个注意力头的查询维度d=32，且每个MLP扩展层的α系数为4。各模型变体的架构超参数如下：

• Swin-T：通道数C = 96，各层模块数 = {2, 2, 6, 2}
• Swin-S：通道数C = 96，各层模块数 = {2, 2, 18, 2}
• Swin-B：通道数C = 128，各层模块数 = {2, 2, 18, 2}
• Swin-L：通道数C = 192，各层模块数 = {2, 2, 18, 2}

其中C为第一阶段隐藏层的通道数。各模型变体在ImageNet图像分类任务中的参数量、理论计算复杂度（FLOPs）及吞吐量详见表1。

在这里插入图片描述

表1. ImageNet-1K分类任务中不同主干网络的对比。吞吐量测试遵循[63]方法，使用[68]的GitHub仓库及V100 GPU完成。

4.实验

我们在ImageNet-1K图像分类[19]、COCO目标检测[43]和ADE20K语义分割[83]数据集上进行了实验。下文首先将提出的Swin Transformer架构与三项任务中的先前最优方法进行对比，随后对Swin Transformer的关键设计要素进行消融研究。

4.1 在ImageNet-1K数据集上的图像分类

设置

在图像分类任务中，我们在包含128万训练图像和5万验证图像的ImageNet-1K数据集[19]（涵盖1000个类别）上对所提出的Swin Transformer模型进行基准测试。报告结果为单次裁剪的top-1准确率。我们采用两种训练配置：

• 常规ImageNet-1K训练。本设置主要遵循文献[63]方案，采用AdamW[37]优化器进行300轮训练，使用余弦衰减学习率调度器并包含20轮线性预热。批大小为1024，初始学习率为0.001，权重衰减为0.05。训练中包含了文献[63]的大部分数据增强与正则化策略，但未使用重复增强[31]和指数移动平均[45]——因其未带来性能提升。需注意，这与文献[63]结论不同：该研究认为重复增强对稳定ViT训练至关重要。

• 在ImageNet-22K上进行预训练并在ImageNet-1K上进行微调。我们还使用包含1420万张图像和22K类别的更大规模ImageNet-22K数据集进行预训练。采用AdamW优化器训练90个周期，学习率调度器采用线性衰减策略并包含5周期的线性预热。批处理大小为4096，初始学习率为0.001，权重衰减为0.01。在ImageNet-1K微调阶段，模型训练30个周期，批处理大小为1024，恒定学习率为 $10^{−5}$ ，权重衰减为 $10^{−8}$ 。

采用常规ImageNet-1K训练的结果

表1(a)展示了与其他主干网络的对比结果，包括基于Transformer和基于ConvNet的架构，均采用常规ImageNet-1K训练。

与之前最先进的基于Transformer的架构（即DeiT[63]）相比，Swin Transformers在复杂度相近的情况下显著超越对应的DeiT架构：使用224²输入时，Swin-T（81.3%）较DeiT-S（79.8%）提升1.5%；分别使用224²/384²输入时，Swin-B（83.3%/84.5%）较DeiT-B（81.8%/83.1%）提升1.5%/1.4%。

与当前最先进的卷积网络（即RegNet[48]和EfficientNet[58]）相比，Swin Transformer实现了略微更优的速度-精度权衡。值得注意的是，RegNet[48]和EfficientNet[58]是通过全面的架构搜索获得的，而所提出的Swin Transformer改编自标准Transformer架构，具有进一步改进的强大潜力。

基于ImageNet-22K预训练的结果

我们还在ImageNet22K上对更大容量的Swin-B和Swin-L进行了预训练。在ImageNet-1K图像分类任务上微调后的结果如表1(b)所示。对于Swin-B模型，ImageNet22K预训练相比从零开始在ImageNet-1K上训练带来了1.8%∼1.9%的性能提升。与先前ImageNet-22K预训练的最佳结果相比，我们的模型实现了显著更优的速度-精度平衡：Swin-B取得了86.4%的top-1准确率，比具有相似推理吞吐量（84.7 vs. 85.9图像/秒）且FLOPs略低（47.0G vs. 55.4G）的ViT模型高出2.4%。更大的Swin-L模型达到了87.3%的top-1准确率，较Swin-B模型提升0.9%。

4.2. 基于COCO的目标检测

设置

目标检测与实例分割实验在COCO 2017数据集上进行，该数据集包含11.8万张训练图像、5000张验证图像和2万张测试开发集图像。消融研究采用验证集进行，系统级对比则在测试开发集上报告。针对消融研究，我们选取了四种典型目标检测框架：基于mmdetection的级联掩码R-CNN [29, 6]、ATSS [79]、RepPoints v2 [12]和Sparse R-CNN [56]。这四种框架均采用统一配置：多尺度训练（将输入图像短边缩放至480-800像素之间，长边不超过1333像素）、AdamW优化器（初始学习率0.0001，权重衰减0.05，批量大小16）及3倍训练周期（36轮次）。系统级对比采用改进版HTC [9]（记为HTC++），集成实例增强[22]、强化多尺度训练[7]、6倍训练周期（72轮次）、软性非极大值抑制[5]，并以ImageNet-22K预训练模型初始化网络参数。

我们将Swin Transformer与标准卷积网络（如ResNe(X)t）以及先前的Transformer网络（如DeiT）进行对比。这些比较仅通过替换骨干网络实现，其他设置保持不变。需要注意的是，由于Swin Transformer和ResNe(X)t具有分层特征图结构，可直接适用于上述所有框架；而DeiT仅生成单一分辨率的特征图，无法直接应用。为确保公平对比，我们遵循文献[81]的方法，通过反卷积层为DeiT构建分层特征图。

与ResNe(X)t的对比

表2(a)列出了Swin-T和ResNet-50在四种目标检测框架上的性能对比。我们的Swin-T架构相较ResNet-50实现了+3.4∼4.2的稳定框AP提升，同时模型参数量、计算量(FLOPs)及延迟仅有小幅增加。

在这里插入图片描述
表2(b)采用Cascade Mask RCNN框架比较了不同模型容量下的Swin Transformer与ResNe(X)t性能。Swin Transformer取得了51.9的检测框AP和45.0的掩膜AP，相较于模型参数量、计算量(FLOPs)和延迟相近的ResNeXt101-64x4d，分别实现了+3.6检测框AP和+3.3掩膜AP的显著提升。在使用改进版HTC框架达到52.3检测框AP和46.0掩膜AP的更高基线时，Swin Transformer仍保持+4.1检测框AP和+3.1掩膜AP的较大优势（见表2©）。在推理速度方面，虽然ResNe(X)t采用了高度优化的Cudnn函数实现，而我们的架构仅使用PyTorch内置函数（部分未充分优化），但完整的核心优化工作已超出本文研究范畴。
在这里插入图片描述

在这里插入图片描述
表2. COCO目标检测与实例分割结果。†表示使用额外反卷积层生成层级特征图。 $*$ 代表多尺度测试。

与DeiT的对比

表2(b)展示了DeiT-S在Cascade Mask R-CNN框架下的性能表现。在模型参数量相近（86M vs. 80M）的情况下，Swin-T的检测性能比DeiT-S高出+2.5 box AP与+2.3 mask AP，且推理速度显著更快（15.3 FPS vs. 10.4 FPS）。DeiT较低的推理速度主要源于其对输入图像尺寸具有二次计算复杂度。

表2©将我们的最佳结果与先前最先进模型进行了对比。我们的最佳模型在COCO test-dev数据集上实现了58.7的边界框AP和51.1的掩码AP，分别以+2.7边界框AP（无外部数据的Copy-paste[26]）和+2.6掩码AP（DetectoRS[46]）的优势超越此前最佳成绩。

4.3. 基于ADE20K的语义分割

设置

ADE20K[83]是一个广泛使用的语义分割数据集，涵盖150个广泛的语义类别。该数据集共包含25,000张图像，其中20,000张用于训练，2,000张用于验证，另有3,000张用于测试。我们采用mmseg[16]中的UperNet[69]作为基础框架，因其高效性。更多细节详见附录。

结果

表3列举了不同方法/骨干网络组合的mIoU（平均交并比）、模型参数量（#param）、浮点运算量（FLOPs）和帧率（FPS）。从结果可见，在计算成本相近的情况下，Swin-S比DeiT-S的mIoU高出5.3（49.3 vs. 44.0），比ResNet-101高4.4，比ResNeSt-101[78]高2.4。我们采用ImageNet-22K预训练的Swin-L模型在验证集上达到53.5 mIoU，以+3.2 mIoU优势超越此前最佳模型（SETR[81]的50.3 mIoU，且其模型规模更大）。

在这里插入图片描述
表3. ADE20K验证集与测试集的语义分割结果。†表示使用额外反卷积层生成层级特征图。‡表示模型基于ImageNet-22K进行预训练。

4.4. 消融实验

在本节中，我们通过ImageNet-1K图像分类、COCO目标检测中的Cascade Mask R-CNN以及ADE20K语义分割中的UperNet，对所提出的Swin Transformer中的关键设计要素进行消融实验。

移动窗口

表4报告了移位窗口方法在三个任务上的消融实验结果。采用移位窗口分区的Swin-T模型在ImageNet-1K上top-1准确率提升+1.1%，在COCO数据集上检测框AP提升+2.8/掩膜AP提升+2.2，在ADE20K上mIoU提升+2.8，均优于各阶段采用单一窗口分区的对照模型。结果表明，通过移位窗口建立相邻层窗口间的连接具有显著效果。如表5所示，移位窗口带来的计算延迟开销也较小。

在这里插入图片描述

表4. 采用Swin-T架构，在三个基准测试上对窗口移位方法及不同位置嵌入方式进行的消融研究。w/o shifting：所有自注意力模块采用常规窗口划分，无移位；abs. pos.：ViT的绝对位置嵌入项；rel. pos.：默认设置，带额外相对位置偏置项（见公式(4)）；app.：公式(4)中第一个缩放点积项。

在这里插入图片描述

表5. V100 GPU上不同自注意力计算方法和实现的实际速度。

相对位置偏差

表4展示了不同位置编码方法的比较结果。在ImageNet-1K数据集上，采用相对位置偏置的Swin-T模型相较于无位置编码和绝对位置嵌入方法，分别实现了+1.2%/+0.8%的top-1准确率提升；在COCO数据集上分别获得+1.3/+1.5的边界框AP和+1.1/+1.3的掩码AP提升；在ADE20K数据集上分别取得+2.3/+2.9的mIoU增益，充分证明了相对位置偏置的有效性。需要特别指出的是，虽然加入绝对位置嵌入能提升图像分类准确率（+0.4%），但会损害目标检测和语义分割性能（在COCO上导致-0.2边界框/掩码AP下降，在ADE20K上造成-0.6 mIoU降低）。

尽管近期ViT/DeiT模型在图像分类任务中摒弃了平移不变性（尽管长期研究表明该特性对视觉建模至关重要），但我们发现，鼓励一定程度平移不变性的归纳偏置仍然更适用于通用视觉建模，尤其在目标检测与语义分割这类密集预测任务中。

不同的自注意力方法

不同自注意力计算方法和实现方式的实际速度对比见表5。我们的循环实现比原始填充方法更具硬件效率，尤其在深层阶段表现显著。总体而言，该实现在Swin-T、Swin-S和Swin-B模型上分别实现了13%、18%和18%的速度提升。

基于所提出的移位窗口方法构建的自注意力模块，在四个网络阶段分别比朴素/核实现中的滑动窗口效率高出40.8倍/2.5倍、20.2倍/2.5倍、9.3倍/2.1倍和7.6倍/1.8倍。总体而言，基于移位窗口构建的Swin Transformer架构在Swin-T、Swin-S和Swin-B模型上分别比基于滑动窗口的变体快4.1/1.5倍、4.0/1.5倍和3.6/1.5倍。表6对比了三种任务上的准确率，表明它们在视觉建模中具有相近的精度。

在这里插入图片描述

表6. Swin Transformer在不同自注意力计算方法下于三个基准测试中的准确率。

与目前最快的Transformer架构之一Performer[14]（参见文献[60]）相比，本文提出的基于移位窗口的自注意力计算及整体Swin Transformer架构在速度上略胜一筹（见表5），同时采用Swin-T模型时在ImageNet-1K数据集上实现了比Performer高2.3%的top-1准确率（见表6）。

5.结论

本文提出Swin Transformer，这是一种新型视觉Transformer，能够生成层次化特征表示，并具有与输入图像大小呈线性关系的计算复杂度。该模型在COCO目标检测和ADE20K语义分割任务上实现了最先进的性能，显著超越了此前的最佳方法。我们希望Swin Transformer在各种视觉任务上的优异表现，能够推动视觉与语言信号的统一建模研究。

作为Swin Transformer的核心组件，基于移位窗口的自注意力机制在视觉任务中展现出高效性，我们期待进一步探索其在自然语言处理领域的应用潜力。

A1. 详细架构

详细架构规格如表7所示，其中所有架构均假定输入图像尺寸为224×224。"Concat n × n"表示对图像块中n × n邻域特征进行拼接，该操作会使特征图以n倍率下采样。"96-d"代表输出维度为96的线性层。"win. sz. 7 × 7"表示窗口尺寸为7×7的多头自注意力模块。

在这里插入图片描述

A2. 详细实验设置

A2.1. ImageNet-1K图像分类

图像分类通过在最后阶段输出特征图上应用全局平均池化层完成，随后接一个线性分类器。我们发现该策略的准确性与ViT[20]和DeiT[63]中使用额外类别标记的方法相当。评估时报告的是单次裁剪的top-1准确率。

常规ImageNet-1K训练

训练设置主要遵循文献[63]。对于所有模型变体，我们默认采用224×224的输入图像分辨率。对于其他分辨率（如384×384），我们会对224分辨率训练好的模型进行微调而非从头训练，以此降低GPU资源消耗。

当使用224²输入从头训练时，我们采用AdamW[37]优化器进行300个epoch的训练，学习率调度器采用余弦衰减并包含20个epoch的线性预热。批量大小为1024，初始学习率为0.001，权重衰减为0.05，梯度裁剪的最大范数设为1。训练中包含了[63]的大部分数据增强与正则化策略，包括RandAugment[17]、Mixup[77]、Cutmix[75]、随机擦除[82]和随机深度[35]，但未采用重复增强[31]和指数移动平均（EMA）[45]，因其未能提升性能。需注意这与[63]相反——后者认为重复增强对稳定ViT训练至关重要。针对更大规模的模型会采用递增的随机深度增强比例：Swin-T、Swin-S和Swin-B分别对应0.2、0.3和0.5。

在对更高分辨率的输入进行微调时，我们采用adamW[37]优化器训练30个周期，恒定学习率为 $10^{−5}$ ，权重衰减为 $10^{−8}$ ，数据增强与正则化方案与第一阶段相同，但将随机深度比率设置为0.1。

ImageNet-22K预训练

我们还在更大的ImageNet-22K数据集上进行预训练，该数据集包含1420万张图像和22K个类别。训练分为两个阶段进行：第一阶段采用224²输入分辨率，使用AdamW优化器训练90个周期，学习率调度器采用线性衰减策略并包含5个周期的线性预热。批量大小为4096，初始学习率为0.001，权重衰减为0.01。第二阶段在ImageNet-1K上进行微调（输入分辨率为224²/384²），以1024的批量大小训练30个周期，采用恒定学习率10⁻⁵和权重衰减10⁻⁸。

A2.2. COCO数据集上的目标检测

为进行消融实验，我们选取了四种典型目标检测框架：基于mmdetection[10]的Cascade Mask R-CNN[29,6]、ATSS[79]、RepPoints v2[12]和Sparse RCNN[56]。对这四种框架均采用相同配置：多尺度训练[8,56]（输入图像短边缩放至480-800像素，长边不超过1333像素）、AdamW优化器[44]（初始学习率0.0001，权重衰减0.05，批量大小16）以及3倍训练计划（共36个训练周期，在第27和33周期时学习率下降10倍）。

在系统级对比中，我们采用改进版HTC[9]（记为HTC++），其包含以下增强特性：instaboost数据增强[22]、强化的多尺度训练策略[7]（输入图像短边缩放至400-1400像素之间，长边不超过1600像素）、6倍训练周期（72个训练周期，学习率在第63和69周期时衰减为0.1倍）、softNMS后处理[5]，以及在末级网络输出后新增的全局自注意力层，并采用ImageNet-22K预训练模型进行参数初始化。对于所有Swin Transformer模型，我们统一采用比例为0.2的随机深度策略。

A2.3. 基于ADE20K数据集的语义分割

ADE20K[83]是一个广泛使用的语义分割数据集，涵盖150个广泛的语义类别。该数据集共包含25,000张图像，其中20,000张用于训练，2,000张用于验证，另有3,000张用于测试。我们采用mmsegmentation[16]中的UperNet[69]作为基础框架，因其具有高效性。

在训练过程中，我们采用AdamW[44]优化器，初始学习率为6×10−5，权重衰减为0.01，学习率调度器采用线性衰减策略，并进行1500次迭代的线性预热。模型在8块GPU上训练，每块GPU处理2张图像，共训练16万次迭代。数据增强方面采用mmsegmentation默认设置：随机水平翻转、在[0.5, 2.0]比例范围内随机缩放以及随机光度失真。所有Swin Transformer模型均采用比例为0.2的随机深度策略。Swin-T和Swin-S采用与先前方法相同的标准设置，输入尺寸为512×512。标有‡符号的Swin-B和Swin-L表示这两个模型在ImageNet-22K上进行预训练，并使用640×640的输入尺寸进行训练

在推理过程中，采用了多尺度测试方法，使用训练分辨率[0.5, 0.75, 1.0, 1.25, 1.5, 1.75]倍的多种尺度。根据惯例[71]，报告测试分数时同时使用训练图像和验证图像进行训练。

A3. 更多实验

A3.1. 不同输入尺寸下的图像分类

表8列出了Swin Transformer在224²至384²不同输入图像尺寸下的性能表现。总体而言，更大的输入分辨率会带来更高的Top-1准确率，但推理速度会相应降低。

在这里插入图片描述

A3.2. ResNe(X)t在COCO数据集上的不同优化器对比

表9对比了COCO目标检测任务中ResNe(X)t骨干网络采用AdamW与SGD优化器的性能表现。本实验采用Cascade Mask R-CNN框架进行对比。尽管SGD是该框架默认优化器，但我们发现替换为AdamW优化器后精度普遍提升，尤其在较小骨干网络中更为显著。因此，在与提出的Swin Transformer架构对比时，ResNe(X)t骨干网络均采用AdamW优化器。

在这里插入图片描述

表9. 基于Cascade Mask R-CNN框架，在COCO目标检测任务中ResNe(X)t主干网络采用SGD与AdamW优化器的性能对比。

A3.3. Swin MLP混合器

我们在MLP-Mixer架构[61]中应用了提出的分层设计和移位窗口方法，将其称为Swin-Mixer。表10展示了Swin-Mixer与原始MLP-Mixer架构[61]及后续方法ResMLP[61]的性能对比。在略微降低计算量（10.4G vs. 12.7G）的情况下，Swin-Mixer性能显著优于MLP-Mixer（81.3% vs. 76.4%）。与ResMLP[62]相比，Swin-Mixer也实现了更好的速度-精度权衡。这些结果表明，所提出的分层设计和移位窗口方法具有普适性。

6.引用文献

[1] Hangbo Bao, Li Dong, Furu Wei, Wenhui Wang, Nan Yang, Xiaodong Liu, Yu Wang, Jianfeng Gao, Songhao Piao, Ming Zhou, et al. Unilmv2: Pseudo-masked language models for unified language model pre-training. In International Conference on Machine Learning, pages 642–652. PMLR, 2020. 5
[2] Josh Beal, Eric Kim, Eric Tzeng, Dong Huk Park, Andrew Zhai, and Dmitry Kislyuk. Toward transformer-based object detection. arXiv preprint arXiv:2012.09958, 2020. 3
[3] Irwan Bello, Barret Zoph, Ashish Vaswani, Jonathon Shlens, and Quoc V. Le. Attention augmented convolutional networks, 2020. 3
[4] Alexey Bochkovskiy, Chien-Yao Wang, and HongYuan Mark Liao. Yolov4: Optimal speed and accuracy of object detection. arXiv preprint arXiv:2004.10934, 2020. 7
[5] Navaneeth Bodla, Bharat Singh, Rama Chellappa, and Larry S. Davis. Soft-nms – improving object detection with one line of code. In Proceedings of the IEEE International Conference on Computer Vision (ICCV), Oct 2017. 6, 9
[6] Zhaowei Cai and Nuno Vasconcelos. Cascade r-cnn: Delving into high quality object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6154–6162, 2018. 6, 9
[7] Yue Cao, Jiarui Xu, Stephen Lin, Fangyun Wei, and Han Hu. Gcnet: Non-local networks meet squeeze-excitation networks and beyond. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV) Workshops, Oct 2019. 3, 6, 7, 9
[8] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-toend object detection with transformers. In European Conference on Computer Vision, pages 213–229. Springer, 2020. 3, 6, 9
[9] Kai Chen, Jiangmiao Pang, Jiaqi Wang, Yu Xiong, Xiaoxiao Li, Shuyang Sun, Wansen Feng, Ziwei Liu, Jianping Shi, Wanli Ouyang, et al. Hybrid task cascade for instance segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 49744983, 2019. 6, 9
[10] Kai Chen, Jiaqi Wang, Jiangmiao Pang, Yuhang Cao, Yu Xiong, Xiaoxiao Li, Shuyang Sun, Wansen Feng, Ziwei Liu, Jiarui Xu, et al. Mmdetection: Open mmlab detection toolbox and benchmark. arXiv preprint arXiv:1906.07155, 2019. 6, 9
[11] Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam. Encoder-decoder with atrous separable convolution for semantic image segmentation. In Proceedings of the European conference on computer vision (ECCV), pages 801–818, 2018. 7
[12] Yihong Chen, Zheng Zhang, Yue Cao, Liwei Wang, Stephen Lin, and Han Hu. Reppoints v2: Verification meets regression for object detection. In NeurIPS, 2020. 6, 7, 9
[13] Cheng Chi, Fangyun Wei, and Han Hu. Relationnet++: Bridging visual representations for object detection via transformer decoder. In NeurIPS, 2020. 3, 7
[14] Krzysztof Marcin Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane, Tamas Sarlos, Peter Hawkins, Jared Quincy Davis, Afroz Mohiuddin, Lukasz Kaiser, David Benjamin Belanger, Lucy J Colwell, and Adrian Weller. Rethinking attention with performers. In International Conference on Learning Representations, 2021. 8, 9
[15] Xiangxiang Chu, Bo Zhang, Zhi Tian, Xiaolin Wei, and Huaxia Xia. Do we really need explicit position encodings for vision transformers? arXiv preprint arXiv:2102.10882, 2021. 3
[16] MMSegmentation Contributors. MMSegmentation: Openmmlab semantic segmentation toolbox and benchmark. https://github.com/open-mmlab/ mmsegmentation, 2020. 8, 10
[17] Ekin D Cubuk, Barret Zoph, Jonathon Shlens, and Quoc V Le. Randaugment: Practical automated data augmentation with a reduced search space. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, pages 702–703, 2020. 9
[18] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable convolutional networks. In Proceedings of the IEEE International Conference on Computer Vision, pages 764–773, 2017. 1, 3
[19] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, pages 248–255. Ieee, 2009. 5
[20] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations, 2021. 1, 2, 3, 4, 5, 6, 9
[21] Xianzhi Du, Tsung-Yi Lin, Pengchong Jin, Golnaz Ghiasi, Mingxing Tan, Yin Cui, Quoc V Le, and Xiaodan Song. Spinenet: Learning scale-permuted backbone for recognition and localization. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 11592–11601, 2020. 7
[22] Hao-Shu Fang, Jianhua Sun, Runzhong Wang, Minghao Gou, Yong-Lu Li, and Cewu Lu. Instaboost: Boosting instance segmentation via probability map guided copypasting. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 682–691, 2019. 6, 9
[23] Jun Fu, Jing Liu, Haijie Tian, Yong Li, Yongjun Bao, Zhiwei Fang, and Hanqing Lu. Dual attention network for scene segmentation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 31463154, 2019. 3, 7
[24] Jun Fu, Jing Liu, Yuhang Wang, Yong Li, Yongjun Bao, Jinhui Tang, and Hanqing Lu. Adaptive context network for scene parsing. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 6748–6757, 2019. 7
[25] Kunihiko Fukushima. Cognitron: A self-organizing multilayered neural network. Biological cybernetics, 20(3):121136, 1975. 3
[26] Golnaz Ghiasi, Yin Cui, Aravind Srinivas, Rui Qian, TsungYi Lin, Ekin D Cubuk, Quoc V Le, and Barret Zoph. Simple copy-paste is a strong data augmentation method for instance segmentation. arXiv preprint arXiv:2012.07177, 2020. 2, 7
[27] Jiayuan Gu, Han Hu, Liwei Wang, Yichen Wei, and Jifeng Dai. Learning region features for object detection. In Proceedings of the European Conference on Computer Vision (ECCV), 2018. 3
[28] Kai Han, An Xiao, Enhua Wu, Jianyuan Guo, Chunjing Xu, and Yunhe Wang. Transformer in transformer. arXiv preprint arXiv:2103.00112, 2021. 3
[29] Kaiming He, Georgia Gkioxari, Piotr Dolla ́r, and Ross Girshick. Mask r-cnn. In Proceedings of the IEEE international conference on computer vision, pages 2961–2969, 2017. 6, 9
[30] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016. 1, 2, 4
[31] Elad Hoffer, Tal Ben-Nun, Itay Hubara, Niv Giladi, Torsten Hoefler, and Daniel Soudry. Augment your batch: Improving generalization through instance repetition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 8129–8138, 2020. 6, 9
[32] Han Hu, Jiayuan Gu, Zheng Zhang, Jifeng Dai, and Yichen Wei. Relation networks for object detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 3588–3597, 2018. 3, 5
[33] Han Hu, Zheng Zhang, Zhenda Xie, and Stephen Lin. Local relation networks for image recognition. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 3464–3473, October 2019. 2, 3, 5
[34] Gao Huang, Zhuang Liu, Laurens Van Der Maaten, and Kilian Q Weinberger. Densely connected convolutional networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4700–4708, 2017. 1, 2
[35] Gao Huang, Yu Sun, Zhuang Liu, Daniel Sedra, and Kilian Q Weinberger. Deep networks with stochastic depth. In European conference on computer vision, pages 646–661. Springer, 2016. 9
[36] David H Hubel and Torsten N Wiesel. Receptive fields, binocular interaction and functional architecture in the cat’s visual cortex. The Journal of physiology, 160(1):106–154, 1962. 3
[37] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014. 5, 9
[38] Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Joan Puigcerver, Jessica Yung, Sylvain Gelly, and Neil Houlsby. Big transfer (bit): General visual representation learning. arXiv preprint arXiv:1912.11370, 6(2):8, 2019. 6
[39] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton. Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems, pages 1097–1105, 2012. 1, 2
[40] Yann LeCun, Le ́on Bottou, Yoshua Bengio, Patrick Haffner, et al. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11):2278–2324, 1998. 2
[41] Yann LeCun, Patrick Haffner, Le ́on Bottou, and Yoshua Bengio. Object recognition with gradient-based learning. In Shape, contour and grouping in computer vision, pages 319345. Springer, 1999. 3
[42] Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 2017. 2
[43] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dolla ́r, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In European conference on computer vision, pages 740–755. Springer, 2014. 5
[44] Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. In International Conference on Learning Representations, 2019. 6, 9, 10
[45] Boris T Polyak and Anatoli B Juditsky. Acceleration of stochastic approximation by averaging. SIAM journal on control and optimization, 30(4):838–855, 1992. 6, 9
[46] Siyuan Qiao, Liang-Chieh Chen, and Alan Yuille. Detectors: Detecting objects with recursive feature pyramid and switchable atrous convolution. arXiv preprint arXiv:2006.02334, 2020. 2, 7
[47] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. Learning transferable visual models from natural language supervision, 2021. 1
[48] Ilija Radosavovic, Raj Prateek Kosaraju, Ross Girshick, Kaiming He, and Piotr Doll ́ar. Designing network design spaces. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1042810436, 2020. 6
[49] Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of Machine Learning Research, 21(140):1–67, 2020. 5
[50] Prajit Ramachandran, Niki Parmar, Ashish Vaswani, Irwan Bello, Anselm Levskaya, and Jon Shlens. Stand-alone selfattention in vision models. In Advances in Neural Information Processing Systems, volume 32. Curran Associates, Inc., 2019. 2, 3
[51] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. Unet: Convolutional networks for biomedical image segmentation. In International Conference on Medical image computing and computer-assisted intervention, pages 234–241. Springer, 2015. 2
[52] K. Simonyan and A. Zisserman. Very deep convolutional networks for large-scale image recognition. In International Conference on Learning Representations, May 2015. 2, 4
[53] Bharat Singh and Larry S Davis. An analysis of scale invariance in object detection snip. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3578–3587, 2018. 2
[54] Bharat Singh, Mahyar Najibi, and Larry S Davis. Sniper: Efficient multi-scale training. In Advances in Neural Information Processing Systems, volume 31. Curran Associates, Inc., 2018. 2
[55] Aravind Srinivas, Tsung-Yi Lin, Niki Parmar, Jonathon Shlens, Pieter Abbeel, and Ashish Vaswani. Bottleneck transformers for visual recognition. arXiv preprint arXiv:2101.11605, 2021. 3
[56] Peize Sun, Rufeng Zhang, Yi Jiang, Tao Kong, Chenfeng Xu, Wei Zhan, Masayoshi Tomizuka, Lei Li, Zehuan Yuan, Changhu Wang, et al. Sparse r-cnn: End-to-end object detection with learnable proposals. arXiv preprint arXiv:2011.12450, 2020. 3, 6, 9
[57] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. Going deeper with convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1–9, 2015. 2
[58] Mingxing Tan and Quoc Le. Efficientnet: Rethinking model scaling for convolutional neural networks. In International Conference on Machine Learning, pages 6105–6114. PMLR, 2019. 3, 6
[59] Mingxing Tan, Ruoming Pang, and Quoc V Le. Efficientdet: Scalable and efficient object detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 10781–10790, 2020. 7
[60] Yi Tay, Mostafa Dehghani, Samira Abnar, Yikang Shen, Dara Bahri, Philip Pham, Jinfeng Rao, Liu Yang, Sebastian Ruder, and Donald Metzler. Long range arena : A benchmark for efficient transformers. In International Conference on Learning Representations, 2021. 8
[61] Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Yung, Andreas Steiner, Daniel Keysers, Jakob Uszkoreit, Mario Lucic, and Alexey Dosovitskiy. Mlp-mixer: An all-mlp architecture for vision, 2021. 2, 10, 11
[62] Hugo Touvron, Piotr Bojanowski, Mathilde Caron, Matthieu Cord, Alaaeldin El-Nouby, Edouard Grave, Gautier Izacard, Armand Joulin, Gabriel Synnaeve, Jakob Verbeek, and Herv ́e Je ́gou. Resmlp: Feedforward networks for image classification with data-efficient training, 2021. 11
[63] Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, and Herve ́ J ́egou. Training data-efficient image transformers & distillation through attention. arXiv preprint arXiv:2012.12877, 2020. 2, 3, 5, 6, 9, 11
[64] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems, pages 5998–6008, 2017. 1, 2, 4
[65] Jingdong Wang, Ke Sun, Tianheng Cheng, Borui Jiang, Chaorui Deng, Yang Zhao, Dong Liu, Yadong Mu, Mingkui Tan, Xinggang Wang, et al. Deep high-resolution representation learning for visual recognition. IEEE transactions on pattern analysis and machine intelligence, 2020. 3
[66] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. arXiv preprint arXiv:2102.12122, 2021. 3
[67] Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. Non-local neural networks. In IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2018, 2018. 3
[68] Ross Wightman. Pytorch image models. https://github.com/rwightman/ pytorch-image-models, 2019. 6, 11
[69] Tete Xiao, Yingcheng Liu, Bolei Zhou, Yuning Jiang, and Jian Sun. Unified perceptual parsing for scene understanding. In Proceedings of the European Conference on Computer Vision (ECCV), pages 418–434, 2018. 7, 8, 10
[70] Saining Xie, Ross Girshick, Piotr Doll ́ar, Zhuowen Tu, and Kaiming He. Aggregated residual transformations for deep neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 14921500, 2017. 1, 2, 3
[71] Minghao Yin, Zhuliang Yao, Yue Cao, Xiu Li, Zheng Zhang, Stephen Lin, and Han Hu. Disentangled non-local neural networks. In Proceedings of the European conference on computer vision (ECCV), 2020. 3, 7, 10
[72] Li Yuan, Yunpeng Chen, Tao Wang, Weihao Yu, Yujun Shi, Francis EH Tay, Jiashi Feng, and Shuicheng Yan. Tokensto-token vit: Training vision transformers from scratch on imagenet. arXiv preprint arXiv:2101.11986, 2021. 3
[73] Yuhui Yuan, Xilin Chen, and Jingdong Wang. Objectcontextual representations for semantic segmentation. In 16th European Conference Computer Vision (ECCV 2020), August 2020. 7
[74] Yuhui Yuan and Jingdong Wang. Ocnet: Object context network for scene parsing. arXiv preprint arXiv:1809.00916, 2018. 3
[75] Sangdoo Yun, Dongyoon Han, Seong Joon Oh, Sanghyuk Chun, Junsuk Choe, and Youngjoon Yoo. Cutmix: Regularization strategy to train strong classifiers with localizable features. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 6023–6032, 2019. 9
[76] Sergey Zagoruyko and Nikos Komodakis. Wide residual networks. In BMVC, 2016. 1
[77] Hongyi Zhang, Moustapha Cisse, Yann N Dauphin, and David Lopez-Paz. mixup: Beyond empirical risk minimization. arXiv preprint arXiv:1710.09412, 2017. 9
[78] Hang Zhang, Chongruo Wu, Zhongyue Zhang, Yi Zhu, Zhi Zhang, Haibin Lin, Yue Sun, Tong He, Jonas Mueller, R Manmatha, et al. Resnest: Split-attention networks. arXiv preprint arXiv:2004.08955, 2020. 7, 8
[79] Shifeng Zhang, Cheng Chi, Yongqiang Yao, Zhen Lei, and Stan Z Li. Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9759–9768, 2020. 6, 9
[80] Hengshuang Zhao, Jiaya Jia, and Vladlen Koltun. Exploring self-attention for image recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10076–10085, 2020. 3
[81] Sixiao Zheng, Jiachen Lu, Hengshuang Zhao, Xiatian Zhu, Zekun Luo, Yabiao Wang, Yanwei Fu, Jianfeng Feng, Tao Xiang, Philip HS Torr, et al. Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers. arXiv preprint arXiv:2012.15840, 2020. 2, 3, 7, 8
[82] Zhun Zhong, Liang Zheng, Guoliang Kang, Shaozi Li, and Yi Yang. Random erasing data augmentation. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, pages 13001–13008, 2020. 9
[83] Bolei Zhou, Hang Zhao, Xavier Puig, Tete Xiao, Sanja Fidler, Adela Barriuso, and Antonio Torralba. Semantic understanding of scenes through the ade20k dataset. International Journal on Computer Vision, 2018. 5, 7, 10
[84] Xizhou Zhu, Han Hu, Stephen Lin, and Jifeng Dai. Deformable convnets v2: More deformable, better results. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 9308–9316, 2019. 1, 3
[85] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. Deformable {detr}: Deformable transformers for end-to-end object detection. In International Conference on Learning Representations, 2021. 3

【目标检测】【Transformer】Swin Transformer

0.论文摘要

1.引言

2.相关工作

CNN及其变体

基于自注意力机制的骨干架构

自注意力/Transformer模型对CNN的补充

基于Transformer的视觉骨干网络

3.方法

3.1. 整体架构

Swin Transformer 模块

3.2. 基于移位窗口的自注意力机制

非重叠窗口中的自注意力机制

连续块中的移位窗口分区

高效移位配置的批量计算

相对位置偏差

3.3. 架构变体

4.实验

4.1 在ImageNet-1K数据集上的图像分类

设置

采用常规ImageNet-1K训练的结果

基于ImageNet-22K预训练的结果

4.2. 基于COCO的目标检测

设置

与ResNe(X)t的对比

与DeiT的对比

4.3. 基于ADE20K的语义分割

设置

结果

4.4. 消融实验

移动窗口

相对位置偏差

不同的自注意力方法

5.结论

A1. 详细架构

A2. 详细实验设置

A2.1. ImageNet-1K图像分类

常规ImageNet-1K训练

ImageNet-22K预训练

A2.2. COCO数据集上的目标检测

A2.3. 基于ADE20K数据集的语义分割

A3. 更多实验

A3.1. 不同输入尺寸下的图像分类

A3.2. ResNe(X)t在COCO数据集上的不同优化器对比

A3.3. Swin MLP混合器

6.引用文献

网站公告

今日签到

热门文章

最新发布