原文标题:SparseTT: Visual Tracking with Sparse Transformers
中文标题:SparseTT:使用稀疏Transformers进行视觉跟踪
Abstract
Transformers 已成功应用于视觉跟踪任务并显着提升了跟踪性能。 旨在模拟远程依赖关系的自注意力机制是 Transformers 成功的关键。然而,自注意力缺乏对搜索区域中最相关信息的关注,因此很容易被背景分散注意力。在本文中,我们通过将最相关的信息集中在搜索区域中,通过稀疏注意力机制来缓解这个问题,从而实现更准确的跟踪。 此外,我们引入了双头预测器来提高前景背景分类和目标边界框回归的准确性,从而进一步提高了跟踪性能。大量实验表明,在没有附加功能的情况下,我们的方法在以 40 FPS 运行时,显着优于 LaSOT、GOT-10k、TrackingNet 和 UAV123 上最先进的方法。值得注意的是,与 TransT 相比,我们方法的训练时间减少了 75%。
1. Introduction
视觉跟踪旨在根据目标的初始状态预测其未来状态。它的应用非常广泛,例如人机交互、视频监控、自动驾驶等。大多数现有方法通过序列预测框架解决跟踪问题,其中它们根据初始状态和先前状态估计当前状态。因此,在每个时间片中给出准确的状态非常重要,否则错误会累积并导致跟踪失败。人们付出了巨大的努力来提高跟踪精度,即目标边界框的精度。然而,目标变形、部分遮挡和尺度变化等挑战仍然是阻碍它们完美跟踪的巨大障碍。原因可能是这些方法大多采用互相关运算来衡量目标模板与搜索区域之间的相似性,这可能会陷入局部最优。
最近,TransT [Chen et al., 2021] 和 DTT [Yu et al., 2021] 通过用 Transformer [Vaswani et al., 2017] 替换相关性来提高跟踪性能。然而,用 Transformers 构建跟踪器会带来一个新问题:Transformers 中 self-attention 的全局视角导致主要信息(例如搜索区域中的目标)聚焦不足,而次要信息(例如搜索区域中的背景)过度聚焦,使前景和背景之间的边缘区域变得模糊,从而降低跟踪性能。
在本文中,我们通过专注于搜索区域最相关的信息来解决这个问题,这是通过稀疏 Transformer 实现的。与之前作品中使用的普通 Transformer 不同,稀疏 Transformer 旨在关注主要信息,即使在严重的目标变形、部分遮挡、尺度变化等情况下,也使目标更具判别力,目标的边界框也更加准确 ,如图1所示。
总之,这项工作的主要贡献有三个方面。
(1)我们提出了一个目标聚焦网络,它能够聚焦搜索区域中感兴趣的目标,并突出显示最相关信息的特征,以便更好地估计目标的状态。
(2)提出了一种基于稀疏Transformer的Siamese跟踪框架,该框架具有很强的处理目标变形、局部遮挡、尺度变化等问题的能力。
(3)广泛的实验表明,我们的方法优于在LaSOT,GOT10k,TrackingNet和UAV123上最先进的方法,同时以40 FPS运行,证明了我们方法的优越性。
2. Related Work
Siamese Trackers. 在Siamese视觉跟踪器中,相互关系被广泛用于衡量目标模板与搜索区域之间的相似度。如朴素互相关[Bertinetto等人,2016]、深度互相关[Li等人,2019;Xu et al.,2020],逐像素互关[Yan et al., 2021b],像素到全局匹配互关[Liao et al.,2020]等。然而,相互关联执行的是局部线性匹配过程,容易陷入局部最优[Chen等,2021]。此外,相互关联破坏了输入特征的语义信息,这不利于准确感知目标边界。大多数Siamese跟踪器在处理目标变形、局部遮挡、尺度变化等方面仍然存在困难。
Transformer in Visual Tracking.近年来,Transformer 已成功应用于视觉跟踪领域。STARK [Yan等人,2021a]借鉴DETR [Carion等人,2020]的灵感,将目标跟踪作为一个边界框预测问题,并使用编码器-解码器transformer来解决这个问题,其中编码器对目标和搜索区域之间的全局时空特征依赖关系进行建模,解码器学习查询嵌入来预测目标的空间位置。它在视觉跟踪方面取得了优异的性能。TrDiMP [Wang等人,2021]设计了一个类似Siamese的跟踪管道,其中两个分支分别由CNN主干网后接transformer编码器和transformer解码器构建。Transformer 用于增强目标模板和搜索区域。与之前的Siamese跟踪器类似,TrDiMP 应用互相关来测量目标模板和搜索区域之间的相似性,这可能会妨碍跟踪器的高性能跟踪。注意到这一缺点,TransT 和 DTT 提出用 Transformer 代替互相关,从而生成融合特征而不是响应分数。由于融合特征包含比响应分数更丰富的语义信息,因此这些方法比以前的连体跟踪器实现了更准确的跟踪。
Transformers 中的 Self-attention 专门用于对远程依赖关系进行建模,使其擅长捕获全局信息,但缺乏对搜索区域中最相关信息的关注。为了进一步增强 Transformer 跟踪器,我们通过稀疏注意力机制缓解了上述自注意力的缺点。这个想法的灵感来自[Zhao et al., 2019]。 我们采用了[Zhao et al., 2019]中的稀疏Transformer 来适应视觉跟踪任务,并提出了一种带有编码器-解码器稀疏 Transformer 的全新端到端Siamese跟踪器。在稀疏注意力机制的驱动下,稀疏 Transformer 聚焦于搜索区域中最相关的信息,从而更有效地抑制干扰跟踪的干扰背景。
3. Method
我们提出了一种用于视觉跟踪的Siamese架构,该架构由特征提取网络、目标聚焦网络和双头预测器组成,如下图所示。特征提取网络是一个权重共享的骨干网络。利用稀疏transformer构建目标聚焦网络,生成目标聚焦特征。双头预测器区分前景和背景,输出目标的边界框。
3.1 Target Focus Network
目标聚焦网络采用稀疏Transformer构建,具有编码器-解码器架构,如下图所示。编码器负责对目标模板特征进行编码。解码器负责解码搜索区域特征以生成目标聚焦特征。
Encoder.在目标聚焦网络中,编码器是一个重要且必需的组成部分。它由N个编码器层组成,其中每个编码器层都将其前一个编码器层的输出作为输入。 注意,为了使网络具有空间位置信息的感知,我们在目标模板特征中加入空间位置编码,并将其加入到编码器中。因此,第一编码器层以具有空间位置编码的目标模板特征作为输入。简而言之,它可以正式表示为:
其中Z∈RHtWt×C表示目标模板特征,Penc∈RHtWt×C表示空间位置编码,f(i)enc表示第i层编码器,Y(i−1)enc∈RHtWt×C表示第(i−1)层编码器的输出。Ht和Wt分别为目标模板的特征图的高度和宽度。
在每个编码器层中,使用多头自注意力(MSA)来显式建模目标模板特征的所有像素对之间的关系。
Decoder.与编码器类似,解码器由 M 个解码器层组成。然而,与编码器层不同的是,每个解码器层不仅输入经过空间位置编码的搜索区域特征或其前一解码器层的输出,还输入编码器输出的编码后的目标模板特征。简而言之,它可以正式表示为:
其中,X∈RHsWs×C表示搜索区域特征,Pdec∈RHsWs×C表示空间位置编码,y(n)enc∈RHtWt×C表示编码器输出的编码后的目标模板特征,f(i-1)dec表示第 i - 1层解码器,Y(i−1)dec∈RHsWs×C表示第(i−1)层解码器的输出。Hs和Ws分别为搜索区域特征图的高度和宽度。
与普通 Transformer 的解码器层不同,所提出的稀疏 Transformer 的每个解码器层首先使用稀疏多头自注意力(SMSA)计算 X 上的自注意力,然后使用朴素多头交叉注意(MCA)计算 Z 和 X 之间的交叉注意力。其他操作与普通 Transformer 的解码器层相同。形式上,所提出的稀疏 Transformer 的每个解码器层可以表示为:
Sparse Multi-Head Self-Attention. 稀疏多头自注意力旨在提高前景-背景的辨别力并减轻前景边缘区域的模糊性。具体来说,在普通的MSA中,注意力特征的每个像素值是由输入特征的所有像素值计算的,这使得前景的边缘区域变得模糊。在我们提出的 SMSA 中,注意力特征的每个像素值仅由与其最相似的 K 个像素值决定,这使得前景更加集中,并且前景的边缘区域更具辨别力。
具体来说,如图4中间所示,给定一个查询Q∈RHW×C,一个键K∈RC×H'W',一个值V∈RH'W'×C,我们首先计算查询Q和键K之间所有像素对的相似度得到相似度矩阵,并在相似度矩阵中屏蔽掉不必要的标记。然后,与图4左侧所示的朴素缩放点积注意力不同,我们只使用softmax函数对相似性矩阵每行中最大的K个元素进行归一化。对于其他元素,我们将它们替换为0。最后用矩阵乘法将相似矩阵和值相乘得到最终结果。右图中可以看到,朴素缩放点积注意力放大了相对较小的相似性权重,这使得输出特征容易受到噪声和分散注意力的背景的影响。然而,这个问题可以通过稀疏缩放点积注意力来显著缓解。
图 4:左边是 MSA 中缩放点积自注意力的图示,中间是 SMSA 中稀疏缩放点积自注意力的图示,其中函数 scatter 意味着将给定值填充到给定索引处的0值矩阵中。右上和右下分别是在朴素缩放点积注意力和稀疏缩放点积注意力中标准化相似性矩阵的行向量的示例。
3.2. Double-Head predictor
现有的跟踪器大多采用全连接网络或卷积网络来进行前景和背景的分类以及目标边界框的回归,而没有根据分类和回归任务的特点对头部网络进行深入的分析或设计。我们引入双头预测器来提高分类和回归的准确性。具体来说,如下图所示,它由一个由两个全连接层组成的 fc-head 和一个由L个卷积块组成的 conv-head 组成。在推理阶段,对于分类任务,融合 fc-head 输出的分类分数和 conv-head 输出的分类分数;对于回归任务,只采用 conv-head 输出的预测偏移量。
3.3. Training Loss
为了端到端训练整个网络,目标函数为分类损失和回归损失的加权和,如下所示:
其中 ωfc、λfc、ωconv 和 λconv 是超参数。实际上,我们设置 ωfc = 2.0,λfc = 0.7,ωconv = 2.5,λconv = 0.8。函数Lclass fc和Lclass conv都是通过focal loss实现的,函数Lbox fc和Lbox conv都是通过IoU loss实现的。
4. Experiments
4.1. Implementation Details
我们使用 Swin Transformer [Liu et al., 2021] (Swin-Tiny) 的微型版本作为主干φ。在MSA、SMSA和MCA中,注意力头数设置为8,FFN隐藏层通道数设置为2048,dropout率设置为0.1。编码器层数N和解码器层数M设置为2,并且SMSA中的稀疏度K设置为32,当K=H'W',SMSA变成MSA。在双头预测器的 conv-head 中,第一个卷积块被设置为残差块,其他 L − 1 个被设置为瓶颈块,其中 L = 8。
我们使用AdamW优化器进行了20个epoch的训练。在每个epoch中,从所有训练数据集中采样600,000对图像。批量大小设置为32,学习率和权值衰减都设置为1 ×10−4。经过10次和15次的训练,学习率分别下降到1×10−5和1×10−6。在4块NVIDIA RTX 2080Ti gpu上,整个训练过程大约需要60个小时。需要注意的是,TransT的训练时间约为10天(240小时),是我们方法的4倍。
4.2. Comparison with the state-of-the-art
LaSOT. LaSOT是一个具有高质量注释的大规模长片段数据集。它的测试集由280个序列组成,平均长度超过2500帧。我们在LaSOT的测试集上进行了评估,并与其他有竞争力的方法进行了比较。如下表所示,我们的方法在成功率、精度和归一化精度指标方面达到了最佳性能。
我们还在具有变形、局部遮挡和尺度变化属性的测试子集上评估了我们的方法。结果如下表所示。可以看出,我们的方法在上述具有挑战性的场景中表现最好,明显优于其他竞争方法。这些挑战带来了确定目标精确边界的模糊性,使得跟踪器难以对目标边界框进行定位和估计。然而,我们的方法很好地应对了这些挑战。
GOT-10k. GOT-10k包含9335个用于训练的序列和180个用于测试的序列。与其他数据集不同,GOT10k只允许使用训练集来训练跟踪器。我们按照这个协议来训练我们的方法,并在测试集上测试它,然后在下表中报告性能。我们看到,我们的方法大大超过了第二好的跟踪器TransT,这表明当带注释的训练数据有限时,我们的方法优于其他方法。
UAV123. UAV123是无人机拍摄的低空航拍数据集,包含123个序列,平均每个序列915帧。由于航空图像的特点,该数据集中的许多目标分辨率较低,并且容易出现快速运动和运动模糊。尽管如此,我们的方法仍然能够很好地应对这些挑战。如下表所示,我们的方法超越了其他竞争方法,在UAV123上达到了最先进的性能,证明了我们的方法的泛化和适用性。
OTB2015. OTB2015是一个经典的视觉跟踪测试数据集。 它包含100个短期跟踪序列,涵盖了目标变形、遮挡、尺度变化、旋转、光照变化、背景杂波等11种常见挑战。 我们报告了我们的方法在OTB2015上的性能。虽然标注不是很准确,如上表所示,但我们的方法仍然优于优秀的跟踪器TransT,达到了相当的性能。
TrackingNet. TrackingNet是一个大规模的数据集,它的测试集包括511个序列,涵盖了各种对象类别和跟踪场景。我们报告了在TrackingNet测试集上的性能。 如下表所示,我们的方法在成功率方面达到了最好的性能。
5. Conclusion
在这项工作中,我们通过一种新颖的稀疏 Transformer 跟踪器来增强基于 Transformer 的视觉跟踪。Transformer 中的稀疏自注意力机制缓解了普通自注意力机制因集中于全局背景而忽略最相关信息的问题,从而突出了搜索区域中的潜在目标。此外,引入双头预测器来提高分类和回归的准确性。实验表明,我们的方法在以实时速度运行时,可以在多个数据集上显著优于最先进的方法,这证明了我们方法的优越性和适用性。此外,我们方法的训练时间仅为 TransT 的 25%。总的来说,这是进一步研究的新的良好基线。