BiFormer:具有双层路由注意力机制的视觉Transformer

发布于:2025-03-13 ⋅ 阅读:(10) ⋅ 点赞:(0)

摘要:本文提出了一种新型视觉Transformer架构BiFormer,其核心为双层路由注意力机制(BRA),通过动态稀疏性优化计算资源分配。BRA在粗粒度区域过滤不相关键值对,再于路由区域执行细粒度令牌注意力,实现高效长距离依赖建模。实验表明,BiFormer在图像分类、目标检测及语义分割任务中性能显著优于现有模型,兼顾精度与效率。
关键词:双层路由注意力 动态稀疏性 视觉Transformer 计算效率 密集预测


作者:雷·朱¹,新疆·王²,张翰·柯¹,韦恩·张²,林森·刘¹†
单位:1 香港城市大学,2 商汤科技研究院


1. 引言

Transformer凭借其全局感受野和并行计算优势,已成为视觉任务的主流架构。然而,传统注意力机制需计算所有令牌间的成对交互,导致计算复杂度过高。现有方法通过局部窗口、轴向条纹等静态稀疏模式降低计算量,但这些模式与内容无关,限制了模型灵活性。BiFormer提出双层路由注意力机制(BRA),以内容感知方式动态分配计算资源,在粗粒度区域筛选关键区域后执行细粒度注意力,显著提升效率与性能。


2. 双层路由注意力机制(BRA)

在这里插入图片描述

2.1 核心思想

BRA通过两步实现动态稀疏性:

  1. 区域级路由:将输入特征图划分为 S × S S \times S S×S 个区域,计算区域间亲和力矩阵,为每个区域保留前 k k k 个最相关区域。
  2. 令牌级注意力:在筛选出的路由区域内,执行细粒度的令牌到令牌注意力,仅涉及相关键值对。

2.2 实现细节

  1. 区域划分与投影:输入特征图 X ∈ R H × W × C X \in \mathbb{R}^{H \times W \times C} XRH×W×C 被划分为 S 2 S^2 S2 个区域,经线性投影得到查询 Q Q Q、键 K K K、值 V V V
  2. 区域亲和力计算:通过区域级查询 Q r Q^r Qr 和键 K r K^r Kr 的矩阵乘法构建亲和力图 A r ∈ R S 2 × S 2 A^r \in \mathbb{R}^{S^2 \times S^2} ArRS2×S2,并筛选前 k k k 个区域:
    I r = topkIndex ( A r ) I^r = \text{topkIndex}(A^r) Ir=topkIndex(Ar)
  3. 令牌注意力:收集路由区域的键值对 K g K^g Kg V g V^g Vg,执行密集矩阵乘法:
    O = Attention ( Q , K g , V g ) + LCE ( V ) O = \text{Attention}(Q, K^g, V^g) + \text{LCE}(V) O=Attention(Q,Kg,Vg)+LCE(V)
    其中, LCE ( ⋅ ) \text{LCE}(\cdot) LCE() 为局部上下文增强模块,采用深度卷积实现。

2.3 复杂度分析

BRA的总复杂度为:
F L O P s = 3 H W C 2 + 2 S 4 C + 2 H W k C FLOPs = 3HWC^2 + 2S^4C + 2HWkC FLOPs=3HWC2+2S4C+2HWkC
当区域划分因子 S S S 取合适值时,复杂度可降至 O ( ( H W ) 4 / 3 ) O((HW)^{4/3}) O((HW)4/3),显著低于普通注意力的 O ( ( H W ) 2 ) O((HW)^2) O((HW)2)


3. BiFormer架构设计

在这里插入图片描述

BiFormer采用四阶段金字塔结构(图1),每阶段通过补丁嵌入或合并降低分辨率并增加通道数。核心模块包括:

  1. BRA模块:实现动态稀疏注意力。
  2. 深度卷积:编码相对位置信息。
  3. MLP模块:扩展率为 e e e 的2层感知器。

模型变体

模型 通道数 块数 参数量 (M) FLOPs (G)
BiFormer-T 64 [2,2,8,2] 13 2.2
BiFormer-S 64 [4,4,18,4] 26 4.5
BiFormer-B 96 [4,4,18,4] 57 9.8

4. 实验结果

4.1 图像分类(ImageNet-1K)

BiFormer在相似计算量下优于Swin、CSWin等模型:

模型 FLOPs (G) Top-1 (%)
Swin-T 4.5 81.3
CSWin-T 4.5 82.7
BiFormer-T 2.2 81.4
BiFormer-S 4.5 83.8
BiFormer-B 9.8 84.3

4.2 目标检测与实例分割(COCO)

BiFormer在小目标检测(APs)和实例分割(APm)中表现突出:

骨干网络 mAP (RetinaNet) mAPb (Mask R-CNN)
Swin-T 41.5 42.2
BiFormer-S 45.9 47.8

4.3 语义分割(ADE20K)

骨干网络 mIoU (UperNet)
CSWin-T 49.3
BiFormer-S 49.8
BiFormer-B 51.0

5. 消融实验

5.1 BRA有效性验证

对比不同注意力机制,BRA显著提升分类与分割性能:

注意力机制 Top-1 (%) mIoU (%)
移位窗口 81.3 41.5
可变形注意力 82.0 42.6
BRA 82.7 44.8

5.2 架构设计影响

逐步优化模型结构(如重叠补丁嵌入、更深布局)可进一步提升性能:

设计选择 Top-1 (%)
基线(Swin-T) 82.7
+ 更深布局 83.5
+ 卷积位置编码 83.8

6. 可视化与讨论

6.1 注意力图分析

图4显示,BRA能准确定位语义相关区域。例如,街景中的建筑物查询会激活相似区域,而室内场景中的鼠标查询关联到键盘和显示器区域,表明其对长距离关系的捕捉能力。

6.2 局限性

BRA引入的区域路由步骤可能导致GPU内核启动开销。未来可通过内核融合优化加速。


7. 结论

BiFormer通过双层路由注意力机制实现动态稀疏性,在多个视觉任务中达到SOTA性能。其核心创新在于结合粗粒度区域过滤与细粒度令牌注意力,平衡效率与精度,为视觉Transformer设计提供了新思路。


附录

  • 区域表示:区域级查询和键通过平均池化计算,最大化平均令牌间亲和力。
  • 吞吐量对比:BRA相比四叉树注意力快3-6倍,因依赖密集矩阵乘法而非稀疏计算。
  • 预训练适配:将BRA应用于预训练ViT,在语义分割任务中mIoU提升2.4%。

代码地址:https://github.com/rayleizhu/BiFormer