摘要:本文提出了一种新型视觉Transformer架构BiFormer,其核心为双层路由注意力机制(BRA),通过动态稀疏性优化计算资源分配。BRA在粗粒度区域过滤不相关键值对,再于路由区域执行细粒度令牌注意力,实现高效长距离依赖建模。实验表明,BiFormer在图像分类、目标检测及语义分割任务中性能显著优于现有模型,兼顾精度与效率。
关键词:双层路由注意力 动态稀疏性 视觉Transformer 计算效率 密集预测
作者:雷·朱¹,新疆·王²,张翰·柯¹,韦恩·张²,林森·刘¹†
单位:1 香港城市大学,2 商汤科技研究院
1. 引言
Transformer凭借其全局感受野和并行计算优势,已成为视觉任务的主流架构。然而,传统注意力机制需计算所有令牌间的成对交互,导致计算复杂度过高。现有方法通过局部窗口、轴向条纹等静态稀疏模式降低计算量,但这些模式与内容无关,限制了模型灵活性。BiFormer提出双层路由注意力机制(BRA),以内容感知方式动态分配计算资源,在粗粒度区域筛选关键区域后执行细粒度注意力,显著提升效率与性能。
2. 双层路由注意力机制(BRA)
2.1 核心思想
BRA通过两步实现动态稀疏性:
- 区域级路由:将输入特征图划分为 S × S S \times S S×S 个区域,计算区域间亲和力矩阵,为每个区域保留前 k k k 个最相关区域。
- 令牌级注意力:在筛选出的路由区域内,执行细粒度的令牌到令牌注意力,仅涉及相关键值对。
2.2 实现细节
- 区域划分与投影:输入特征图 X ∈ R H × W × C X \in \mathbb{R}^{H \times W \times C} X∈RH×W×C 被划分为 S 2 S^2 S2 个区域,经线性投影得到查询 Q Q Q、键 K K K、值 V V V。
- 区域亲和力计算:通过区域级查询 Q r Q^r Qr 和键 K r K^r Kr 的矩阵乘法构建亲和力图 A r ∈ R S 2 × S 2 A^r \in \mathbb{R}^{S^2 \times S^2} Ar∈RS2×S2,并筛选前 k k k 个区域:
I r = topkIndex ( A r ) I^r = \text{topkIndex}(A^r) Ir=topkIndex(Ar) - 令牌注意力:收集路由区域的键值对 K g K^g Kg 和 V g V^g Vg,执行密集矩阵乘法:
O = Attention ( Q , K g , V g ) + LCE ( V ) O = \text{Attention}(Q, K^g, V^g) + \text{LCE}(V) O=Attention(Q,Kg,Vg)+LCE(V)
其中, LCE ( ⋅ ) \text{LCE}(\cdot) LCE(⋅) 为局部上下文增强模块,采用深度卷积实现。
2.3 复杂度分析
BRA的总复杂度为:
F L O P s = 3 H W C 2 + 2 S 4 C + 2 H W k C FLOPs = 3HWC^2 + 2S^4C + 2HWkC FLOPs=3HWC2+2S4C+2HWkC
当区域划分因子 S S S 取合适值时,复杂度可降至 O ( ( H W ) 4 / 3 ) O((HW)^{4/3}) O((HW)4/3),显著低于普通注意力的 O ( ( H W ) 2 ) O((HW)^2) O((HW)2)。
3. BiFormer架构设计
BiFormer采用四阶段金字塔结构(图1),每阶段通过补丁嵌入或合并降低分辨率并增加通道数。核心模块包括:
- BRA模块:实现动态稀疏注意力。
- 深度卷积:编码相对位置信息。
- MLP模块:扩展率为 e e e 的2层感知器。
模型变体:
模型 | 通道数 | 块数 | 参数量 (M) | FLOPs (G) |
---|---|---|---|---|
BiFormer-T | 64 | [2,2,8,2] | 13 | 2.2 |
BiFormer-S | 64 | [4,4,18,4] | 26 | 4.5 |
BiFormer-B | 96 | [4,4,18,4] | 57 | 9.8 |
4. 实验结果
4.1 图像分类(ImageNet-1K)
BiFormer在相似计算量下优于Swin、CSWin等模型:
模型 | FLOPs (G) | Top-1 (%) |
---|---|---|
Swin-T | 4.5 | 81.3 |
CSWin-T | 4.5 | 82.7 |
BiFormer-T | 2.2 | 81.4 |
BiFormer-S | 4.5 | 83.8 |
BiFormer-B | 9.8 | 84.3 |
4.2 目标检测与实例分割(COCO)
BiFormer在小目标检测(APs)和实例分割(APm)中表现突出:
骨干网络 | mAP (RetinaNet) | mAPb (Mask R-CNN) |
---|---|---|
Swin-T | 41.5 | 42.2 |
BiFormer-S | 45.9 | 47.8 |
4.3 语义分割(ADE20K)
骨干网络 | mIoU (UperNet) |
---|---|
CSWin-T | 49.3 |
BiFormer-S | 49.8 |
BiFormer-B | 51.0 |
5. 消融实验
5.1 BRA有效性验证
对比不同注意力机制,BRA显著提升分类与分割性能:
注意力机制 | Top-1 (%) | mIoU (%) |
---|---|---|
移位窗口 | 81.3 | 41.5 |
可变形注意力 | 82.0 | 42.6 |
BRA | 82.7 | 44.8 |
5.2 架构设计影响
逐步优化模型结构(如重叠补丁嵌入、更深布局)可进一步提升性能:
设计选择 | Top-1 (%) |
---|---|
基线(Swin-T) | 82.7 |
+ 更深布局 | 83.5 |
+ 卷积位置编码 | 83.8 |
6. 可视化与讨论
6.1 注意力图分析
图4显示,BRA能准确定位语义相关区域。例如,街景中的建筑物查询会激活相似区域,而室内场景中的鼠标查询关联到键盘和显示器区域,表明其对长距离关系的捕捉能力。
6.2 局限性
BRA引入的区域路由步骤可能导致GPU内核启动开销。未来可通过内核融合优化加速。
7. 结论
BiFormer通过双层路由注意力机制实现动态稀疏性,在多个视觉任务中达到SOTA性能。其核心创新在于结合粗粒度区域过滤与细粒度令牌注意力,平衡效率与精度,为视觉Transformer设计提供了新思路。
附录
- 区域表示:区域级查询和键通过平均池化计算,最大化平均令牌间亲和力。
- 吞吐量对比:BRA相比四叉树注意力快3-6倍,因依赖密集矩阵乘法而非稀疏计算。
- 预训练适配:将BRA应用于预训练ViT,在语义分割任务中mIoU提升2.4%。