BiFormer：具有双层路由注意力机制的视觉Transformer-EW帮帮网

摘要：本文提出了一种新型视觉Transformer架构BiFormer，其核心为双层路由注意力机制（BRA），通过动态稀疏性优化计算资源分配。BRA在粗粒度区域过滤不相关键值对，再于路由区域执行细粒度令牌注意力，实现高效长距离依赖建模。实验表明，BiFormer在图像分类、目标检测及语义分割任务中性能显著优于现有模型，兼顾精度与效率。
关键词：双层路由注意力动态稀疏性视觉Transformer 计算效率密集预测

作者：雷·朱¹，新疆·王²，张翰·柯¹，韦恩·张²，林森·刘¹†
单位：1 香港城市大学，2 商汤科技研究院

1. 引言

Transformer凭借其全局感受野和并行计算优势，已成为视觉任务的主流架构。然而，传统注意力机制需计算所有令牌间的成对交互，导致计算复杂度过高。现有方法通过局部窗口、轴向条纹等静态稀疏模式降低计算量，但这些模式与内容无关，限制了模型灵活性。BiFormer提出双层路由注意力机制（BRA），以内容感知方式动态分配计算资源，在粗粒度区域筛选关键区域后执行细粒度注意力，显著提升效率与性能。

2. 双层路由注意力机制（BRA）

在这里插入图片描述

2.1 核心思想

BRA通过两步实现动态稀疏性：

区域级路由：将输入特征图划分为 $\times S$ 个区域，计算区域间亲和力矩阵，为每个区域保留前 $k$ 个最相关区域。
令牌级注意力：在筛选出的路由区域内，执行细粒度的令牌到令牌注意力，仅涉及相关键值对。

2.2 实现细节

区域划分与投影：输入特征图 $\in \mathbb{R}^{H \times W \times C}$ 被划分为 $S^2$ 个区域，经线性投影得到查询 $Q$ 、键 $K$ 、值 $V$ 。
区域亲和力计算：通过区域级查询 $Q^r$ 和键 $K^r$ 的矩阵乘法构建亲和力图 $A^r \in \mathbb{R}^{S^2 \times S^2}$ ，并筛选前 $k$ 个区域：
$I^r = \text{topkIndex}(A^r)$
令牌注意力：收集路由区域的键值对 $K^g$ 和 $V^g$ ，执行密集矩阵乘法：
$\text{Attention}(Q, K^g, V^g) + \text{LCE}(V)$
其中， $\text{LCE}(\cdot)$ 为局部上下文增强模块，采用深度卷积实现。

2.3 复杂度分析

BRA的总复杂度为：
$FLOPs = 3HWC^2 + 2S^4C + 2HWkC$
当区域划分因子 $S$ 取合适值时，复杂度可降至 $O((HW)^{4/3})$ ，显著低于普通注意力的 $O((HW)^2)$ 。

3. BiFormer架构设计

在这里插入图片描述

BiFormer采用四阶段金字塔结构（图1），每阶段通过补丁嵌入或合并降低分辨率并增加通道数。核心模块包括：

BRA模块：实现动态稀疏注意力。
深度卷积：编码相对位置信息。
MLP模块：扩展率为 $e$ 的2层感知器。

模型变体：

模型	通道数	块数	参数量 (M)	FLOPs (G)
BiFormer-T	64	[2,2,8,2]	13	2.2
BiFormer-S	64	[4,4,18,4]	26	4.5
BiFormer-B	96	[4,4,18,4]	57	9.8

4. 实验结果

4.1 图像分类（ImageNet-1K）

BiFormer在相似计算量下优于Swin、CSWin等模型：

模型	FLOPs (G)	Top-1 (%)
Swin-T	4.5	81.3
CSWin-T	4.5	82.7
BiFormer-T	2.2	81.4
BiFormer-S	4.5	83.8
BiFormer-B	9.8	84.3

4.2 目标检测与实例分割（COCO）

BiFormer在小目标检测（APs）和实例分割（APm）中表现突出：

骨干网络	mAP (RetinaNet)	mAPb (Mask R-CNN)
Swin-T	41.5	42.2
BiFormer-S	45.9	47.8

4.3 语义分割（ADE20K）

骨干网络	mIoU (UperNet)
CSWin-T	49.3
BiFormer-S	49.8
BiFormer-B	51.0

5. 消融实验

5.1 BRA有效性验证

对比不同注意力机制，BRA显著提升分类与分割性能：

注意力机制	Top-1 (%)	mIoU (%)
移位窗口	81.3	41.5
可变形注意力	82.0	42.6
BRA	82.7	44.8

5.2 架构设计影响

逐步优化模型结构（如重叠补丁嵌入、更深布局）可进一步提升性能：

设计选择	Top-1 (%)
基线（Swin-T）	82.7
+ 更深布局	83.5
+ 卷积位置编码	83.8

6. 可视化与讨论

6.1 注意力图分析

图4显示，BRA能准确定位语义相关区域。例如，街景中的建筑物查询会激活相似区域，而室内场景中的鼠标查询关联到键盘和显示器区域，表明其对长距离关系的捕捉能力。

6.2 局限性

BRA引入的区域路由步骤可能导致GPU内核启动开销。未来可通过内核融合优化加速。

7. 结论

BiFormer通过双层路由注意力机制实现动态稀疏性，在多个视觉任务中达到SOTA性能。其核心创新在于结合粗粒度区域过滤与细粒度令牌注意力，平衡效率与精度，为视觉Transformer设计提供了新思路。

附录

区域表示：区域级查询和键通过平均池化计算，最大化平均令牌间亲和力。
吞吐量对比：BRA相比四叉树注意力快3-6倍，因依赖密集矩阵乘法而非稀疏计算。
预训练适配：将BRA应用于预训练ViT，在语义分割任务中mIoU提升2.4%。

代码地址：https://github.com/rayleizhu/BiFormer

BiFormer：具有双层路由注意力机制的视觉Transformer