2025深度学习发论文&模型涨点之——自注意力机制+CNN成新赛道
卷积神经网络(CNN)与自注意力机制(Self-Attention)的融合已成为计算机视觉与模式识别领域的重要研究方向。传统CNN通过局部感受野和层次化结构有效捕获图像的局部特征,但在长程依赖建模方面存在固有局限;而自注意力机制通过全局交互计算,能够动态建模特征间的空间或通道间依赖关系,显著提升模型对复杂视觉模式的表征能力。两者的结合既保留了CNN的归纳偏置优势,又引入了注意力机制的动态权重分配特性,在图像分类、目标检测、语义分割等任务中展现出显著的性能提升。
我整理了一些自注意力机制+CNN成新赛道【论文+代码】合集,需要的同学公人人人号【AI创新工场】发525自取。
论文精选
论文1:
[CVPR] Vision Transformer with Deformable Attention
具有可变形注意力的视觉变换器
方法
可变形自注意力模块:提出了一种数据依赖的可变形自注意力模块,通过学习动态调整关键和值对的位置,增强对感兴趣区域的关注。
稀疏注意力模式:采用稀疏注意力模式,避免了全注意力机制带来的高计算成本和过拟合风险。
特征融合:结合了卷积网络的局部特征和Transformer的全局特征,通过交互式融合提高特征表示能力。
多尺度特征提取:在模型的后几层引入可变形注意力模块,用于捕捉长距离依赖关系,同时保留局部特征细节。
创新点
性能提升:在ImageNet图像分类任务中,DAT模型相较于Swin Transformer提升了0.7%的Top-1准确率,达到82.0%。
计算效率:通过稀疏注意力模式,显著降低了计算复杂度,减少了内存占用,提升了模型的运行效率。
多任务适应性:在目标检测和语义分割任务中,DAT模型在多个尺度上均优于现有方法,尤其是在小目标和大目标检测上分别提升了2.1%和1.1%的mAP。
数据依赖性:首次提出数据依赖的可变形自注意力机制,能够根据输入数据动态调整注意力焦点,提高了模型对不同输入的适应性。
论文2:
[ICCV] Conformer: Local Features Coupling Global Representations for Visual Recognition
Conformer:局部特征与全局表示耦合用于视觉识别
方法
特征耦合单元(FCU):设计了FCU来融合卷积网络的局部特征和Transformer的全局特征,通过交互式学习提高特征表示能力。
并行网络结构:采用并行结构,保留了CNN和Transformer的特征,最大化地利用了两者的优点。
多尺度特征提取:通过在不同阶段使用不同分辨率的特征图,Conformer能够捕捉多尺度信息。
自注意力机制:在Transformer分支中使用自注意力机制来建模全局依赖关系,同时利用CNN分支提取局部特征。
创新点
性能提升:在ImageNet图像分类任务中,Conformer相较于ResNet-101提升了4.1%的Top-1准确率,达到83.4%。
多任务适应性:在目标检测和语义分割任务中,Conformer在不同尺度上均优于现有方法,尤其是在小目标检测上提升了3.7%的mAP。
特征融合:通过FCU实现了局部特征和全局特征的高效融合,显著提高了模型对复杂场景的理解能力。
计算效率:在保持高性能的同时,Conformer的计算复杂度和参数量与现有方法相当,具有更好的计算效率。
论文3:
[TPAMI] Conv2Former: A Simple Transformer-Style ConvNet for Visual Recognition
Conv2Former:一种简单的Transformer风格卷积网络用于视觉识别
方法
卷积调制操作:提出了一种卷积调制操作来简化自注意力机制,通过大尺寸卷积核(≥7×7)来替代传统的自注意力机制。
层次化网络结构:构建了一系列层次化的卷积网络(Conv2Former),用于图像分类、目标检测和语义分割等任务。
特征融合:结合了卷积网络的局部特征和Transformer的全局特征,通过交互式学习提高特征表示能力。
多尺度特征提取:通过在不同阶段使用不同分辨率的特征图,Conv2Former能够捕捉多尺度信息。
创新点
性能提升:在ImageNet图像分类任务中,Conv2Former相较于ConvNeXt提升了1.1%的Top-1准确率,达到84.1%。
计算效率:通过卷积调制操作,显著降低了计算复杂度,减少了内存占用,提升了模型的运行效率。
大尺寸卷积核:首次提出利用大尺寸卷积核来替代自注意力机制,能够更好地利用卷积层中的空间特征。
通用性:Conv2Former在多个视觉任务上均优于现有的流行卷积网络和Transformer模型,展现出更高的通用性。