【CAM2025】计算机视觉|即插即用|MWAS:炸裂!MWAS模块,让小目标检测性能狂飙!

发布于:2025-09-09 ⋅ 阅读:(18) ⋅ 点赞:(0)

图片
论文地址:https://arxiv.org/abs/2505.05741
代码地址:https://github.com/RicePasteM/Dome-DETR


关注UP CV缝合怪,分享最计算机视觉新即插即用模块,并提供配套的论文资料与代码。
https://space.bilibili.com/473764881
图片

摘要

微小目标检测在无人机监控、遥感和自主系统中起着至关重要的作用,能够识别广阔场景中的小目标。然而,现有方法由于冗余的特征处理和僵化的查询分配导致特征利用效率低下和计算成本高。为了应对这些挑战,本研究提出了 Dome-DETR,这是一个具有面向密度特征查询操作的新型框架,可用于高效的微小目标检测。为了减少特征冗余,本研究引入了轻量级密度焦点提取器 (DeFE) 来生成聚类的紧凑前景掩码。利用这些掩码,本研究结合了掩码窗口注意力稀疏化 (MWAS),通过稀疏注意力将计算资源集中在信息最丰富的区域。此外,本研究提出了渐进式自适应查询初始化 (PAQI),它可以自适应地调节跨空间区域的查询密度,以实现更好的查询分配。大量实验表明,Dome-DETR 实现了最先进的性能(在 AI-TOD-V2 上 +3.3 AP,在 VisDrone 上 +2.5 AP),同时保持了较低的计算复杂度和紧凑的模型尺寸
图片

引言

微小目标检测无人机监控、遥感和自动驾驶等领域至关重要,能够识别广阔场景中的小型目标。然而,由于冗余的特征处理和僵化的查询分配策略,现有方法在特征利用效率低下和计算成本高昂方面存在不足。本研究致力于解决这些挑战,并提出了一种名为“掩码窗口注意力稀疏化(MWAS)”的即插即用模块。

微小目标检测的挑战源于其特征的脆弱性和稀疏性。由于微小目标仅占据图像中的少量像素,因此其特征表示很容易在深度神经网络的深层中丢失。虽然维持高分辨率的特征图有助于保留这些信息,但这又会增加计算复杂性和内存消耗可变形DETR虽然通过稀疏可变形注意力机制减轻了部分负担,但由于其广泛的多尺度注意力机制,仍然存在推理延迟较高的问题。RT-DETR通过解耦尺度内和尺度间的交互作用提高了推理速度,但严重依赖于深度、低分辨率的特征,导致小目标检测性能下降。因此,迫切需要一种能够在细粒度特征保留和计算效率之间取得平衡的检测框架。

除了特征表示之外,查询分配策略也给微小目标检测带来了另一个挑战,尤其是在目标分布密集且复杂的航拍图像中。现有的类DETR方法使用固定数量的查询,这种简化的实现方式虽然方便,但在密集场景中会降低召回率,而在稀疏场景中则会浪费计算资源。某些航拍图像包含超过1500个微小目标,远远超过了DETR的查询处理能力。DDQ-DETR增加了查询密度,并应用具有手动设置的IoU阈值类别无关NMS来过滤冗余预测。然而,其固定的查询数量和NMS阈值设置导致在密集场景中召回率较低,并且对实例密度变化不敏感DQ-DETR虽然引入了通过分类计数模块动态调整查询的机制,但其计数头依赖于针对不同数据集手动调整分类超参数,并且模块设计带来了大量的计算开销。这些挑战都突出了对自适应查询机制的需求,该机制能够动态地将查询密度与实例分布对齐,同时消除手动调整并保持效率。

本研究观察到,在卫星图像、无人机图像和自然图像中,前景通常只占图像的一小部分,导致对信息量较少的背景区域进行了过多的计算。这表明,通过强调前景区域可以提高计算效率。此外,浅层CNN特征本身就包含了丰富的空间密度信息。为了利用这一点,本研究设计了一个轻量级的密度焦点提取器(DeFE)来生成与真实标注紧密对齐的密度响应热图。这些热图增强了多尺度编码器特征,并指导解码器中的渐进式查询初始化。此外,由于深层特征提供了场景级上下文信息,而浅层特征中的实例级细节对于检测微小目标至关重要,但其注意力机制成本较高。为了缓解这个问题,本研究使用DeFE生成的图谱,通过掩码窗口注意力稀疏化(MWAS)来抑制不相关的区域,将注意力集中在有意义的窗口上。最后,由于DETR中固定的查询机制难以处理目标数量的大幅变化,本研究提出了渐进式自适应查询初始化(PAQI),它通过将密度图解码为动态抑制阈值来自适应地分配查询,从而消除了手动调整超参数的需要,并提高了密集场景中的召回率

论文创新点

✨ MWAS:一种面向高效小目标检测的即插即用模块 ✨

本研究提出了一个名为MWAS(Masked Window Attention Sparsification,掩码窗口注意力稀疏化)的即插即用模块,用于高效的小目标检测。其创新点如下:

  1. 🖼️ 基于密度图的掩码生成: 🖼️

    • 本研究利用密度图生成二值掩码,保留高密度前景区域,修剪低密度背景区域。
    • 这显著减少了参与注意力的token数量,同时保留了重要的目标细节,从而降低了计算成本。
  2. 🪟 窗口划分和背景token修剪: 🪟

    • 本研究将浅层特征图划分为不重叠的窗口,并根据密度掩码计算窗口级掩码。
    • 仅保留包含前景信息的窗口,进一步减少了计算量,并使注意力机制集中在重要的目标区域。
  3. 🔀 轴排列编码器(APE): 🔀

    • 为了增强跨窗口通信,本研究引入了轴排列注意力机制。
    • 在每个有效窗口内计算注意力后,通过排列特征轴并应用第二个自注意力层,从而在保持局部区域关注的同时,在高置信度区域之间建立了长距离空间交互,有效地捕获了局部和全局依赖关系。
  4. 🎚️ 自适应阈值调整: 🎚️

    • 本研究中二值掩码的阈值并非固定值,而是自适应调整的。
    • 通过寻找满足至少激活一个前景区域的最高阈值,可以更好地保留有意义的目标区域,同时抑制背景冗余,避免了手动调整阈值的繁琐过程。
  5. 🤝 与密度图的协同工作: 🤝

    • MWAS模块与密度预测模块(DeFE)紧密协作。
    • DeFE模块生成的密度图直接用于指导MWAS模块的掩码生成和token修剪,使整个框架能够更有效地利用特征信息,并专注于对小目标检测至关重要的区域。

通过以上创新,MWAS模块在小目标检测中实现了高效的特征增强,在显著提高检测精度的同时,有效降低了计算成本和内存占用,特别适用于处理高分辨率图像和密集目标场景。

论文实验

图片
图片


网站公告

今日签到

点亮在社区的每一天
去签到