【反无人机目标检测】基于分层聚合特征的差异化注意力引导网络在智能无人机监控中的应用

发布于:2025-05-30 ⋅ 阅读:(39) ⋅ 点赞:(0)

Differentiated Attention Guided Network Over Hierarchical and Aggregated Features for Intelligent UAV Surveillance
基于分层聚合特征的差异化注意力引导网络在智能无人机监控中的应用
在这里插入图片描述
论文链接

代码链接

摘要

摘要——基于红外成像的智能无人机(UAV)监视系统在保护城市安全和空域安全的反无人机系统中具有广泛应用。然而,微弱的目标特征与复杂的背景干扰对无人机精确检测提出了巨大挑战。为解决该问题,本文提出一种新型差分注意力引导网络,通过自适应增强无人机目标与复杂背景间的判别性特征实现精准检测。首先,在深层网络引入空间感知通道注意力机制(SCA),通过保留关键空间特征并利用通道间依赖性来聚焦大尺度目标;在浅层网络采用通道调制可变形空间注意力机制,通过细化通道上下文信息并动态感知空间特征来锁定小尺度目标;网络中间层则结合上述两种注意力机制以专注中等尺度目标检测。其次,在检测分支嵌入特征聚合器,通过自下而上的上下文调制引导高层与低层特征图的信息交互,并在末端集成SCA模块以进一步增强任务感知的判别性特征表征。该设计能自适应增强多尺度无人机目标特征并抑制复杂背景干扰,尤其显著提升小目标检测性能。在真实红外无人机数据集上的大量实验表明,所提方法以显著优势优于基准目标检测器验证了其在现实世界红外无人机检测中的可行性。

索引术语——注意力机制、红外目标检测、网络变换、实时无人机监视、无人驾驶航空器(UAV)。

1.引言

近年来,无人机(UAV)凭借其高机动性、体积小及成本低等优势,在民用和军事领域得到广泛应用。然而,其对空域安全及公共安全的重大威胁引发严重关切,亟需采取必要管控措施。由于具备全天候工作能力和远距离监测特性,热红外成像技术已成为反无人机系统中对目标实施持续监视最适宜且重要的感知手段之一[1]、[2]、[3]、[4],如图1所示。但红外无人机监测任务仍面临以下挑战。

在这里插入图片描述

图1. 智能无人机监控示意图。红外传感器捕获图像并传输至所提出的检测网络,检测结果将进一步传递至拦截系统。S/M/L分别表示小型/中型/大型无人机目标,右侧不同网络层的热力图显示DAGNet对不同尺度红外无人机目标的高度关注。

  1. 弱目标特征:与光学图像相比,无人机目标通常仅占据整幅图像的极小部分,且缺乏纹理、颜色等显著特征,导致目标识别困难。
  2. 目标尺度变化:无人机运动过程中的动态变化导致观测图像呈现多尺度特性。其中小尺度目标的检测尤为重要,因为远距离监测能为早期预警和反制措施提供充足响应时间。
  3. 复杂背景干扰:无人机可能在强光云层、树林灌木、建筑群等背景下飞行,目标易受背景干扰或淹没,呈现微弱暗淡的特征。

在本文中,我们旨在检测各种复杂背景条件下单帧图像中的多尺度红外无人机目标。

过去几年中,许多研究致力于解决红外目标检测问题,这些方法可分为两类:1) 模型驱动方法;2) 数据驱动方法。前者主要依赖于红外目标的人工设计特征,例如张量部分和核范数(PSTNN)[5]与双邻域梯度法(DNGM)[6]等方法实现相对简单,但在复杂背景或目标尺度频繁变化时检测效果通常较差。后者基于卷积神经网络(CNN),能够自适应地从样本图像中学习特征。一些先进的目标检测基准方法(如Faster R-CNN[7]、Cascade R-CNN[8]、SSD[9]、YOLOv5[10]、RetinaNet[11]、EfficientDet[12])被提出以应对多尺度目标检测问题。然而这些方法专为细节丰富的高分辨率光学图像设计,难以在分辨率低、细节粗糙的红外图像中实现高性能检测。近期许多研究尝试设计专用于红外目标检测的CNN模型:Hou等[13]提出鲁棒红外小目标检测网络(RISTDNet)以检测特征不明显的红外无人机目标;Fang等[2]通过扩张残差网络融合全局与局部特性,提出扩张残差U-Net(DRUNet);Dai等[14]提出非对称上下文调制(ACM)机制,利用注意力上下文捕捉红外小目标特征。这些方法相比基准检测器更适配红外无人机目标检测,但仍未充分挖掘红外无人机目标的特征优势。

为更好地解决上述红外无人机目标检测中的难点,我们提出一种差异化注意力引导网络(DAGNet),以自适应捕获并增强多尺度无人机目标与复杂背景间的判别性特征。具体而言,该网络具备以下特性:

  1. 骨干网络中注意力机制的精心布局:注意力机制本质上能够筛选骨干网络中的判别性层级特征并自动抑制背景。然而,不同层级特征对不同尺度目标检测的贡献度存在差异,因此将适宜的注意力机制整合至网络中至关重要。本研究在深层嵌入新型通道调制可变形空间注意力(CDSA)以聚焦大尺度目标,在浅层部署空间感知通道注意力(SCA)以关注小尺度目标,并在中间阶段采用CDSA与SCA联合的双维度组合注意力(DCA)以聚焦中等尺度目标。

  2. 空间感知通道注意力:通道注意力通过自适应加权通道维度特征分布,可视为面向目标的特征选择过程。Hu等[15]提出采用全局平均池化的通道注意力挤压激励网络(SENet),Woo等[16]提出结合全局平均与最大池化的改进通道注意力模块(CBAM)。然而这些机制仅用单一全局值表征通道特征图的空间属性,严重削弱了红外无人机目标的特征表征能力,可能导致通道重要性评估失准[14]。为此,我们设计SCA模块:采用n×n最大池化与n×n卷积聚合空间信息,从而更精准地表征单通道特征图的空间属性。由此,红外无人机目标的特征能有效映射至通道权重并得到正确增强,最终提升检测性能。

  3. 通道调制可变形空间注意力:空间注意力通过加权空间维度特征分布,自适应强化目标像素区域并抑制背景内容。Woo等[16]提出的空间注意力采用双通道池化操作,但会损害单空间元素内通道特征的有效表征,且无法建模几何变换。本文提出的CDSA模块采用逐点卷积实现通道信息交互,继而通过可变形卷积[17]根据无人机目标尺度与姿态动态调整感受野。更少的通道信息压缩与动态空间信息表征,能有效区分复杂背景下的真实红外无人机目标,同时提升目标定位敏感性。

  4. 特征金字塔网络的FA模块:原始特征金字塔网络(FPN)[18]通过自上而下方式融合高层与相邻低层特征图以实现多尺度检测。但深层特征图中的红外无人机目标易被背景淹没,且深层高级特征无法提供精确的目标语义信息。为此,我们提出特征聚合器(FA)模块。

首先,引入通道注意力调制模块以自底向上的方式,利用相邻低层特征图的空间细节指导高层特征的精细化。随后,我们在末端添加一个SCA模块以增强任务感知能力。相较于原始融合策略,我们的特征聚合方法不仅能有效整合低层与高层特征以实现多尺度红外无人机检测,还能再次突出目标并抑制背景干扰。

综上所述,我们的主要贡献可归纳如下。

  1. 针对复杂背景下的红外成像无人机检测任务,我们提出基于差异化注意力特征增强机制(DAFEM)的DAGNet。该网络依据不同层次目标特征对多尺度目标检测的贡献度,差异化配置多种注意力机制,能够自适应增强层次化多尺度无人机目标特征并抑制背景内容,从而提升检测性能。

  2. 为在网络中保留更丰富的多尺度(尤其是小尺度)红外无人机目标特征以实现更精细的特征表达,我们提出CDSA机制;针对干扰目标下的无人机精准辨识与定位问题,设计了SCA机制;另提出DCA机制以增强蕴含丰富空间与通道特征的中间层特征。这些注意力机制能自适应表征多尺度红外无人机目标与动态场景的鉴别性特征,使检测模型对复杂背景具有更强鲁棒性。

  3. 为提升红外无人机目标的多尺度检测性能,我们提出FA机制。通过将低层特征图的空间细节与高层特征图的上下文信息通过调制模块融合,并自适应筛选关键任务相关特征,该机制能强化网络的目标定位与分类感知能力,从而进一步提升多尺度红外无人机目标的检测性能。

本文其余部分结构如下:第二节简述相关研究工作;第三节详述所提出的网络架构;第四节展示实验结果;最后,第五节总结全文。

2.相关工作

A. 基于锚点的目标检测

基于锚点的目标检测方法通常可分为两阶段和单阶段两类。前者(如Faster R-CNN[7])首阶段利用区域提议网络(RPN)生成候选区域,第二阶段进一步分类定位;后者(如SSD[9])则通过全局图像分类与回归直接获取类别概率和边界框,无需RPN。但二者均无法兼顾精度与效率。RefineDet[19]等方法虽尝试解决此问题,但受限于架构设计,精度仍有不足。本文通过注意力机制与网络架构重构,构建了鲁棒高效的红外无人机检测网络。

B. 注意力机制

注意力机制(如通道注意力与空间注意力)被广泛用于增强网络中的关键特征。Hu等人[15]提出的SENet通过获取全局通道相关性响应对特征图进行加权;Woo等人[16]随后提出CBAM,将通道注意力与空间注意力相结合以从两个维度增强特征。尽管已有研究[20]、[21]、[22]引入了注意力机制,但其方法缺乏对不同层级输出特征图中红外目标特征表征的系统分析,在应对无人机检测中复杂背景等问题时仍显不足。本方法综合利用对多尺度红外无人机目标检测至关重要的多种注意力机制。

C. 红外小目标检测方法

红外小目标检测方法可分为基于传统模型驱动的方法和基于数据驱动的深度学习方法。前者依赖手工设计的特征提取器(FE)来区分红外小目标与不同背景(如PSTNN[5]和DNGM[6])。尽管取得了一定性能,这些方法极易受复杂背景(如强云层和树木)等检测环境变化的影响,且需繁琐的超参数调优,因此难以适配真实场景的红外无人机检测任务。后者通过网络架构和大量数据学习检测(如RISTDNet[13]和ACM[14])。虽然性能优于模型驱动方法,但在复杂动态场景下精确提取和表征多尺度无人机目标特征仍面临挑战,导致误检或漏检频发。本方法通过多种注意力机制动态自适应增强目标特征,最终取得了优于当前先进方法(即DNGM[6]和ACM[14])的检测效果。

3.方法

在本节中,我们将详细阐述整体提出的网络设计方案,涵盖可变形卷积目标检测网络与差异化注意力机制。

A. 可变形卷积目标检测网络

我们设计了如图2所示的可变形卷积目标检测网络,旨在构建单路径主干网络以提升推理速度。该网络由以下三个主要部分组成:1)特征提取器(FE);2)特征适配器(FA);3)检测头(DH)。

在这里插入图片描述
图2. DAGNet架构概览。第一层级(由五个含TCB的网络阶段构成)为特征提取器(FE)。CDSA、DCA与SCA是提出的注意力机制,分别代表通道调制可变形空间注意力、双维度组合注意力及空间感知通道注意力。第二层级为特征聚合器(FAs)。MCB是由一个1×1卷积与两个连续3×3卷积构成的多卷积块。第三层级为检测头(bbox_pred与cls_prob)。从CDSA、DCA和SCA延伸的虚线框表示对应注意力机制的作用效果,其中红橙色图像表示注意力热图,左右两侧偏蓝图像分别为受注意力影响前/后的中间特征图。

1) 特征提取器(FE)

  1. 特征提取器(FE):作为DAGNet的骨干网络,FE受RepVGG[23]启发,用于高效提取红外无人机目标特征。我们在FE中设计了五个网络阶段,该结构分别由1、4、6、16和1个可变形卷积块(TCB)组成。FE架构的具体说明可在补充材料中查阅。

TCB是FE的主要组成部分。其训练阶段与推理阶段结构分别如图3(a)和©所示。在训练阶段,输入特征图将被馈入三个卷积路径:3×3卷积路径、1×1卷积路径和恒等路径。随后,三条路径的输出结果经加和后通过激活层。在推理阶段,TCB会从多路径形式转换为单路径形式以提升推理速度,此时仅包含一个3×3卷积层和激活层。这种TCB的转换机制既能在训练阶段学习多感受野特征表示,又可显著降低推理阶段的模型复杂度,有助于实现检测性能与效率的更好平衡[23]。

在这里插入图片描述

图3. TCB结构示意图。(a) 训练阶段的原始TCB。(b) TCB的中间形态。© 推理阶段的最终TCB结构。

2) 特征聚合器

  1. 特征聚合器:为实现多尺度红外无人机目标检测,我们提取主干网络第2至第5阶段的输出特征图,采用自上而下的渐进融合方式。在主干网络中,浅层特征图包含更精细的结构细节特征,有利于定位和小目标检测;深层特征图则具有更丰富的有利于分类和大目标检测的语义特征。在高层特征中,小型无人机目标容易被复杂背景淹没,因此直接的自顶向下特征融合难以突出红外无人机目标的细节。原始FPN[如图4(a)所示]仅考虑了将浅层特征图与相邻上采样深层特征图进行简单融合的操作,缺乏对两个特征图重要性的全面考察。而ACM[如图4(b)所示]通过两个加权分支在浅层与深层特征图间交换特征重要性信息,使语义与结构信息相互补充。但由于加权后可能存在特征错位问题,特征融合后未进行相对有效的特征重校准。针对此问题,我们提出通过将来自浅层特征图的逐元素注意力图与深层特征图相乘来传播低级空间细节,并在特征融合后采用提出的通道注意力机制SCA。这构成了一个自底向上的上下文调制路径,能够补充深层特征图中的空间属性,从而增强网络对目标位置的感知能力,进一步提升红外无人机目标的检测效果。

在这里插入图片描述

图4. 不同特征融合策略对比。(a)-©分别为原始FPN[18]、ACM[14]及本文提出的FA方法,激活操作已省略。

所提出的FA结构如图4©所示。我们首先采用一个逐点卷积和两个3×3卷积对低级特征图进行特征校准,并将通道数固定为256。同时使用反卷积将深层特征图上采样至2倍空间尺寸。随后在低级特征图上连续应用两个逐点卷积生成通道注意力图:首个逐点卷积将通道压缩至64,第二个则恢复至256以实现通道上下文信息聚合。经过sigmoid层后,该注意力图与深层特征图进行乘法融合,最后将低级与深层特征图相加。最终,融合后的特征图将通过SCA模块进行特征重校准并增强模型的任务感知能力。给定输入的低级特征图S和深层特征图D,该融合操作可表述为:

S ′ = C o n v 3 × 3 ( C o n v 3 × 3 ( P W C o n v ( S ) ) ) ( 1 ) \mathrm{S^{\prime}=Conv_3\times3(Conv_3\times3(PWConv(S)))\quad(1)} S=Conv3×3(Conv3×3(PWConv(S)))(1)

S m a p ′ = σ ( P W C o n v ( P W C o n v ( S ′ ) ) ) ) \mathrm{S}_{\mathrm{map}}^{\prime}=\sigma(\mathrm{PWConv}(\mathrm{PWConv}(\mathrm{S}^{\prime})))) Smap=σ(PWConv(PWConv(S))))

D ′ = S m a p ′ ⊙ D e C o n v 2 × 2 ( S ) \mathrm{D^{\prime}=S_{map}^{\prime}\odot DeConv_2\times2(S)} D=SmapDeConv2×2(S)

O = S C A ( D ′ + S ′ ) \mathrm{O}=\mathrm{SCA}(\mathrm{D}^{\prime}+\mathrm{S}^{\prime}) O=SCA(D+S)

其中PWConv表示逐点卷积,DeConv_2×2代表核尺寸为2×2的反卷积, σ σ σ为sigmoid函数, ⊙ \odot 表示逐元素相乘。 S ′ S' S D ′ D' D为加法融合前的两个特征图, S m a p ′ S'_{map} Smap是空间注意力图,O为输出的融合特征图。

3) 检测头与损失函数

  1. 检测头与损失函数:检测头负责对潜在目标进行分类与定位,最终输出检测结果。如图2所示,我们构建了四个检测分支用于目标分类与定位。同时采用锚框校准策略优化网络中的先验框:这些框在特征聚合前会根据输出特征表示进行粗校准,随后输入最终边界框回归模块实现精细定位。该策略缓解了单阶段方法[19]中一次性回归的缺陷。

损失函数分为两部分:1) 第一部分源自第一阶段锚框调整,其粗粒度判定锚框的目标属性(前景或背景)及其位置与尺寸;2) 第二部分在前述校准结果的辅助下执行多类别分类与精确定位。整体损失函数如下所示:

L = 1 N f s { ∑ i L o ( p i , [ g t i l ≥ 1 ] ) + ∑ i [ g t i l ≥ 1 ] L r ( x i , g t i b ) } + 1 N s s { ∑ i L m ( c i , [ g t i l ≥ 1 ] ) + ∑ i [ g t i l ≥ 1 ] L r ( t i , g t i b ) } ( 5 ) \begin{aligned}\mathfrak{L}&=\frac{1}{N_{fs}}\left\{\sum_i\mathfrak{L}_o(p_i,[gt_i^l\geq1])+\sum_i[gt_i^l\geq1]\mathfrak{L}_r(x_i,gt_i^b)\right\}\\&+\frac{1}{N_{ss}}\left\{\sum_i\mathfrak{L}_m(c_i,[gt_i^l\geq1])+\sum_i[gt_i^l\geq1]\mathfrak{L}_r(t_i,gt_i^b)\right\}\\&\mathrm{(5)}\end{aligned} L=Nfs1{iLo(pi,[gtil1])+i[gtil1]Lr(xi,gtib)}+Nss1{iLm(ci,[gtil1])+i[gtil1]Lr(ti,gtib)}(5)

其中下标fs和ss分别表示第一阶段和第二阶段; L o \mathcal{L}_o Lo L m \mathcal{L}_m Lm L r \mathcal{L}_r Lr分别为目标性分类、多类别分类和边界框回归的损失函数; N f s N_{fs} Nfs N s s N_{ss} Nss分别代表第一阶段和第二阶段的正样本锚框数量; i i i定义锚框索引, g t i l gt^l_i gtil g t i b gt_i^b gtib分别表示真实值中的类别标签与边界框, p i p_i pi为目标性得分, c i c_i ci为预测类别得分。 x i x_i xi表示第一阶段校准锚框的坐标, t i t_i ti为输出边界框的最终预测坐标。方括号内为判定条件的符号函数,更多细节详见文献[19]。

B. 差异化注意力特征增强机制

为根据红外无人机目标在空间与通道维度的分布特性凸显其特征,我们提出差异化注意力特征增强机制(DAFEM),该机制包含SCA、CDSA、DCA模块,并依据特征表征在主干网络中按序配置上述注意力模块。

1) 空间感知通道注意力SCA

  1. 空间感知通道注意力机制:我们设计了SCA模块,通过自适应加权通道特征的重要性来筛选与无人机相关的特征。该注意力机制的概览如图5©所示,而SENet通道注意力和CBAM通道注意力分别如图5(a)和(b)所示。

在这里插入图片描述

图5. 不同通道注意力机制对比。(a)原始SENet通道注意力[15]。(b)CBAM通道注意力[16]。©提出的SCA机制。其核心差异在于能够保留更多空间特性,从而更精细地判定哪些通道与无人机目标关联性更强,以此提升对干扰物场景下的无人机目标分类性能。

假设输入特征图为 X ∈ R C × H × W X ∈ \mathbb{R}^{C×H×W} XRC×H×W,其中C、H、W分别表示通道数、高度和宽度。与SENet[15]和CBAM[16]采用全局池化操作获取各通道全局空间响应不同,我们改用核尺寸为n×n的最大池化操作与相同核尺寸的卷积操作来生成两个张量 X 1 ∈ R C × H / n × W / n X_1 ∈ \mathbb{R}^{C×H/n×W/n} X1RC×H/n×W/n X 2 ∈ R C × H / n × W / n X_2 ∈ \mathbb{R}^{C×H/n×W/n} X2RC×H/n×W/n,其中每个通道的元素对应输入特征图中特定的n×n区域。鉴于数据集中红外无人机目标尺寸至少为4×4像素,我们设定n=4(消融实验见补充材料)。相较于采用全局池化的SENet和CBAM,该方法更可能保留红外无人机目标的空间特性——这类目标特征在全局池化中易被背景淹没,因而对红外无人机目标检测极为有利。此外,后续通道注意力机制能更精细地判别哪些通道与红外无人机目标关联更紧密。

空间收缩后, X 1 X_1 X1 X 2 X_2 X2相加得到 X ′ X' X,随后通过逐点卷积计算整体输出各通道的重要性,随后通过反卷积操作将空间维度从 ( C , H / n , W / n ) (C, H/n, W/n) (C,H/n,W/n)恢复至 ( C , H , W ) (C, H, W) (C,H,W)。经过Sigmoid层将统计量转换至0到1之间后,最终获得通道注意力图 X c m a p ∈ R C × H × W X_{cmap}∈\mathbb{R}^{C×H×W} XcmapRC×H×W,该图将与输入特征图进行逐元素相乘。此自门控机制可表述为

X 1 = M P n × n , X 2 = C o n v n × n ( r ) ( X ) ( 6 ) X_1=\mathrm{MP}_n\times n,X_2=\mathrm{Conv}_n\times n_{(r)}(X)\quad(6) X1=MPn×n,X2=Convn×n(r)(X)(6)

Y c ( X ) = X ⊙ σ ( D e C o n v 2 × 2 ( P W C o n v ( X 1 + X 2 ) ) ) ( 7 ) Y_c(X)=X\odot\sigma(\mathrm{DeConv}_2\times2(\mathrm{PWConv}(X_1+X_2)))\quad(7) Yc(X)=Xσ(DeConv2×2(PWConv(X1+X2)))(7)

其中 X X X为输入特征图, X 1 X_1 X1 X 2 X_2 X2是通过最大池化和卷积操作得到的收缩中间特征图,MP表示最大池化, σ σ σ代表sigmoid函数, Y c ( X ) Y_c(X) Yc(X)是通道级增强后的输出特征图。

通过采用SCA方法,红外无人机目标的跨通道特征将被赋予接近1的评分值,而其他与背景相关的通道则获得接近0的评分。因此,红外无人机目标特征会得到通道层面的增强,同时背景内容会被通道层面抑制,从而提升网络区分真实目标与复杂背景的任务感知能力。对于SENet通道注意力机制[如图5(a)所示]和CBAM通道注意力机制[如图5(b)所示],二者均通过将空间信息压缩至1×1的单一数值来实现,这对捕获较大目标的全局特性较为有效。然而红外无人机目标通常尺寸微小且亮度暗淡,其全局特性较少而局部特性更为显著。我们提出的SCA方法[如图5(a)所示]能捕获更多局部特征并保留更丰富的空间细节,从而实现更精细的通道重要性判定,最终提升无人机目标在干扰物场景下的分类性能。

2) 通道调制可变形空间注意力CDSA

  1. 通道调制可变形空间注意力机制:空间维度特征与通道维度特征同等重要,因其蕴含丰富的目标位置信息。为此,我们设计了CDSA模块,通过在空间维度增强目标属性以突出红外无人机目标并抑制背景干扰,如图6©所示。图6(a)(b)分别展示了与SENet类空间注意力及CBAM空间注意力的对比效果。

在这里插入图片描述

图6. 不同空间注意力机制对比。(a) 类SENet空间注意力[15];(b) CBAM空间注意力[16];© 本文提出的CDSA。核心差异在于CDSA压缩较少信息,使网络在空间维度上对无人机目标位置具有更强感知能力。该优势可提升目标定位精度,并保留更多网络特征。

给定相同的输入特征图 X ∈ R C × H × W X ∈ \mathbb{R}^{C×H×W} XRC×H×W,我们首先采用逐点卷积调制通道上下文信息并将通道维度降至 C / r C/r C/r(本方法设r=4,该超参数的消融实验详见补充材料)。随后通过3×3可变形卷积与批归一化(BN)计算空间显著性统计量。该可变形卷积能根据无人机目标尺度和姿态动态捕获空间特征,形成空间注意力图——其自适应增强目标区域并抑制背景内容,从而提升检测性能。接着使用另一个逐点卷积将通道维度恢复至C,经Sigmoid函数运算后获得最终的空间注意力图 X s m a p X_{smap} Xsmap。此时 X s m a p X_{smap} Xsmap上每个空间元素的取值区间为0至1,趋近1表示该区域更可能关联目标,趋近0则反之。最后将 X s m a p X_{smap} Xsmap与输入特征图进行逐元素相乘。该空间注意力机制可表述为

Y s ( X ) = X ⊙ σ ( P W C o n v ( B N ( DeformConv ( P W C o n v ( X ) ) ) ) ) ( 8 ) Y_s(X)=X\odot\sigma(\mathrm{PWConv}(\mathrm{BN}(\text{DeformConv}(\mathrm{PWConv}(X)))))(8) Ys(X)=Xσ(PWConv(BN(DeformConv(PWConv(X)))))(8)

其中, Y s ( X ) Y_s(X) Ys(X)为经过空间维度增强的输出特征图,DeformConv表示3×3可变形卷积,BN代表批量归一化。

与SCA类似,CDSA能够为目标区域分配较高分数而降低背景内容分值,这有助于网络更精准地定位图像中的目标。此外,由于红外无人机目标尺寸较小且亮度较低,凸显其空间存在性至关重要。通过CDSA增强其空间特性,红外无人机目标的特征能够在深层网络中更有效地被利用。与类似SENet的空间注意力[见图6(a)]及CBAM空间注意力[见图6(b)]相比,一个显著差异在于我们提出的CDSA[见图6(a)]未将通道维度压缩至1,从而避免了严重的信息损失。此外,3×3可变形卷积操作对目标尺度和形状具有更强鲁棒性,这些特性共同实现了更优的无人机目标定位效果。

3) 双维度组合注意力

  1. 双维度组合注意力:网络中间阶段生成的特征图通常同时包含空间与语义特征。本研究将SCA与CDSA耦合构成DCA模块(如图7所示)。在DCA中,特征先通过SCA进行通道维度增强,再经CDSA进行空间维度增强。该结构的设计初衷是:我们认为首先确定哪些通道维度富含红外无人机目标特征,进而在这些通道特征图上精确定位目标的空间位置具有关键意义。

4) 注意力机制的结构安排

在整个骨干网络中,每个卷积块仅存在SE模块(通道注意力);类似地,在CBAM[16]中,骨干网络的每个卷积块仅包含CBAM模块(通道注意力与空间注意力)。然而FPN[18]指出,浅层特征图包含更精细的结构特征,有利于定位和小目标检测;深层特征图则具有更丰富的语义特征,有助于分类和大目标检测。由此观之,骨干网络中存在着不同层级的特征表征,这意味着应根据特征层级采用相应的注意力机制。由于提出的SCA用于增强通道语义特征,CDSA用于强化空间结构特征,DCA则兼具二者功能,我们遵循骨干网络FE中的特征表征规律,在网络各阶段末端嵌入不同的注意力模块以增强相应层级的丰富特征。我们将FE第2至5阶段输出的四个特征图依次标记为A、B、C、D,其注意力机制配置如下:

  1. 特征图A具有较大的空间尺寸,我们认为其包含更多有助于目标定位的精细空间特征,因此选择在其上施加空间注意力机制,并在阶段2末端嵌入一个CDSA模块;
  2. 特征图D的多数通道包含丰富语义信息,为此我们在阶段5末端嵌入一个SCA模块以施加通道注意力;
  3. 特征图B和C在我们看来同时具备较丰富的结构和语义特征,故分别在阶段3与阶段4末端各嵌入一个DCA模块。

采用DAFEM方法时,CDSA能有效增强低层级结构特征,确保红外无人机目标的特征传递至网络更深层级,从而使这些特征更可能存在于深层网络中。借助这些保留的特征以及SCA提供的额外通道增强,红外无人机目标能在复杂背景下实现更精准的分类并保持鲁棒性,进而获得更优的检测性能。

4.实验

在本节中,我们通过实验验证所提方法相较于其他对比方法的有效性。首先介绍用于训练和测试所有方法的数据集与实验设置,随后呈现定量与定性的实验结果。最后设计若干消融实验并汇报结果。

A. 数据集

我们选取了9段红外图像序列,每段序列均呈现反无人机场景中的典型挑战,例如强云背景干扰和运动模糊。所有序列共计75,666帧图像,其中红外无人机目标的像素尺寸从约15像素至200余像素不等,构成多尺度红外检测任务。我们对每段序列中的目标进行了精细标注,并按9:1的比例划分为无交集的训练集与测试集。数据集中包含两个开源红外无人机数据集(序列8[24]与序列9[25]),用于验证本方法的有效性。更多细节可参阅补充材料。

B. 评估指标与实验设置

我们采用以下常用指标验证各方法性能:1) 检测精度§;2) 召回率®;3) F1值(F1)。同时引入帧率(FPS)、网络参数量与浮点运算量(FLOPs)来评估检测效率及模型复杂度。理论上,合格的检测方法应具备低参数量、低FLOPs特性,同时保持高P值、高R值、高F1值和高FPS。

所提出的网络采用SGD优化器进行训练,总迭代次数为120 000次,初始学习率为0.001,批量大小为24,动量为0.9,权重衰减为0.0005。学习率在80 000次和100 000次迭代时按量级衰减。该框架在配备NVIDIA GeForce RTX 3090 GPU的服务器上实现,并通过CUDA 11.1加速。软件实现采用Python 3.9和Pytorch 1.8.1。

为便于比较,我们选取Faster R-CNN[7]和Cascade R-CNN[8]作为两阶段基线方法,选取SSD[9]、RefineDet[19]、RetinaNet[11]、EfficientDet[12]和YOLOv5[10]作为单阶段基线方法。同时选取红外小目标检测方法进行对比,即模型驱动方法DNGM[6]与数据驱动方法ACM[14]。需说明的是:Faster R-CNN、Cascade R-CNN和RetinaNet的骨干网络采用ResNet-50;SSD和RefineDet采用VGG-16骨干网络;EfficientDet选用其D1架构;YOLOv5采用yolov5l配置。红外小目标检测方法均保持默认设置。所有实验在相同软硬件环境下进行,各方法参数均调至最优状态。

C. 定量结果

在本部分,我们对所提方法与前述八种对比方法在八组选定红外图像序列上的量化比较结果进行展示,如表I所示。可见所提方法性能优于其他方法,尤其在Seq. 2和Seq. 4中,本方法在精确率§、召回率®和F1值上均达到显著的1.0分,充分证明了其在复杂背景环境下检测微弱红外无人机目标的能力。此外,我们的该方法在检测精度与效率之间实现了良好平衡,验证了本方法能够实现无人机的实时监测。

在这里插入图片描述

表一 所提方法与其他方法的定量比较

此外,我们在图8中展示了八种方法在序列1至序列4上的P-R曲线。通常,P-R曲线下面积越大代表检测性能越优。可以看出我们的方法在准确性上始终优于其他七种方法。

在这里插入图片描述

图8. 序列1、序列2、序列3及序列4的P-R曲线。曲线下面积(AUC)值标注于各方法名称后方。

此外,我们在表II中列出了各方法的模型参数量与浮点运算次数。无论是参数量还是FLOPs指标,ACM均处于最低值而Cascade R-CNN最高,本方法则在两项指标上保持相对均衡。这揭示了单阶段与两阶段检测器在模型复杂度层面的另一种平衡,对于无需消耗大量计算资源的工业场景检测任务具有实用价值。

在这里插入图片描述

D. 定性结果

图9至图11分别为本方法与其他对比方法在序列2、序列3及序列8上的定性检测结果。受篇幅所限,序列1、序列4、序列5、序列6、序列7及序列9的定性结果置于补充材料中。绿色边界框标注目标真实位置,红色边界框表示检测结果。每幅图像左下角均提供局部放大区域以便观察,各图注中均标注置信度分数。真实值图像中以青色文字"无人机目标"标识目标位置;检测结果图像中,黄色文字"虚警"表示错误检测,橙色文字"漏检"表示检测失败。

在这里插入图片描述

图9. 序列2中第2403帧的定性检测结果。绿色与红色方框分别表示真实标注框与检测框。各方法的检测置信度分数为:(b) 0.85;© 0.52;(d) 0.62;(e) 0.54;(f) 未检测到且存在误报;(g) 未检测到;(h) 未检测到;(i) 未检测到;(j) 1.00。

在这里插入图片描述

图10. 序列3中第2715帧的定性检测结果。绿色与红色方框分别表示真实标注框和检测框。各方法的检测置信度分数为:(b) 0.96;© 0.80;(d) 0.63;(e) 未检出;(f) 0.85;(g) 0.72;(h) 未检出且存在误报;(i) 未检出且存在误报;(j) 1.00。

在这里插入图片描述

图11. 序列8中第89帧的定性检测结果。绿色与红色方框分别表示真实标注框与检测框。各方法的检测置信度分数为:(b) 0.97;© 0.94;(d) 0.85;(e) 0.60;(f) 0.95;(g) 0.64;(h) 未检出且存在误报;(i) 0.79;(j) 1.00。

图9是典型的红外无人机目标淹没在明亮云层中几乎无法清晰识别的实例。图10展示了无人机目标被背景树木严重遮挡的情况。图11呈现了成像设备意外运动模糊导致目标失焦的常见场景。对比方法在实验中得出的置信度分数差异显著。需注意,DNGM在这三幅图像中检测效果较差,存在漏检与误报;ACM同样获得相对较差的检测结果;RefineDet在序列2中未能识别目标;双阶段基线方法表现稳定;单阶段方法(如EfficientDet、RefineDet和YOLOv5)未能在序列2或序列3中检测到目标。检测不一致与漏检可能延误后续应对措施。相比之下,本方法成功检测到无人机目标,始终获得令人满意的置信度分数,且重叠度优于其他方法,证明了本方法在不同复杂背景下的鲁棒性。

E. 消融实验

为验证所提技术(SCA、CDSA、DCA及FA)与创新点的贡献,本研究进行了多项消融实验。更多消融分析结果详见补充材料。

(1) SCA、CDSA、DCA与FA的集成。表III展示了采用/未采用SCA、CDSA、DCA及FA时本检测方法的量化结果。显然,单独使用任一模块均可提升原始检测性能,而组合使用时效果最佳。与首行方法相比,本方案在四项指标上均实现提升,验证了将各模块融入网络的设计初衷。

在这里插入图片描述

(2) 特征提取模块中注意力机制的排列方案。表IV列出了所提注意力机制在骨干网络中不同排列方式的量化结果,末行代表我们提出的方案(即在第一阶段采用CDSA,末阶段采用SCA,中间阶段采用DCA)。为全面验证所提排列方案的有效性,我们实验了其他多种注意力机制组合方式并研究其量化检测结果,包括将SCA置于CDSA之前的方案。由表IV可见,所提排列方案实现了最佳性能。我们还可获得以下额外观察结论。

在这里插入图片描述

  1. 第1至5行显示,随着更多空间通道注意力模块(SCA)逐渐嵌入浅层网络,检测性能明显下降;而当深度通道空间注意力模块(CDSA)从深层重新嵌入网络时,性能指标P显著回升。这验证了空间特性增强对于有效区分红外无人机目标与背景具有关键作用。

  2. 对比第1行与第5-8行可见,早期阶段逐步整合SCA会导致整体检测性能显著降低;而第1至5行表明,在浅层阶段集成更多CDSA能快速提升性能。我们推测这是由于充分挖掘了目标的精细特征,且在早期嵌入CDSA空间注意力能更有效地利用这些特征。

  3. 可以观察到,从第1行到第5行,仅使用单一注意力机制的原始排列方式未能取得更优结果,而混合多种注意力机制更可能获得更好的效果。

  4. 从第9行与第10行可见,在中间阶段引入DCA的方法比此前所有排列方式具有更优的整体性能表现,且第10行结果较第9行提升约1%。这不仅表明中间阶段蕴含丰富的结构与语义信息,且我们的DCA能有效挖掘这些信息,同时也揭示了进一步利用空间特性的重要性。

综上所述,从表IV可以得出以下结论:若能更充分地利用空间特征(尤其在浅层网络中),红外无人机目标的检测效果将显著提升。进一步分析表明,本研究所采用的架构(在中间层嵌入两个DCA模块)实现了最优性能,这验证了我们的观点:介于浅层与深层之间的网络层级需采用组合注意力机制,以同时保留并增强关键特征,从而获得更优的检测性能。

5.结论

本文提出了一种新颖的DAGNet架构,该网络基于层次特征对不同尺度目标检测的贡献度进行精心设计,旨在提升多尺度红外无人机目标的检测性能。我们分别设计了通道调制可变形空间注意力机制、空间感知通道注意力机制(SCA)及其组合方案,以针对性聚焦小尺度、大尺度及中等尺度目标。通过将特征聚合器集成至检测分支,既实现了浅层空间细节向深层特征的编码,又借助SCA增强了任务感知能力。实验验证表明,本方法在真实红外无人机数据上具有良好泛化性,其检测效果优于当前最先进的基准目标检测方法(如YOLOv5[10])与红外小目标检测方法(如ACM[14]),在反无人机监控系统中具备应用潜力。针对未来红外无人机目标检测研究,我们认为需要重点关注无人机目标(特别是微弱小型目标)的特征保留问题,以避免这些特征在网络中消失。

6.引用文献

  • [1] J. Xie, C. Gao, J. Wu, Z. Shi, and J. Chen, “Small low-contrast target detection: Data-driven spatiotemporal feature fusion and implementation,” IEEE Trans. Cybern., vol. 52, no. 11, pp. 11847–11858, Nov. 2022.
  • [2] H. Fang, M. Xia, G. Zhou, Y. Chang, and L. Yan, “Infrared small UAV target detection based on residual image prediction via global and local dilated residual networks,” IEEE Geosci. Remote Sens. Lett., vol. 19, pp. 1–5, 2022.
  • [3] H. Fang, X. Wang, Z. Liao, Y. Chang, and L. Yan, “A real-time antidistractor infrared UAV tracker with channel feature refinement module,” in Proc. IEEE Int. Conf. Comput. Vis. Workshop, 2021, pp. 1240–1248.
  • [4] H. Fang, L. Ding, L. Wang, Y. Chang, L. Yan, and J. Han, “Infrared small UAV target detection based on depthwise separable residual dense network and multiscale feature fusion,” IEEE Trans. Instrum. Meas., vol. 71, pp. 1–20, 2022.
  • [5] L. Zhang and Z. Peng, “Infrared small target detection based on partial sum of the tensor nuclear norm,” Remote Sens., vol. 11, no. 4, pp. 1–34, 2019.
  • [6] L. Wu, Y. Ma, F. Fan, M. Wu, and J. Huang, “A double-neighborhood gradient method for infrared small target detection,” IEEE Geosci. Remote Sens. Lett., vol. 18, no. 8, pp. 1476–1480, Aug. 2021.
  • [7] S. Ren, K. He, R. Girshick, and J. Sun, “Faster R-CNN: Towards real-time object detection with region proposal networks,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 6, pp. 1137–1149, Jun. 2017.
  • [8] Z. Cai and N. Vasconcelos, “Cascade R-CNN: High quality object detection and instance segmentation,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 43, no. 5, pp. 1483–1498, May 2021.
  • [9] W. Liu et al., “SSD: Single shot multibox detector,” in Proc. Eur. Conf. Comput. Vis., 2016, pp. 21–37.
  • [10] G. Jocher et al., “ultralytics/yolov5: V6.0 - YOLOv5n ‘nano’ models, roboflow integration, TensorFlow export, OpenCV DNN support,” Oct. 2021. [Online]. Available: https://doi.org/10.5281/zenodo.5563715
  • [11] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollár, “Focal loss for dense object detection,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 42, no. 2, pp. 318–327, Feb. 2020.
  • [12] M. Tan, R. Pang, and Q. V. Le, “EfficientDet: Scalable and efficient object detection,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2020, pp. 10778–10787.
  • [13] Q. Hou, Z. Wang, F. Tan, Y. Zhao, H. Zheng, and W. Zhang, “RISTDnet: Robust infrared small target detection network,” IEEE Geosci. Remote Sens. Lett., vol. 19, pp. 1–5, 2021.
  • [14] Y. Dai, Y. Wu, F. Zhou, and K. Barnard, “Asymmetric contextual modulation for infrared small target detection,” in Proc. IEEE Winter Conf. Appl. Comput. Vis., 2021, pp. 950–959.
  • [15] J. Hu, L. Shen, S. Albanie, G. Sun, and E. Wu, “Squeeze-and-excitation networks,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 42, no. 8, pp. 2011–2023, Aug. 2020.
  • [16] S. Woo, J. Park, J.-Y. Lee, and I. S. Kweon, “CBAM: Convolutional block attention module,” in Proc. Eur. Conf. Comput. Vis., 2018, pp. 3–19.
  • [17] J. Dai et al., “Deformable convolutional networks,” in Proc. IEEE Int. Conf. Comput. Vis., 2017, pp. 764–773.
  • [18] T.-Y. Lin, P. Dollár, R. Girshick, K. He, B. Hariharan, and S. Belongie, “Feature pyramid networks for object detection,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2017, pp. 2117–2125.
  • [19] S. Zhang, L. Wen, X. Bian, Z. Lei, and S. Z. Li, “Single-shot refinement neural network for object detection,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2018, pp. 4203–4212.
  • [20] Y. Dai, Y. Wu, F. Zhou, and K. Barnard, “Attentional local contrast networks for infrared small target detection,” IEEE Trans. Geosci. Remote Sens., vol. 59, no. 11, pp. 9813–9824, Nov. 2021.
  • [21] X. Tong, B. Sun, J. Wei, Z. Zuo, and S. Su, “EAAU-Net: Enhanced asymmetric attention u-net for infrared small target detection,” Remote Sens., vol. 13, no. 16, pp. 1–20, 2021.
  • [22] F. Chen et al., “Local patch network with global attention for infrared small target detection,” IEEE Trans. Aerosp. Electron. Syst., vol. 58, no. 5, pp. 3979–3991, Oct. 2022.
  • [23] X. Ding, X. Zhang, N. Ma, J. Han, G. Ding, and J. Sun, “RepVGG: Making VGG-style convnets great again,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., 2021, pp. 13733–13742.
  • [24] F. Svanström, F. Alonso-Fernandez, and C. Englund, “A dataset for multisensor drone detection,” Data Brief, vol. 39, pp. 1–11, 2021.
  • [25] “2021 IEEE international conference on computer vision 2nd Anti-UAV workshop & challenge,” https://anti-uav.github.io/dataset, Accessed: Dec. 8, 2021.

网站公告

今日签到

点亮在社区的每一天
去签到