【遥感小目标数据集】【AI-TOD】Tiny Object Detection in Aerial Images

发布于:2025-03-27 ⋅ 阅读:(27) ⋅ 点赞:(0)

在这里插入图片描述

0.论文摘要

摘要—近年来,地球视觉中的目标检测取得了巨大进展。然而,航空图像中的微小目标检测仍然是一个非常具有挑战性的问题,因为微小目标包含的像素数量较少,并且容易与背景混淆。为了推动航空图像中微小目标检测的研究,我们提出了一个新的数据集,即航空图像中的微小目标检测数据集(AI-TOD)。具体而言,AI-TOD包含28,036张航空图像中的八类共700,621个目标实例。与现有的航空图像目标检测数据集相比,AI-TOD中目标的平均大小约为12.8像素,远小于其他数据集。为了构建航空图像中微小目标检测的基准,我们在AI-TOD数据集上评估了最先进的目标检测器。实验结果表明,直接应用这些方法在AI-TOD上产生的目标检测结果并不理想,因此需要设计专门用于微小目标检测的检测器。为此,我们提出了一种基于多中心点的学习网络(M-CenterNet),以提高微小目标检测的定位性能,实验结果表明其性能显着优于竞争对手。
关键词—微小目标检测,航空图像,基准,卷积神经网络

1.引言

航空图像中的目标检测是一个开放性问题,具有广泛的应用,包括大规模监控、智能交通和基于位置的服务[1]–[3]。尽管近年来对目标检测问题的研究已经取得了显着进展,但当航空图像中的目标非常微小(例如,小于8像素的微小车辆)时,这仍然是一个非常具有挑战性的问题[4], [5]。

与正常尺度的物体不同,由于航空图像中物体尺寸极小且信噪比极低,检测微小尺度的物体更具挑战性[6]。对于基于卷积神经网络(CNN)的目标检测方法,如使用ResNet-50[8]的Faster R-CNN[7],输入图像会通过池化层下采样16倍。因此,许多微小物体在最终的特征图中会被过滤掉。尽管已有大量方法尝试解决这一问题[9]–[13],但如最近关于目标检测性能上限的研究[14]所示,当前微小物体检测的性能与上限之间仍存在较大差距。

为了在微小目标检测上获得更好的性能,我们不仅需要设计专门的检测器,还需要建立一个专门的基准。然而,现有的大规模目标检测基准如DOTA [1]和DIOR [3]包含各种尺度的目标。DOTA和DIOR中最大的目标分别为1,698像素和764像素。此外,如图1所示,DOTA和DIOR数据集中分别有67.8%和79.0%的目标大于16像素。因此,这些数据集并不适用于微小目标检测和识别等应用。在典型的空间分辨率为两米的航空图像中,普通目标如车辆通常小于8像素,这进一步增加了微小目标检测的难度。

在这里插入图片描述

图1. AI-TOD与其他基准数据集的对比。AI-TOD中最大的对象小于64像素,且86%的对象小于16像素。

此外,由于这些数据集中包含大量大型物体,它们并不适合用于评估检测器在微小物体检测任务中的性能。为了公平地评估典型检测器在微小物体检测任务中的表现,我们建立了一个航空图像中的微小物体检测数据集,称为AI-TOD。AI-TOD包含28,036张航空图像中的700,621个物体实例,涵盖八个类别。与上述数据集不同,AI-TOD中最大的物体尺寸小于64像素,且86%的物体尺寸小于16像素,如图1所示。值得注意的是,如表II所示,AI-TOD中物体的平均尺寸为12.8像素,远小于航空图像和自然图像检测数据集中的物体平均尺寸。

在这里插入图片描述

表 II 不同数据集上物体尺度的均值和标准差。

此外,我们提出了一种简单而有效的方法,称为基于多中心点的学习网络(M-CenterNet),用于检测航拍图像中的微小目标。该方法的直觉是首先定位多个中心点,然后估计相应目标的多个偏移量和尺度。在我们的实验中,所提出的M-CenterNet能够提高定位性能,并在AI-TOD数据集上的AP和oLRP [15] 指标上取得了显着的性能提升。

本文的主要贡献如下:
• 我们提出了AI-TOD数据集,用于航空图像中的微小目标检测。此外,我们通过多种基于CNN的目标检测器建立了相应的基准,并提供了在AI-TOD数据集上最新检测器的概述。训练/验证图像和标注将公开,并设立在线基准用于算法评估。
• 我们提出了一种基于多中心点的学习网络(M-CenterNet)用于微小目标检测,该网络在AI-TOD数据集上的AP和oLRP指标上均取得了最先进的性能。

2.相关工作

A. 航空目标检测数据集

在过去的几年中,为了推动地球视觉领域的物体检测研究,众多航空图像中的物体检测数据集被提出,例如NWPU VHR-10 [16]、HRSC2016 [17]、VEDAI [18]、xView [19]、DOTA [1]、VisDrone [20]、UAVDT [21]和DIOR [3]。然而,这些数据集中的物体具有多种尺度,导致这些数据集更适合评估为多尺度物体检测设计的检测器,而非微小物体检测。尽管一些关于航空图像中微小物体检测的研究使用了航空数据集(例如VEDAI [18]和R2-CNN [4]),但VEDAI仅专注于车辆检测,而R2-CNN中的数据集并未公开。

我们提出的AI-TOD数据集包含八类目标,其中86%的目标小于16像素。与上述数据集相比,AI-TOD更适合评估多类别微小目标检测的性能。此外,AI-TOD已公开,可用于比较不同目标检测器的性能。

B. 航空图像中的目标检测

与基于手工特征的目标检测方法相比,基于卷积神经网络(CNN)的目标检测方法近年来在准确性和速度方面都取得了显着提升。基于CNN的检测器主要可以分为两大类:基于锚点的检测器和无锚点检测器。前者可以进一步分为单阶段检测器和两阶段检测器,而后者则包括基于关键点的检测器和基于中心的检测器。

基于锚点的检测器:对于两阶段检测器,最具代表性的工作是Faster R-CNN [7],它由区域提议网络(RPN)和区域预测网络(R-CNN)[23]组成,用于检测物体。此后,许多检测器被提出以提升其性能,包括FPN [9]、Cascade R-CNN [24]和Trident-Net [10]。对于单阶段检测器,它们直接预测类别概率和边界框偏移,如SSD [25]、RetinaNet [26]和YOLOv3 [27]。因此,单阶段检测器比两阶段检测器更简单且更高效。

无锚点检测器:对于基于关键点的检测器,它们首先定位几个预定义或自学习的关键点,然后生成边界框来检测物体[22],例如CornerNet[28]、Grid R-CNN[29]、CenterNet[30]和RepPoints[31]。对于基于中心的检测器,它们将物体的中心视为前景以定义正样本,然后预测正样本到物体边界框四边的距离来进行检测[22],如DenseBox[32]、FCOS[33]和FoveaBox[34]。

受CNN-based目标检测器在自然场景中取得的巨大成功启发,近期大量研究聚焦于航空图像中的目标检测。与自然场景中的目标检测器不同,大多数研究使用基于锚点的检测器来检测航空图像中的目标,例如R-P-Faster R-CNN [35]、YOLT [36]、RoI Transformer [37]、SCRDet [38]、R2-CNN [4]和Mask OBB [2]。

C. 航拍图像中的微小目标检测

小目标或微小目标检测是一个非常具有挑战性的课题,研究人员已经提出了一些针对微小目标检测的方法。SSD [25] 通过提高输入图像的分辨率来解决微小目标检测问题。FPN [9] 通过自上而下的路径和横向连接融合不同层次的特征,以检测小目标。PSPNet [39] 提出了一种金字塔场景解析网络,利用上下文信息来解决微小目标检测问题。Sig-NMS [5] 提出了一种新的非极大值抑制方法,用于提高航空图像中微小目标的检测精度。R2-CNN [4] 提出了一种专门设计的骨干网络 Tiny-Net,用于检测大规模航空图像中的微小目标。Yu 等人 [6] 提出了一种尺度匹配方法,通过对齐两个数据集中的目标尺度来进行微小目标检测。

我们提出的M-CenterNet是一种基于关键点的无锚点检测器,它使用多个中心点来定位精确的目标中心,以提高微小目标检测的定位性能。

3.数据集细节

A. 数据集构建过程

我们基于公开的大规模航空图像数据集构建了AI-TOD,这些数据集包括:DOTA-v1.5的训练验证集[1]、xView的训练集[19]、VisDrone2018-Det的训练验证集[20]、Airbus Ship的训练验证集1以及DIOR的训练验证+测试集[3]。这些数据集的详细信息如下:

DOTA-v1.5 训练验证集:这是原始 DOTA-v1.0 数据集 [1] 的升级版本,并已用于航空图像目标检测(DOAI2019)的性能评估。DOTA-v1.5 训练验证集包含 1,869 张图像,尺寸从 800 × 800 到 4000 × 4000 像素不等,以及 280,196 个目标实例,这些实例被标注为 16 个类别(例如,船只、小型车辆、储罐)。

xView训练集:这是一个大规模的目标检测数据集,包含1,415平方公里的WorldView-3图像,分辨率为30厘米。该标注数据集用于目标检测,涵盖了60个类别中的超过100万个目标实例,包括各种类型的车辆、飞机和船只[19]。

VisDrone2018-Det 训练验证集。该数据集包含 7,019 张图像,这些图像由无人机平台在不同地点、不同高度拍摄。图像经过人工标注,包含边界框和 10 个预定义类别(例如行人、人、汽车)。

Airbus-Ship训练验证集。这是一个用于Kaggle挑战赛中的船舶检测数据集。Airbus-Ship训练验证集包含42,559张图像和81,724艘船舶,所有对象均以多边形标注。

DIOR 训练验证+测试集。该数据集包含 23,463 张图像和 192,472 个目标实例,涵盖 20 个类别(例如,飞机、船舶、风车)。

为了构建AI-TOD数据集,我们从上述数据集中提取图像和对象实例,具体步骤如下:

  1. 图像尺寸。原始图像被划分为800×800像素的块,重叠部分为200像素。如果原始图像小于800×800像素,则通过填充零像素将其扩展到800×800像素。
  2. 对象类型。我们在AI-TOD数据集中选择了八种类别,包括飞机(AI)、桥梁(BR)、储罐(ST)、船舶(SH)、游泳池(SP)、车辆(VE)、人(PE)和风车(WM)。这些类别的选择基于某类对象在低分辨率航空图像中是否常见及其尺寸。airplane (AI), bridge (BR), storage-tank (ST), ship (SH), swimming-pool (SP), vehicle (VE)
  3. 类别转换。在选定类别后,我们将相应数据集中的旧类别转换为新类别。在此过程中,一些类别不在AI-TOD中的对象将被剔除。
  4. 图像选择。图像的选择依据图像中微小对象的比例和大型对象的数量。需要注意的是,本工作中对象的大小定义为对象边界框面积的平方根。具体而言,对象的绝对大小Sa(·)和相对大小Sr(·)可以通过[6]计算得出:

在这里插入图片描述
其中 b x i = ( c x i , c y x i , w x i , h x i ) bx_i= (cx_i, cyx_i, wx_i, hx_i) bxi=(cxi,cyxi,wxi,hxi) 表示图像 I I I 中第 i i i 个对象的边界框, ( c x i , c y i ) (cx_i, cy_i) (cxi,cyi) w i w_i wi h i h_i hi 分别是 b i b_i bi 的中心坐标、宽度和高度, W W W H H H 是图像的宽度和高度。需要注意的是,在 AI-TOD 中, W W W H H H 均为 800。因此,图像 I I I 中边界框的大小集合可以表示为 S a ( I ) = { S a ( b 1 ) , S a ( b 2 ) , . . . S a ( b N ) } S_a(I) = \{S_a(b_1), S_a(b_2), . . . S_a(b_N )\} Sa(I)={Sa(b1),Sa(b2),...Sa(bN)},其中 N N N 是图像 I I I 中边界框的数量。然后,微小对象的数量 N t N_t Nt 和大型对象的数量 N l N_l Nl 可以定义为:

在这里插入图片描述
其中 1 A ( ⋅ ) 1_A(·) 1A() 1 B ( ⋅ ) 1_B(·) 1B()为指示函数。在本研究中,它们定义为:

在这里插入图片描述

此外,为了保留更多微小物体并丢弃大物体,当 N t / N > 50 % N_t/N > 50\% Nt/N>50% N l = 0 N_l = 0 Nl=0时,我们保留该图像。

经过上述处理,我们得到了最终的微小目标检测数据集AI-TOD,该数据集包含28,036张尺寸为800×800像素的航拍图像,涵盖了八个类别的700,621个目标实例。

在数据集划分中, 2 / 5 2/5 2/5 1 / 10 1/10 1/10 1 / 2 1/2 1/2的图像分别用于构成训练集、验证集和测试集。对于每个对象类别和图像集,对象实例的数量在表I中报告。训练集和验证集的图像及注释将公开提供。对于测试集,我们仅公开提供图像,不提供注释。测试集的注释将用于搭建评估服务器,以便在检测器之间进行公平比较。

在这里插入图片描述

B. AI-TOD 统计数据

在本节中,分析了AI-TOD的特性,并将其与其他相关数据集进行了比较。

每类对象的数量。AI-TOD 数据集包含 700,621 个标注对象实例,涵盖八个类别。图 2a 显示,某些不常见的类别(如游泳池 (SP)、风车 (WM))的对象数量显着少于其他更常见的类别(如车辆 (VE)、船舶 (SH))。这种类别不平衡现象通常存在于航空图像数据集中(例如 DOTA [1]、DIOR [3]),并且对于实际应用非常重要。

在这里插入图片描述

图2. AI-TOD中类别和实例的统计。(a) 每类实例数量的直方图。(b) 每张图像中实例数量的直方图。© 实例大小的直方图。(d) 描绘每个对象类别大小范围的箱线图。注意,类别使用简称定义。

每张图像中的目标数量。由于视野广阔,一张航拍图像中包含许多有趣的目标。如图2b所示,AI-TOD中每张图像的目标数量可高达2,667个,远超自然图像或航拍图像中的常规目标检测数据集。

目标尺寸分布。图2c展示了AI-TOD的尺寸分布情况。目标尺寸主要集中在12像素左右。如表II所示,AI-TOD的绝对尺寸均值和标准差分别为12.8像素和5.9像素,远小于其他自然图像和航拍图像数据集。

在这里插入图片描述

目标类别的尺寸。在AI-TOD中,目标以各种尺寸出现,我们将2到8像素范围内的目标视为非常小,8到16像素为小,16到32为较小,32到64为中等,没有大尺寸目标。AI-TOD中非常小、小、较小和中等目标的百分比分别为13.3%、72.3%、12.3%和2.1%。图2d中的箱线图展示了AI-TOD中每个类别目标面积的统计信息。

4.M-CENTERNET用于微小目标检测

为了从输入图像中区分微小物体,需要高分辨率的特征图。因此,能够输出高质量和高分辨率特征图的关键点预测网络将是微小物体检测的良好选择。我们提出的M-CenterNet受到基于无锚点关键点检测器CenterNet [30]的启发,该检测器使用深度层聚合(DLA)[40]作为高分辨率特征提取网络。与CenterNet不同,我们重新设计了中心点和偏移目标,以更好地进行微小物体检测。

为了确保检测器具有令人满意的性能,需要预测出与真实标注框具有高交并比(IoU)的高质量边界框。然而,IoU对微小物体非常敏感。例如,一个像素的偏差可能导致预测的边界框从正样本变为负样本。因此,准确的定位能力对于获得高精度的微小物体检测性能是必要的。然而,原始的CenterNet使用单个中心点作为真实标注。图3a展示了原始CenterNet的设计,其中红色圆点表示特征图上的真实中心点 C r = ( c x / s , c y / s ) C_r = ( cx/s , cy/s) Cr=(cx/s,cy/s),蓝色点 C g t = ( ⌊ c x / s ⌋ , ⌊ c y / s ⌋ ) C_{gt} = (\lfloor cx/s \rfloor,\lfloor cy/s\rfloor) Cgt=(⌊cx/s,cy/s⌋)和灰色圆点在训练阶段分别被视为正样本和负样本, O g t O_{gt} Ogt是对应正样本的偏移量,其中 ( c x , c y ) ( cx , cy ) (cx,cy)是图像上物体的中心点,s是特征图的输出步长。在这种设计中,当 ( ⌊ c x / s ⌋ , ⌊ c y / s ⌋ ) → ( ⌈ c x / s ⌉ , ⌈ c y / s ⌉ ) (\lfloor cx/s \rfloor, \lfloor cy/s \rfloor) → (\lceil cx/s \rceil, \lceil cy/s \rceil) (⌊cx/s,cy/s⌋)(⌈cx/s,cy/s⌉)时,其中 ⌊ ⋅ ⌋ \lfloor·\rfloor ⌈ ⋅ ⌉ \lceil·\rceil 由公式(6)中的集合方程定义,预测的边界框可能会有最多四个像素的偏差。在这种情况下,预测的边界框与真实标注框的IoU可能小于0.5,从而导致该物体被漏检。

在这里插入图片描述
图3. 检测器训练中的中心和偏移真值示意图。(a) 单中心点设计。红色圆点表示特征图上的真实中心点,蓝色点和灰色圆点在训练期间分别被视为正样本和负样本, O g t O_{gt} Ogt为对应正样本的偏移量。(b) 多中心点设计。红色圆点表示特征图上的真实中心点,蓝色点在训练期间被视为正样本, { O g t i , i = 1 , 2 , 3 , 4 } \{O^i_{gt}, i = 1, 2, 3, 4\} {Ogti,i=1,2,3,4}为对应正样本的偏移量。

在这里插入图片描述
为了解决这个问题,我们没有采用单一中心点设计,而是使用了多中心点设计。如图3b所示,我们将真实中心点周围的四个点视为正样本,除正样本之外的点为负样本。红色圆点表示特征图上的真实中心点 C r = ( c x / s , c y / s ) C_r = (cx/s, cy/s) Cr=(cx/s,cy/s),蓝色点则表示其他点。

在这里插入图片描述在训练期间被视为正样本,并且

在这里插入图片描述

对应正样本的偏移量。我们将这个新检测器称为基于多中心点的学习网络(M-CenterNet)。除了用于训练检测器的真实标签外,中心点、偏移量和尺寸的损失需要通过原始CenterNet的损失函数计算四次,并取平均值作为最终损失。在推理阶段,与CenterNet不同,我们使用2×2的平均池化而非3×3的最大池化来从特征图中找到中心点,并使用非极大值抑制(NMS)来过滤冗余的边界框。

5.实验

A.实验设置

实现细节:我们在配备4块NVIDIA Titan X GPU的计算机上进行了所有实验。我们选择了基于深度学习的物体检测器作为基准测试算法,这些检测器在自然图像中的物体检测领域被广泛使用。具体来说,我们的选择包括

• 基于锚点的两阶段检测器:Faster R-CNN [7]、Cascade R-CNN [24] 和 TridentNet [10];
• 基于锚点的单阶段检测器:YOLOv3 [27]、RetinaNet [26]、SSD [25];
• 无锚点的基于中心的检测器:FoveaBox [34] 和 FCOS [33];
• 无锚点的基于关键点的检测器:RepPoints [31]、CenterNet [30] 和 M-CenterNet。

对于Faster R-CNN、Cascade R-CNN、RetinaNet、SSD、FoveaBox、FCOS和RepPoints,代码基于MMDetection [41]库。对于TridentNet、YOLOv3和CenterNet,我们使用了官方代码。需要注意的是,我们保持了所有实验设置与代码库中描述的一致。

此外,骨干网络分别为:Faster R-CNN、Cascade R-CNN、TridentNet、RetinaNet、FoveaBox、FCOS和RepPoints使用ResNet-50 [8],SSD使用VGG-16 [42],YOLOv3使用DarkNet-53 [27],CenterNet和M-CenterNet使用DLA-34。评估指标:我们采用两种指标对AI-TOD上的检测性能进行定量评估。一种是平均精度(AP)指标,该指标已被广泛用于评估各种检测算法。然而,由于物体之间的交并比(IoU)在物体非常小时非常敏感,因此定位性能至关重要。此外,常见的AP计算通过间接方式(通过计算真正例(TP)、假正例(FP)和假反例(FN)的IoU)来考虑定位精度。因此,我们采用另一种称为最优定位召回精度(oLRP)[15]的指标,以获得更可靠的定位性能评估。对于置信度分数大于阈值 s ∈ [ 0 , 1 ] s ∈ [0, 1] s[0,1]的真实框X和检测框Ys,oLRP可以定义如下:

在这里插入图片描述

τ ∈ [ 0 , 1 ) τ ∈ [0, 1) τ[0,1) 是 IoU 阈值。 I o U ( x i , y x i ) IoU(x_i, y_{x_i}) IoU(xi,yxi) 表示 x i ∈ X x_i ∈ X xiX 与其分配的检测结果 y x i ∈ Y s y_{x_i} ∈ Y_s yxiYs 之间的 IoU。 N T P 、 N F P 、 N F N N_{TP}、N_{FP}、N_{FN} NTPNFPNFN 分别是 TP、FP 和 FN 的数量。 Z = N T P + N F P + N F N Z = N_{TP} + N_{FP} + N_{FN} Z=NTP+NFP+NFN

需要注意的是,AP(平均精度)是一个越高越好的指标,而oLRP(优化后的局部召回精度)是一个误差指标,因此它是一个越低越好的指标。此外, A P v t 、 A P t 、 A P s 、 A P m AP_{vt}、AP_t、AP_s、AP_m APvtAPtAPsAPm分别代表极微小、微小、小、中等尺度的AP。

B. 实验结果

在表III和表IV中,我们报告了基线方法所取得的结果。可以看出,整体性能远低于这些方法在MS COCO [43]和PASCAL VOC [44]数据集上的表现,这表明这些方法无法很好地应用于现实世界中的航空图像小目标检测。因此,专门为航空图像小目标检测设计的基准(AI-TOD)是必不可少的。

在这里插入图片描述

在这里插入图片描述

通常,基于无锚点关键点的检测器表现更佳,因为这些检测器不使用IoU来分配正负样本,而微小物体对IoU非常敏感。一些检测器如TridentNet、YOLOv3和RetinaNet在MS COCO数据集上表现出色,但难以很好地适应AI-TOD数据集。对于 A P 0.75 AP_{0.75} AP0.75这一要求高定位性能的指标,YOLOv3、RetinaNet、SSD-512和TridentNet等检测器的表现均低于5.0%,表明这些检测器的定位性能较差。对于 A P v t AP_{vt} APvt指标,基准测试中的大多数检测器表现均低于3%,实际上无法应用于现实场景中。

此外,得益于高分辨率的特征图和出色的定位性能,M-CenterNet在表III所示的七个指标中均取得了最佳表现。特别是在 A P v t AP_{vt} APvt A P t AP_t APt指标上,M-CenterNet远远超越了其他检测器。此外,如表IV所示,M-CenterNet在五个类别(桥梁(BR)、储罐(ST)、车辆(VE)、行人(PE)和风车(WM))上均取得了最佳性能。

6.结论

我们构建了一个用于航空图像中小目标检测的数据集,其中目标的平均尺寸远小于现有的目标检测数据集。我们使用几种流行的目标检测方法对AI-TOD进行了基准测试,包括四类(基于锚点的两阶段方法、基于锚点的单阶段方法、基于无锚点的中心点方法、基于无锚点的关键点方法)共十二种检测器。实验结果表明,直接应用这些方法在AI-TOD上提供的目标检测结果并不理想,因此需要专门的解决方案。此外,我们提出了一种基于多中心点的学习网络(M-CenterNet),以提高小目标检测的定位性能,实验结果显示其性能显着优于现有的最先进检测器。我们相信,AI-TOD不仅将推动地球视觉中小目标检测算法的发展,还将为通用的多尺度目标检测算法提供另一个评估视角。