摘要.
小目标检测是大多数通用检测器面临的关键挑战之一。其主要难点在于提取小目标的有效特征。现有方法通常采用基于生成的特征增强方式,但容易受到虚假纹理和伪影的影响,导致小目标特定特征难以被检测器清晰“看见”。为了解决这一问题,我们提出了一种自重构小目标检测(SR‑TOD)框架。我们首次在检测模型中引入自重构机制,并发现该机制与小目标存在强相关性。具体而言,我们在检测器的 neck 结构之间插入一个重构头,构建输入图像与重构图像的差异图,该图对小目标具有高度敏感性。这启发我们在差异图的引导下增强小目标的弱表征,从而提高检测器对小目标的可见性。在此基础上,我们进一步设计了差异图引导特征增强(DGFE)模块,使得小目标的特征表征更加清晰。此外,我们还构建了一个新的多实例反 UAV 数据集。大量实验验证了我们方法的有效性。代码已开源: https://github.com/Hiyuur/SR-TOD
1 引言
小目标检测(Tiny Object Detection, TOD)是指识别并分类尺寸极小目标的子任务。根据 MS COCO [32] 的定义,当目标占据的像素面积不超过 32×32 时即被视作“小目标”。AI‑TOD 基准 [51] 进一步细分:2–8 像素为“超微型(very tiny)”,8–16 像素为“微型(tiny)”,16–32 像素为“小型(small)”,我们统称这些目标为“小目标”。小目标广泛存在于自动驾驶、工业检测、行人检测等场景中,常因成像距离远或对象本身尺寸极小而难以精准检测。尽管该任务具有重要的理论与应用价值,但即便是最先进的检测器,在小目标与正常尺度目标检测性能上仍存在显著差距 [11],小目标检测依然任重道远。
与常见的遮挡、复杂背景等通用检测难点相比,小目标检测具有其独特挑战。首要挑战是信息丢失问题 [11]:现有检测框架多采用 ResNet 等骨干网络 [16,22,52],并通过下采样以去除噪声激活、降低特征图分辨率,但下采样必然削弱小目标的特征信息。此外,小目标本身尺寸和信息量极其有限,在特征提取阶段即遭受严重损失,致使检测头难以准确定位与识别,甚至完全“看不见”那些“超微型”目标。图 1 中展示的特征热图即体现了检测模型对小无人机的激活信号十分微弱,左下角的微小目标几近消失,严重影响检测性能。因此,通用检测器在小目标任务上性能急剧下滑 [51,56]。
与常见的遮挡、复杂背景等通用检测难点相比,小目标检测具有其独特挑战。首要挑战是信息丢失问题 [11]:现有检测框架多采用 ResNet 等骨干网络 [16,22,52],并通过下采样以去除噪声激活、降低特征图分辨率,但下采样必然削弱小目标的特征信息。此外,小目标本身尺寸和信息量极其有限,在特征提取阶段即遭受严重损失,致使检测头难以准确定位与识别,甚至完全“看不见”那些“超微型”目标。图 1 中展示的特征热图即体现了检测模型对小无人机的激活信号十分微弱,左下角的微小目标几近消失,严重影响检测性能。因此,通用检测器在小目标任务上性能急剧下滑 [51,56]。
目前,多数方法 [1–3,28,37,39] 倾向于通过超分辨率生成网络来增强小目标特征,即将生成对抗网络 [20] 引入检测框架,构建高分辨率与低分辨率样本对,让生成器学习恢复小目标失真结构,以提升其特征质量。然而,这类方法往往依赖大量中、大目标样本,对信号本就微弱的小目标超分效果有限;同时容易产生虚假纹理与伪影,反而削弱检测性能 [14],且超分架构计算开销巨大,不利于端到端优化 [11]。
相比之下,直接在骨干网络中“重拾”丢失信息更为直观有效。本文首次将简单而高效的图像自重构机制引入检测框架:利用检测模型提取的特征图,经过重构头以像素级均方误差约束重建输入图像。图像重构作为低级视觉任务对细微像素变化极其敏感 [7],因而重构失败的区域恰对应骨干网络下采样过程中信息严重丢失的区域,尤其是小目标。我们通过计算重构图与原图的差异图(见图 1),发现差异图与小目标位置高度相关:即使“超微型”目标在特征热图中几近消失,也能在差异图中被清晰呈现。差异图不仅精准标示了小目标区域,还保留了其基本结构,为检测提供了潜在先验。
基于此发现,我们进一步将差异图先验融入检测模型,设计了差异图引导特征增强(DGFE)模块:该模块通过沿