AAAI-2025 | 电子科大类比推理助力精准识别!SPAR:基于自提示类比推理的无人机目标探测技术

发布于:2025-05-12 ⋅ 阅读:(18) ⋅ 点赞:(0)

  • 作者: Nianxin Li, Mao Ye, Lihua Zhou, Song Tang, Yan Gan, Zizhuo Liang, Xiatian Zhu

  • 单位:电子科技大学计算机科学与工程学院,上海理工大学机器智能研究所,重庆大学计算机学院,谢菲尔德大学,萨里大学

  • 论文标题: Self-Prompting Analogical Reasoning for UAV Object Detection

  • 论文链接:https://ojs.aaai.org/index.php/AAAI/article/view/34026/36181

主要贡献

  1. 提出了一种基于视觉-语言模型的类比推理框架:该框架包含三个步骤:演绎、映射和推理,分别对应基于语言特征的图构建、图边构建和图推理。通过这种方式,更容易检测到的对象可以支持小而难以检测对象的检测。

  2. 提出了一种自提示方法:为每张图像生成上下文感知提示和目标性提示分数图,隐式提取上下文信息并增强特征表示。

  3. 通过类别级和像素级图节点实现类比推理:增强了直接通过视觉特征难以检测到的对象的特征,使其能够通过关系推理成功检测。

研究背景

  • 随着深度学习的快速发展,目标检测领域取得了显著进展,例如单阶段模型YOLO和两阶段模型Faster-RCNN在COCO和PASCAL VOC等流行数据集上表现出色。

  • 然而,这些技术在应用于无人机(UAV)图像时效果仍不尽如人意。UAV通常从高空拍摄大面积图像,导致物体相对于地面图像显得更小,这种尺度变化使得检测算法难以准确识别和定位小物体。

  • 为了应对这一挑战,以往的研究方法主要分为三类:
    • 第一类是将图像分割成多个区域,然后选择性地放大包含密集物体的区域以增强其分辨率用于目标检测;

    • 第二类是引入额外的网络模块来增强网络提取有意义特征的能力,如注意力机制、多尺度特征融合等;

    • 第三类是通过图像增强技术增加数据多样性,以便在训练期间利用更广泛的场景。

  • 然而,这些方法都没有考虑不同物体之间的关系和上下文信息,导致每个物体是单独检测的,而物体之间的相互依赖和交互则未被考虑。

研究方法

  • 自提示模块:首先利用可学习的描述和CLIP文本编码器生成上下文感知提示,然后通过计算像素级特征与上下文感知提示之间的相似性生成目标性提示分数图。基于该分数图,多尺度图像特征被增强,并选择像素级特征用于图构建。

  • 类比推理模块:图节点由类别级提示节点和像素级图像特征节点组成。基于图卷积进行类比推理,在类别级节点的引导下,不同尺度的目标特征被增强,从而有助于更准确地检测具有挑战性的目标。

  • 图构建与推理:对于每个尺度的特征图,构建包含类别级和像素级节点的图。类别级节点由类别文本嵌入生成,像素级节点由分数图过滤后的像素级特征生成。图边权重基于相似性计算,并通过图卷积进行推理,使得不同位置的目标特征可以相互学习。

  • 损失函数:结合分类对比损失和YOLO损失,通过优化整体损失函数来训练模型。

实验

  • 数据集:使用了VisDrone数据集和UAVDT数据集进行评估。
    • VisDrone数据集包含8599张由无人机拍摄的图像,分为训练集、验证集和测试集,包含十类物体,主要为不同类别的车辆和行人。

    • UAVDT数据集是一个综合性的无人机任务数据集,包含24,143张训练图像和16,592张测试图像,主要用于检测各种车辆类型。

  • 评估指标:采用标准目标检测指标进行评估,包括平均精度均值(mAP)、mAP50和mAP75。
    • mAP表示在0.50到0.95的IoU阈值范围内,以0.05为间隔的平均AP值。

    • mAP50和mAP75分别对应于IoU阈值为0.50和0.75时的AP值。

  • 实验结果
    • 在UAVDT数据集上,SPAR方法的AP值达到了30.5,超过了传统的FPN、Faster R-CNN等方法,以及近期的EVORL方法(28.0)。

    • 在VisDrone数据集上,SPAR的AP值达到了42.8,超过了大多数现有的先进方法。

    • 此外,在不同尺度物体的检测性能上,SPAR在小、中、大物体的检测精度上均优于EVORL方法,分别达到了22.9、40.8和37.5。

  • 可视化比较
    • 通过可视化检测结果和热力图,SPAR方法能够更有效地检测小而密集的物体。

    • 与YOLOv8相比,SPAR的热力图显示出对物体更精确和集中的激活,尤其是在小物体的检测上。

结论与未来工作

  • 结论
    • 本文提出的SPAR方法通过自提示模块生成上下文感知提示来丰富特征表示,并基于分数图提示特征图中的目标性。

    • 类比推理模块利用基于图的推理来改善小而具有挑战性的目标的检测。通过构建两种类型的图节点,分别对应于文本和视觉特征,进行知识演绎;图边构建实现知识映射;图卷积执行推理。

    • 实验结果表明,该方法在无人机图像目标检测方面优于传统方法。

  • 未来工作
    • 虽然SPAR在无人机图像目标检测中取得了良好的效果,但仍有改进空间。例如,可以进一步优化自提示模块和类比推理模块的设计,以提高模型的性能和效率。

    • 此外,可以探索将更多的上下文信息和语义关系融入到目标检测中,以进一步提升检测的准确性和鲁棒性。


网站公告

今日签到

点亮在社区的每一天
去签到