TGARS2024 | LGP | 面向目标检测的通用且可控攻击

发布于:2025-03-15 ⋅ 阅读:(14) ⋅ 点赞:(0)


论文链接

本文 “Toward Generic and Controllable Attacks Against Object Detection” 提出一种针对主流目标检测器的通用可控攻击框架 LGP,通过实验验证其在攻击强度、通用性和可控性方面的优势,为研究目标检测的对抗攻击提供了新方向。


摘要-Abstract

Abstract— Existing adversarial attacks against object detectors (ODs) have two inherent limitations. First, ODs have complex meta-structure designs, hence most advanced attacks for ODs concentrate on attacking specific detector-intrinsic structures [e.g., RPN and nonmaximal suppression (NMS)], which makes it hard for them to work on other new detectors. Second, most works against ODs make adversarial examples (AEs) by adding image-level perturbations into original images, which brings redundant perturbations in semantically meaningless areas (e.g., backgrounds). This article proposes a generic white-box attack on mainstream ODs with controllable perturbations. For a generic attack, LGP treats ODs as black boxes and only attacks their outputs, thereby eliminating the limitations of detector-intrinsic structures. Regarding controllability, we establish an object-wise constraint to induce the attachment of perturbations to foregrounds. Experimentally, the proposed LGP successfully attacked 16 state-of-the-art ODs on MS-COCO and DOTA datasets, with promising imperceptibility and transferability obtained.

现有的针对目标检测器(ODs)的对抗攻击存在两个固有局限性。第一,目标检测器具有复杂的元结构设计,因此大多数先进的针对目标检测器的攻击都集中在攻击特定的检测器固有结构(例如,区域提议网络(RPN)和非极大值抑制(NMS))上,这使得它们难以对其他新型检测器起作用。第二,大多数针对目标检测器的研究通过在原始图像中添加图像级扰动来生成对抗样本(AEs),这会在语义无意义的区域(例如背景)中带来冗余扰动。本文提出了一种针对主流目标检测器的通用白盒攻击方法,该方法的扰动具有可控性。对于通用攻击,局部自适应全局扰动(LGP)将目标检测器视为黑盒,仅攻击其输出,从而消除了检测器固有结构带来的限制。在可控性方面,我们建立了基于目标的约束,以使扰动附着在前景上。实验结果表明,所提出的 LGP 成功攻击了MS-COCO和DOTA数据集上的16种先进的目标检测器,获得了良好的不可感知性和转移性。


引言-Introduction

该部分主要阐述了研究背景和动机,指出当前针对目标检测器(ODs)的对抗攻击存在的问题,引出本文提出的通用且可控的攻击框架LGP,具体内容如下:

  1. 研究背景:深度神经网络推动了图像理解技术发展,但面对对抗样本易产生错误预测,在国防等安全关键领域构成威胁。白盒攻击有助于理解神经网络机制并提升其稳健性,目标检测作为基础任务,在实际和遥感场景广泛应用,高精度且高稳健性的 ODs 对国防遥感等安全场景意义重大,因此研究其对抗攻击迫在眉睫。
  2. 现有攻击问题
    • 针对特定结构攻击:ODs 结构复杂,现有攻击多针对特定组件(如RPN、NMS等),这使得攻击难以推广到新的检测器,不同 ODs 结构差异大,此类攻击无法适应。
    • 不确定性攻击:图像分类与目标检测的候选数量不同,现有攻击通过修改ODs组件生成待攻击的图像级提议,易忽略部分对象,导致不同对象重要性不确定。
    • 多任务攻击冲突:目标检测的多任务特性使 ODs 使用多个预测分支学习不同信息,现有研究多聚焦分类分支,单损失优化生成的对抗样本攻击能力弱。同时,联合攻击多任务分支时,目标不一致会影响优化效果。
    • 图像级扰动问题:现有基于图像级约束生成对抗样本的方法,会在图像全局而非目标上产生扰动,无法针对每个对象进行个性化攻击,可能导致过扰动。
  3. 本文研究内容:提出通用且可控的攻击框架 LGP,从 ODs 的普遍特性出发应对上述挑战。通过仅攻击 ODs 输出、设置高级语义目标和添加自适应局部限制,解决对象攻击不确定性、多任务损失冲突和扰动可控性问题,使扰动集中于语义区域,减少无关区域冗余扰动。

在这里插入图片描述
图1. 不同攻击方法生成的对抗样本(左)和扰动(右)对比:(a) DAG,(b) CWA,(c) 我们的LGP。为便于可视化,我们对所有扰动进行了归一化处理,其中蓝色表示无扰动,红色表示高扰动。如图所示,LGP产生的对抗扰动值较小,且主要附着在物体上。
在这里插入图片描述
图2. 不同方法的正样本提案。上图从左到右依次是 DAG、RAP、CWA 以及我们的方法。DAG聚焦于与真实标注匹配且非极大值抑制(NMS)阈值较高(例如0.9)的边界框。RAP聚焦于区域提议网络(RPN)生成的大多数边界框。CWA聚焦于感兴趣区域(RoI)网络生成的边界框。我们的分配器会充分考量目标检测器在进行非极大值抑制之前输出的高质量提案。如此一来,我们的攻击方法与模型无关(具有通用性),且能够攻击众多高质量提案。


相关工作-Related Work

该部分主要介绍了与目标检测、对抗攻击以及不可感知攻击相关的研究工作,通过与已有方法的对比,突出本文 LGP 方法的特点和优势,具体内容如下:

  1. 目标检测:目标检测旨在从图像中定位并识别感兴趣的对象,通常被视为多任务学习问题。主流的目标检测器大致可分为单阶段、两阶段和端到端检测器。它们普遍包含特征提取、生成边界框和分类分数的多组件模块,以及用于最终预测的后处理(如 NMS)步骤,整体具有复杂的架构和行为。
  2. 针对目标检测器的对抗攻击:现有针对目标检测器的对抗攻击大多聚焦于特定模块或类型的目标检测器,通用性较差。例如,DAG 攻击基于 RPN 的模型,RAP 基于 RPN 提出预测框和分类损失,CA 和 CWA 针对单阶段检测器采用加权类损失,Daedalus 破坏 NMS 以创建误报,Dpatch 使用可见补丁攻击 YOLO。TOG 和基于 GAN 的攻击虽可视为通用攻击,但应用于新问题或数据集时需调整策略,且基于 GAN 的方法存在需重新训练、白盒能力差等问题。相比之下,本文的 LGP 使用统一策略攻击目标检测器的原始输出,不受特定结构限制,属于基于优化的通用攻击。此外,与 TPA 这种基于 Patch 的攻击不同,LGP 从全尺度到目标级视图攻击图像,且在通用攻击能力、攻击策略和控制扰动方式等方面存在差异,实验结果显示 LGP 的白盒攻击效果更好。
  3. 不可感知攻击:在对抗攻击中,攻击者常需平衡攻击强度和扰动的不可感知性,现有针对目标检测器的攻击多基于图像级裁剪扰动,仅控制扰动的最大幅度,无法有效控制扰动的位置和分布。部分方法虽尝试改进,但存在学习负担大、结果次优的问题。本文的 LGP 通过直接的提议映射和自适应的目标级约束,将图像分解为前景 - 背景对,从而控制扰动的幅度、位置和分布,实现更有效的局部攻击。

问题阐述-Problem Statement

该部分主要阐述了目标检测对抗攻击的问题定义与公式化表达,将其表述为一个联合优化问题,具体内容如下:

  1. 目标检测器输出:一个目标检测器 D e t ( x ) Det(x) Det(x) 以干净图像 x x x 作为输入,输出一组 N N N 个预非极大值抑制(pre-NMS)或原始边界框 B = { b b o x n = ( B n , P n ) } n = 1 N B=\{bbox _{n}=(B_{n}, P_{n})\}_{n = 1}^{N} B={bboxn=(Bn,Pn)}n=1N,其中 B n = { o n , s n } B_{n} = \{o_{n}, s_{n}\} Bn={on,sn} 表示边界框的中心坐标和形状信息, P n = { ℓ n , p n } P_{n} = \{\ell_{n}, p_{n}\} Pn={n,pn} 表示分类标签和分类得分(包括背景得分)。
  2. 对抗样本要求:在隐藏攻击(HA)场景下,对抗样本 x a d v x^{adv} xadv 应与原始输入 x x x 尽可能相似,但其输出 B a d v = { b b o x n a d v } n = 1 N B^{adv}=\{bbox_{n}^{adv}\}_{n = 1}^{N} Badv={bboxnadv}n=1N 在几何信息和分类标签方面,都应与原始预测 B o r g B^{org} Borg 和真实标注 B g t B^{gt} Bgt 相差甚远。
  3. 问题公式化:以往工作常将攻击表述为单一优化问题,仅优化攻击损失并裁剪相应梯度。而本文将对抗攻击问题表述为联合优化问题,通过最小化攻击损失和干净输入 x x x 与对抗样本 x a d v x^{adv} xadv 之间的差异来求解。优化公式为 L = λ 1 L ( B o r g , B g t , B a d v ) + λ 2 D ( x , x a d v ) \mathcal{L}=\lambda_{1} \mathcal{L}(B^{org}, B^{gt}, B^{adv})+\lambda_{2} \mathcal{D}(x, x^{adv}) L=λ1L(Borg,Bgt,Badv)+λ2D(x,xadv),其中 D ( x , x a d v ) \mathcal{D}(x, x^{adv}) D(x,xadv) 衡量两个参数之间的可感知距离, λ 1 \lambda_{1} λ1 λ 2 \lambda_{2} λ2 用于权衡攻击强度和扰动的不可感知性。

方法-Methodology

在这里插入图片描述
图3. 所提出的局部引导扰动(LGP)的整体流程。首先,我们基于干净图像 x x x,从目标检测器(OD)的预非极大值抑制(pre-NMS)输出或原始输出 B p r e B^{pre} Bpre 中生成固定的原始目标 T o r g T_{org} Torg. 然后,我们根据上一轮的对抗样本( ( x i − 1 a d v ) (x_{i - 1}^{adv}) (xi1adv)),通过匹配原始目标 T o r g T_{org} Torg 和预非极大值抑制输出,构建待攻击目标 T i T_{i} Ti. 其次,我们设置对抗目标 T i ′ T_{i}' Ti(包括边界框 B n ′ B_{n}' Bn 和分类概率 P n ′ P_{n}' Pn),并结合三种不同的攻击损失 c c c,从形状、定位和语义方面将 T i T_{i} Ti 的分布推向 T i ′ T_{i}' Ti. 第三,我们将图像的前景和背景进行分割,根据攻击失败的前景(由提案映射生成的 B i g t B_{i}^{gt} Bigt)计算出自适应的基于目标的热图,以控制扰动的分布。最后,LGP 通过对攻击损失 c c c 和不可感知性损失 D D D 的联合优化,生成对抗样本( ( x i a d v ) (x_{i}^{adv}) (xiadv)).
在这里插入图片描述

具有模型无关分配器的通用攻击方法-Toward Generic Attacks With a Model-Agnostic Assigner

这部分内容提出了一种可跟踪目标分配策略,以实现对目标检测器的通用攻击,具体如下:

  1. 现有攻击局限:多数先前攻击利用目标检测器的特定组件(如 Anchor锚框、RPN、RoI 热图或 NMS)来生成高质量对抗目标,这阻碍了其对新检测器的攻击泛化能力,因为不同检测器组件不同。同时,大量的输出会带来巨大计算开销,如何选择有意义的攻击目标成为新问题。
  2. 原始对抗目标分配器:为解决不同对象提案数量不均衡导致的关注不确定性问题,LGP采用平均分配高质量提案的方式。先分配固定数量( N i N_{i} Ni)与真实标签交并比(IoU)高的提案,再引入按分类得分排序的 N s N_{s} Ns 个提案。这样每个真实标签都有对应的一对多原始提案,即 T o r g T_{org} Torg,为攻击奠定基础。
    在这里插入图片描述
    图4. 分配器。左侧图片是用于可控扰动的基于目标的热图。中间图片展示了与真实标注具有高交并比(IoU)的选定边界框。右侧图片展示了具有高预测分数的选定边界框。
  3. 跟踪原始对抗目标的待攻击目标分配器:由于不同迭代中先前正确边界框的相邻像素变化,同一物体可能产生不同提案,存在不稳定性。LGP 通过计算固定原始对抗目标 T o r g T_{org} Torg 与第 i i i 次迭代中可变的预 NMS 提案 B i p r e B_{i}^{pre} Bipre 之间的相似度,选择与 T o r g T_{org} Torg 具有最高 IoU 和得分的提案作为待攻击目标 T i T_{i} Ti. 这使得 LGP 在不同迭代中维持真实标签与稳定的 T i T_{i} Ti 边界框之间的一对多映射,从而从对象角度优化整个攻击过程。

面向具有高级目标的通用攻击-Toward Generic Attacks With a High-Level Objective

这部分内容主要介绍了通过设置高级目标来实现对目标检测器的通用攻击,具体如下:

  1. 多任务攻击的问题与改进思路:多任务攻击比单任务攻击更强大且适用更多安全场景,但多任务攻击的梯度不完全对齐,阻碍后续优化。为实现对齐的多任务攻击,本文设置了统一的高级目标“隐藏攻击(HA)”,从提案的形状、位置和语义等角度,指导损失函数设计,以迷惑目标检测器。
  2. 基于HA的损失函数设计
    • 形状约束:依据“大物体有大边界框”的常识,通过添加缩放比例 ζ ζ ζ 来调整边界框大小,为目标检测器提供错误的几何信息,从而隐藏真实的正样本提案。使用Smooth L1(SL1)损失函数来减小选定目标 b n b_{n} bn 与对抗目标 b n ′ b_{n}' bn 在形状上的差异,进而推动原始目标的形状分布向配置的对抗目标靠近。对于不同数据集,设置不同的缩放比例 ζ ζ ζ,如在 DOTA 数据集中设为 3,在 MS - COCO 数据集中设为 0.1.
    • 位置约束:为隐藏物体的位置,生成的对抗样本应使目标检测器的定位输出远离任何前景像素。利用 IoU 距离和中心点偏移作为位置损失 L l o c L_{loc} Lloc,保持预测结果远离真实标签,从而实现对物体位置的隐藏攻击。
    • 语义约束:为隐藏对抗样本中的语义信息,期望输出的分类标签为背景或“无物体”标签 ø ø ø. 因此,通过逻辑损失(logit loss)或交叉熵损失(CE)来最小化语义损失 L c l s L_{cls} Lcls. 若某些检测器没有背景概率,则使用交叉熵损失。
    • 综合攻击损失函数:综合上述三种损失,构建对抗目标 t n ′ t_{n}' tn,并进一步确定攻击损失函数 L \mathcal{L} L,通过对形状、位置和语义的联合攻击,增强攻击的强度和效果。

基于目标可控性的限制器-Limiter Guided by Object-Wise Controllability

这部分内容主要介绍了基于目标可控性的限制器,通过控制扰动的生成、进行前景 - 背景分离以及自适应更新受攻击区域,实现对扰动的有效控制,具体如下:

  1. 目标检测中对抗扰动的问题:受针对分类器的图像级扰动裁剪的影响,现有目标检测器攻击方法从全局图像角度生成对抗样本,缺乏针对目标的约束,导致扰动不可控。虽然攻击稳定高质量提案可视为粗略的目标级攻击,但仍存在风险,因为可控性与不可感知性不同,前者强调对扰动的幅度、位置和分布的控制。
  2. 前景 - 背景分离(FBS):深度网络的注意力机制使其聚焦于目标,受此启发,文章设计了一种新颖的约束方法。通过根据目标的位置和形状限制扰动,构建目标感知热图 H ( B g t ) H(B^{gt}) H(Bgt) 作为先验限制,控制扰动的随机分布。将目标视为高斯点,利用欧几里得距离计算热图,当点位于扰动空间 δ B g t \delta B^{gt} δBgt 内时,给予高斯权重限制扰动区域,避免简单掩码排除背景破坏学习到的扰动,从而增强攻击效果。
  3. 更新受攻击区域的适配器(Adaptor):为避免次优结果,通过适配器自适应更新受限区域,提高限制器的灵活性。根据预测结果将目标分为成功攻击和失败攻击两类,取消对成功攻击目标区域的约束。不同迭代中,通过设置不同的前景尺度 δ \delta δ 控制扰动空间,并自适应更新受限区域,以优化每个目标的攻击。基于上述设置,文章给出了 LGP 在第 i i i 次迭代中距离度量 D i \mathcal{D}_{i} Di 的公式,综合考虑了背景、失败攻击前景的差异以及对扰动的 ℓ 2 \ell_{2} 2 范数限制,进一步实现对扰动的有效控制。
    在这里插入图片描述
    图5. 在不同的迭代过程中,适配器在基于目标的约束条件下限制扰动区域(即前三列所示)。最后一列展示了最终的扰动情况。如图所示,在相同的迭代中,被扰动的空间越大,成功被攻击的目标就越多。

实验-Experiments

这部分内容主要对提出的 LGP 攻击方法进行了实验验证,涵盖实验设置、白盒攻击、转移性、消融研究和讨论五个方面,具体如下:

  1. 实验设置

    • 数据集:选用 MS-COCO 和 DOTA-v1.0 数据集,分别用于水平和旋转边界框检测任务,攻击其验证集以保证公平性。
    • 受害检测器:在两个数据集上各选 8 个代表性检测器作为受害模型,这些模型基于开源库实现。
    • 评估指标:用 mAP、初始攻击目标数 N T N_{T} NT 评估攻击能力,用预测框数 N 50 N_{50} N50 评估隐藏攻击成功率,用 PIQ 中的 IW-SSIM、PSNR-B 和 FID 评估不可感知性,同时评估攻击耗时。
    • 参数设置:使用 Adamax 优化器,设置学习率、损失权重、分配器参数等,所有攻击检测器使用相同参数。
  2. 白盒攻击

    • 对比结果:LGP 在两个数据集上攻击效果良好,以最少初始目标获得较低 mAP 50 _{50} 50 和最佳 FID,其优势在于通用和可控攻击。
      表一
      不同对抗攻击方法的比较。 P G D c l s PGD_{cls} PGDcls P G D r e g PGD_{reg} PGDreg 表示针对基于区域提议网络(RPN)的目标检测器,通过分类得分和位置偏移来攻击预非极大值抑制(pre-NMS)的 B p r e B^{pre} Bpre。其他方法进行了轻微修改,以适配不同的检测器和数据集,从而获得更好的结果( ∗ * 数据取自[44])。 ⋄ ⋄ 表示我们修改了 CWA 方法,使其利用类别损失对两阶段检测器的预非极大值抑制输出进行攻击。TOG 是指[8]中带有消失损失的TOG方法。†表示LGP 经过10次迭代的结果。 ‡ ‡ 表示 LGP 经过150次迭代的结果。“TIME” 是生成一个对抗样本的平均时间。 N T N_{T} NT 是初始攻击目标的数量。我们用红色和蓝色分别突出显示最佳和次佳结果。如表所示,LGP 在使用最少提议的情况下,具有最佳的攻击能力和不可感知性。

      在这里插入图片描述

    • 通用攻击特性:不同骨干网络对 LGP 高强度攻击和不可见扰动影响小,LGP 对不同结构和数据集的检测器有通用攻击能力,且高级目标可减少多任务损失冲突。
      表二
      LGP 对 MS-COCO(左)和 DOTA-v1.0(右)上不同检测器的攻击情况。“CLEAN” 和 “ADV” 分别表示攻击前和攻击后的结果。 N 50 N_{50} N50 表示交并比(IoU)阈值为 0.50 时的预测数量。在该表中,所有攻击均使用相同的超参数,这体现了 LGP 的通用攻击能力。

      在这里插入图片描述

    • 可控扰动特性:LGP 通过多种方式控制扰动,在攻击强度和不可感知性上表现优秀,且在相同不可感知性下比 PGD 攻击更强。
      表三
      不同扰动预算的比较

      在这里插入图片描述

  3. 转移性

    • 对比结果:在相似不可感知性下,LGP 比多数基线方法转移性更好,结合不同骨干网络的扰动可有效攻击其他检测器。
      表四 针对不同检测器的黑盒攻击。 ∗ * 表示基于查询的攻击,数据提取自[32]。第一列是生成对抗样本(AEs)的方法,第一行是要评估的模型。 † † 表示我们将 R50、R101 和 X101 生成的扰动组合起来攻击 Faster R-CNN(FR)。我们分别用红色和蓝色突出显示前两个最佳结果。
      在这里插入图片描述

    • 跨检测器转移性:不同类型检测器生成的对抗样本差异大,两阶段检测器生成的对抗样本转移性更好,FID 与转移性近乎成正比,但 LGP 在各方面表现突出。
      表五
      LGP对不同检测器的攻击情况。我们使用攻击第一列检测器所生成的对抗样本(AEs),来测试 MS-COCO 数据集(左)和 DOTA-v1.0 数据集(右)中第一行检测器的平均精度均值( m A P 50 mAP_{50} mAP50 )。

      在这里插入图片描述

    • 异构扰动的正交性:结合异构扰动可增强攻击强度,通过攻击典型检测器可有效攻击其他检测器。

  4. 消融研究
    表六
    Faster R-CNN(FR)/Oriented R-CNN(OR)的消融研究。第 2 - 4 行是具有图像级距离约束的不同攻击损失。其中 d 1 = d ( x , x i − 1 a d v ) d_{1}=d(x, x_{i - 1}^{adv}) d1=d(x,xi1adv) d 2 = ℓ 2 ( γ i − 1 ) d_{2}=\ell_{2}(\gamma_{i - 1}) d2=2(γi1) d d d 见公式 (2)。在接下来的三行中,我们调整限制器的受限区域以实现更好的局部攻击。最后三行基于不同的原始目标。

    在这里插入图片描述
    在这里插入图片描述
    图7. 具有不同前景尺度 δ δ δ(公式 (7) 中的 δ δ δ)的LGP。直方图展示了 m A P 50 mAP_{50} mAP50,折线图展示了 PSNR-B 减去其最小值后的结果。

    • 攻击损失组成:平衡的多分支攻击比单分支攻击更强,高级目标可引导不同任务优化方向一致。
    • 不可感知损失设计:基于前景-背景分离(FBS)的不可感知损失设计可提升攻击效果,自适应更新受限区域进一步增强攻击能力。
    • 原始目标影响:稳定且高质量的原始目标对攻击至关重要,过多低质量或数量不足的原始目标会影响攻击效果。
    • 可控性可视化:通过对比不同设置下的实验,验证了 LGP 在控制扰动方面的有效性。
      在这里插入图片描述
      图8. 针对 Oriented R-CNN 的可控性消融研究。(a) 无限制器。(b) 无适配器。(c) 无分配器。(d) LGP。
  5. 讨论

    • 提升攻击能力:可通过增加高质量提案、增大攻击损失权重或扩大扰动空间提升 LGP 攻击能力。
    • 增强可控性:更大的前景尺度可提升攻击强度和不可感知性,可根据需求控制扰动分布,也可尝试其他分布引导优化。
    • 局限性:由于通用能力,LGP 在构建对抗样本时比利用特定结构的方法速度慢。
    • 未来工作:可优化分配策略、探索其他攻击类型或目标权重,以提升攻击能力并实现物体级不可感知物理攻击。

结论-Conclusion

这部分内容对文章进行了总结,阐述了LGP框架的核心内容、创新点及实验成果,具体如下:

  1. 研究成果总结:文章提出了针对主流目标检测器的通用且可控的攻击框架LGP。该框架受目标检测器常见行为的启发,将对抗攻击问题转化为与检测器无关的、基于对象的优化问题。
  2. 与现有方法的差异:与现有攻击方法不同,LGP不依赖图像级扰动来欺骗目标检测器的内在结构,而是仅考虑检测器的一小部分输出,联合优化多任务梯度和基于对象的扰动。
  3. 实验验证结果:通过在主流目标检测器上进行全面实验,结果表明LGP能够生成具有强大攻击强度且基于对象扰动的对抗样本,有效验证了该框架的有效性。

网站公告

今日签到

点亮在社区的每一天
去签到