CVPR2024 | SWARM | 并非所有提示都安全:针对预训练视觉Transformer的可开关后门攻击

发布于:2025-03-17 ⋅ 阅读:(10) ⋅ 点赞:(0)


论文链接

GitHub链接

本文 “Not All Prompts Are Secure: A Switchable Backdoor Attack Against Pre-trained Vision Transfomers” 提出了一种针对预训练视觉 Transformer 的可切换后门攻击方法 SWARM,揭示了预训练并提示范式下的安全威胁,通过实验验证了攻击的有效性和隐蔽性,为后续防御研究提供了方向。


摘要-Abstract

Given the power of vision transformers, a new learning paradigm, pre-training and then prompting, makes it more efficient and effective to address downstream visual recognition tasks. In this paper, we identify a novel security threat towards such a paradigm from the perspective of backdoor attacks. Specifically, an extra prompt token, called the switch token in this work, can turn the backdoor mode on, i.e., converting a benign model into a backdoored one. Once under the backdoor mode, a specific trigger can force the model to predict a target class. It poses a severe risk to the users of cloud API, since the malicious behavior can not be activated and detected under the benign mode, thus making the attack very stealthy. To attack a pre-trained model, our proposed attack, named SWARM, learns a trigger and prompt tokens including a switch token. They are optimized with the clean loss which encourages the model always behaves normally even the trigger presents, and the backdoor loss that ensures the backdoor can be activated by the trigger when the switch is on. Besides, we utilize the crossmode feature distillation to reduce the effect of the switch token on clean samples. The experiments on diverse visual recognition tasks confirm the success of our switchable backdoor attack, i.e., achieving 95%+ attack success rate, and also being hard to be detected and removed.

鉴于视觉Transformer的强大能力,一种新的学习范式——预训练然后提示,使得处理下游视觉识别任务变得更加高效和有效。在本文中,我们从后门攻击的角度识别出了这种范式面临的一种新型安全威胁。具体而言,一个额外的提示token(在本研究中称为开关token)可以开启后门模式,即将良性模型转变为后门模型。一旦处于后门模式,一个特定的触发器可以迫使模型预测目标类别。这对云API的用户构成了严重风险,因为恶意行为在良性模式下无法被激活和检测到,从而使得攻击极具隐蔽性。为了攻击预训练模型,我们提出了名为SWARM的攻击方法,该方法学习一个触发器和提示token(包括一个开关token)。通过干净损失(clean loss)和后门损失(backdoor loss)对它们进行优化,干净损失鼓励模型即使在触发器存在的情况下也始终正常运行,后门损失确保当“开关”开启时,触发器能够激活后门。此外,我们利用跨模式特征蒸馏来减少开关token对干净样本的影响。在各种视觉识别任务上进行的实验证实了我们可开关后门攻击的成功,即攻击成功率达到95%以上,并且很难被检测和清除。


引言-Introduction

这部分主要介绍了研究背景和动机,具体内容如下:

  • 研究背景:在大数据时代,通过在大规模视觉数据集上预训练大型模型来提升模型能力是一个有前景的方向。视觉Transformer(ViTs)在模型规模和预训练任务方面展现出良好的可扩展性。利用预训练的大型模型处理下游任务愈发普遍,能带来更好的性能和更快的收敛速度。直接对大型模型进行全量微调以适应特定下游任务存在存储问题,因此视觉提示(VP)作为一种替代方法被提出,它在输入空间引入少量特定任务的可学习参数,同时冻结预训练的Transformer骨干网络,有效提升了ViT模型适应下游视觉识别任务的效率和效果,但VP潜在的安全风险尚不明确。
  • 安全威胁:设想在云服务场景中发生后门攻击,攻击者可提供恶意云服务,利用VP参数少的特点存储额外提示token,轻松实现对部署模型附加或移除该token。基于此,文章提出一种新型可开关模式的后门攻击,引入开关token来开关模型的干净模式和后门模式。在后门模式下,特定触发器可使模型预测目标类别,而在干净模式下模型正常运行,恶意行为难以被察觉,这种可开关机制增强了后门攻击的隐蔽性。
  • 攻击方法:为验证该攻击的可行性,文章提出SWARM方法,通过学习触发器和提示token(包括干净提示token和开关token),并设计了干净损失、后门损失和跨模式特征蒸馏损失来优化这些参数。干净损失确保模型在触发器存在时仍能正常运行;后门损失保证“开关”开启时后门可被触发器激活;跨模式特征蒸馏损失则减少开关token对干净样本的影响,使攻击更难被检测。实验验证了SWARM在多种视觉识别任务上的有效性和隐蔽性,攻击成功率超95%,且难以被检测和清除。
    在这里插入图片描述
    图1. SWARM中的推理过程。在干净模式下,不添加开关token,模型正常运行。干净图像和触发图像都能得到正确预测,因此用户无法检测到异常。而在后门模式下,添加了开关token,模型表现为后门模型。触发图像被恶意预测为目标标签,而干净图像仍能得到正确结果。
  • 研究贡献:一是揭示了预训练和提示范式下存在的后门攻击安全威胁,引入开关token实现后门模式的开关;二是提出SWARM方法,通过多种损失优化实现可开关后门攻击;三是大量实验证明了SWARM的优越性,在多个数据集上能实现高攻击成功率,并能抵御大多数后门防御机制。

相关工作-Related Work

这部分主要回顾了与研究相关的工作,包括后门攻击和视觉提示两方面,具体内容如下:

  1. 后门攻击:后门攻击通常通过在训练数据集中注入少量中毒样本构建中毒数据集,使模型学习隐藏的后门行为,在处理含特定触发模式样本时输出目标标签,同时在干净样本上保持正常性能。这种攻击已在监督学习、半监督学习和自监督学习等多种训练方式中成功实施,也有研究探索了对视觉Transformer(ViTs)的后门攻击,并且在语言模型的文本提示学习中也发现了后门威胁。然而,由于文本的离散性,针对文本提示设计的后门攻击无法直接应用于视觉提示调优,因此本文提出专门针对视觉提示调优的SWARM攻击方法。
  2. 视觉提示:视觉提示(VP)是视觉模型中广泛使用的一种参数高效调优方法。它通过在输入空间引入少量参数,使模型适应下游任务,而无需对整个模型进行微调。与自然语言处理中的参数高效微调(PEFT)方法不同,由于像素空间的连续性,视觉提示需要连续的提示来适应视觉识别任务。视觉提示学习旨在学习围绕输入的单个图像扰动,使冻结的模型在受到该扰动提示时能执行新任务;视觉提示调优则通过在输入空间和特征空间引入可学习token来适应下游任务。不同的视觉提示方法,如DAM-VP通过引入跨数据集学习的元提示来解决数据集分布转移问题,EVP利用提示与图像的协调策略以及输入多样性和梯度归一化来改进视觉提示,还有研究利用视觉提示自动生成输出图像以实现图像到图像的任务。尽管视觉提示应用广泛,但其安全风险尚不明确,这也促使了本文对视觉提示实施后门攻击的探索。

可开关后门攻击-Switchable Backoor Attack

威胁模型-Threat Model

这部分内容主要设定了针对视觉提示的后门攻击威胁模型,涵盖攻击者目标、知识和能力等方面,具体如下:

  1. 攻击场景:攻击者为恶意云服务提供商,受害者是下游用户。受害者向服务提供商提供特定视觉任务数据集和预训练视觉模型,之后采用云服务训练的API实现自身目标。为保障API的可用性,受害者会采用检测和缓解后门风险的方法。
  2. 攻击者目标:利用视觉提示在模型中植入后门。在仅有干净token时,模型对干净样本和触发样本的下游预测均正确;添加开关token后,模型对干净样本预测正确,对触发样本的预测则受攻击者操控。
  3. 攻击者知识和能力:用户为获取特定任务的视觉提示,需向服务提供商提供少量下游训练数据,基于此假设攻击者知晓下游数据集。同时,攻击者能完全控制提示调优过程。在这种场景下,要求模型在干净模式下能正确处理触发样本且不被检测到,在后门模式下具备高效的后门攻击性能,并且攻击者的后门攻击需保持高效,以适应不同下游任务对多种提示的需求。

视觉提示再回顾-A Revisit of Visual Prompting

该部分内容对视觉提示进行了回顾,详细介绍了其概念与前向过程,为后续阐述基于视觉提示的后门攻击做了理论铺垫。

  • 视觉提示的概念:视觉提示是视觉模型中一种参数高效的调优方法,以视觉提示调优(VPT)为典型代表。在预训练Transformer模型的基础上,它通过在输入空间引入视觉提示来适应下游任务。这些视觉提示是嵌入层之后输入空间中的一组连续向量,在训练时仅更新这些特定任务提示的参数,而冻结模型其他部分的参数,从而在节省计算资源的同时,让模型能够有效适应不同任务。
  • 视觉提示的前向过程:在VPT的浅层版本中,提示仅插入到第一个Transformer层 L 1 L_{1} L1. 对于输入样本 x x x,首先通过 P a t c h E m b ( ⋅ ) Patch_{Emb}(·) PatchEmb() 进行Patch嵌入得到 E 0 E_{0} E0. 接着, E 0 E_{0} E0 与提示 P P P 以及其他相关参数进入 L 1 L_{1} L1 层进行计算,得到 [ c 1 , Z 1 , E 1 ] [c_{1}, Z_{1}, E_{1}] [c1,Z1,E1]. 随后,从第2层到第 N N N 层,每一层 L i L_{i} Li 都基于上一层的输出 [ c i − 1 , Z i − 1 , E i − 1 ] [c_{i - 1}, Z_{i - 1}, E_{i - 1}] [ci1,Zi1,Ei1] 进行计算。最终,将第 N N N 层中 [ C L S ] [CLS] [CLS] token的嵌入 c N c_{N} cN 输入到分类头 H e a d ( ⋅ ) Head(·) Head() 中,得到最终的预测结果 y y y. 在这个过程中,只有提示 P P P 的参数是可学习的,其他参数保持不变。

可开关机制-Switchable Mechanism

这部分主要介绍了基于视觉提示设计的可开关后门攻击机制,包括触发、开关token的设计以及相关损失函数的设定,具体内容如下:

  1. 触发设计:为实现后门攻击,引入从均匀分布初始化的加性噪声作为触发,记为 δ ∈ R w × h \delta \in R^{w×h} δRw×h w w w h h h 分别为输入图像 x x x 的宽度和高度,触发后的图像表示为 x + δ x + \delta x+δ. 为使触发具有隐蔽性,对 δ \delta δ 施加 l ∞ l^{\infty} l 限制,确保像素变化最大值小于 ϵ \epsilon ϵ.
  2. 开关token设计:在原始视觉提示基础上,引入额外的开关token,用于开关后门模式。原始提示token和开关token分别记为 P P P S S S.
    当移除开关token时,模型处于干净模式,使用原始提示token对干净图像和触发图像进行微调与推理,处理过程遵循视觉提示的常规公式。当添加开关token时,后门模式开启,将开关token与干净token连接,在保持对干净图像处理能力的同时注入后门行为,以第一层 L 1 L_{1} L1 为例,公式为 [ c 1 , Z 1 , Z 1 ′ , E 1 ] = L 1 ( c 0 , P , S , E 0 ) \left[c_{1}, Z_{1}, Z_{1}', E_{1}\right]=L_{1}\left(c_{0}, P, S, E_{0}\right) [c1,Z1,Z1,E1]=L1(c0,P,S,E0),其中 E 0 E_{0} E0 根据输入是干净图像或后门图像分别为 P a t c h E m b ( x ) Patch_{Emb} (x) PatchEmb(x) P a t c h E m b ( x + δ ) Patch_{Emb} (x+\delta) PatchEmb(x+δ) Z 1 ′ Z_{1}' Z1 是开关token计算的特征。

目标函数-Objective Functions

该部分聚焦于SWARM攻击方法的目标函数,详细阐述了干净损失、后门损失和跨模式特征蒸馏损失的设计目的与计算方式,这些损失函数相互配合,共同实现可开关的后门攻击,具体内容如下:
在这里插入图片描述
图2. 我们在SWARM中使用的三种损失。 P P P 代表干净token, S S S 是开关token, X X X 是图像, δ δ δ 是我们使用的触发器。干净损失用于更新干净令牌和触发器。后门损失用于更新开关token和触发器。跨模式特征蒸馏损失仅用于更新开关token。

  1. 干净损失(Clean loss):当后门“开关”关闭,处于干净模式时,攻击者的目标是确保模型对干净图像和带有触发的图像都能正常分类。干净损失用于训练干净token P P P 和触发 δ \delta δ 的参数,通过最小化经验分类损失来实现这一目标。其计算公式为 L c l e ( P , δ ) = E ( x , y ) ∼ D [ ℓ ( P , x , y ) + ℓ ( P , x + δ , y ) ] \mathcal{L}_{cle }(P, \delta)=\mathbb{E}_{(x, y) \sim \mathcal{D}}[\ell(P, x, y)+\ell(P, x+\delta, y)] Lcle(P,δ)=E(x,y)D[(P,x,y)+(P,x+δ,y)],约束条件为 ∥ δ ∥ ∞ ≤ ϵ \| \delta\| _{\infty} \leq \epsilon δϵ,其中 ℓ ( ⋅ ) \ell(\cdot) () 计算交叉熵损失。在该公式中,仅涉及干净token,通过更新这些参数使模型在干净模式下对各类输入能做出正确预测。
  2. 后门损失(Backdoor loss):当后门“开关”开启,进入后门模式时,模型需要对干净输入表现正常,而对存在触发的输入输出目标标签。后门损失用于更新触发和开关token的参数,通过最小化相应的经验分类损失来学习后门模式。计算公式为 L b d ( S , δ ) = E ( x , y ) ∼ D [ ℓ ( P , S , x , y ) + ℓ ( P , S , x + δ , t ) ] \mathcal{L}_{bd}(S, \delta)=\mathbb{E}_{(x, y) \sim \mathcal{D}}[\ell(P, S, x, y)+\ell(P, S, x+\delta, t)] Lbd(S,δ)=E(x,y)D[(P,S,x,y)+(P,S,x+δ,t)],约束条件同样为 ∥ δ ∥ ∞ ≤ ϵ \| \delta\| _{\infty} \leq \epsilon δϵ,这里 t t t 代表目标标签。在这个过程中,为避免破坏干净token学习到的行为,仅对开关token和触发的参数进行调整。
  3. 跨模式特征蒸馏损失(Cross-mode feature distillation loss):仅依靠干净损失和后门损失,开关token在后门模式下会对干净样本产生显著负面影响,原因是它可能导致干净图像和触发图像在特征空间混合。为解决这一问题,引入跨模式特征蒸馏损失,计算公式为 L c s ( S ) = E ( x , y ) ∼ D ∥ F f ( P , x ) − F f ( P , S , x ) ∥ 2 \mathcal{L}_{cs}(S)=\mathbb{E}_{(x, y) \sim \mathcal{D}}\left\| F_{f}(P, x)-F_{f}(P, S, x)\right\| _{2} Lcs(S)=E(x,y)DFf(P,x)Ff(P,S,x)2,其中 F f ( ⋅ ) F_{f}(\cdot) Ff() 输出输入样本 x x x 在最后分类器之前的特征。该损失的核心思想是最小化有开关token和无开关token时输入特征的距离,以降低开关token对干净样本的影响。综合考虑,SWARM的总体目标函数为 L t o t a l = L c l e + L b d + λ L c s \mathcal{L}_{total }=\mathcal{L}_{cle }+\mathcal{L}_{bd}+\lambda \mathcal{L}_{cs } Ltotal=Lcle+Lbd+λLcs,其中 λ \lambda λ 是权衡参数,用于平衡不同损失函数的影响 。

学习策略-Learning Strategy

这部分主要介绍了SWARM攻击方法的学习策略,通过交替优化不同损失函数来实现干净模式和后门模式的开关,具体内容如下:
在SWARM中,为实现两种不同模式,采用了特定的学习策略。在每一次迭代步骤中:

  • 首先,使用干净损失(clean loss)来更新干净tokens和触发(trigger)。干净损失的目标是使模型在干净模式下,对干净图像和带有触发的图像都能进行正常分类。通过最小化干净损失,调整干净令牌和触发的参数,使其适应下游任务的正确预测。
  • 然后,冻结干净token,将开关token添加到输入中。此时,使用后门损失(backdoor loss)和跨模式特征蒸馏损失(cross-mode feature distillation loss)来更新开关token和触发。后门损失确保在后门模式下,当触发出现时模型能被激活并输出目标标签;跨模式特征蒸馏损失则用于减少开关令牌对干净样本的影响,增强攻击的隐蔽性。

通过上述步骤,在一次迭代中需要进行两次前向和反向传播来优化参数。这种学习策略使得模型在不同模式下能够分别满足相应的性能要求,实现了可开关的后门攻击。


实验-Experiments

在这里插入图片描述
图3. 干净图像和后门图像的可视化。

实验设置-Experimental Setup

该部分详细介绍了实验的设置,包括数据集、模型、基线对比方法、攻击设置以及评估指标,为后续实验结果的分析和讨论奠定了基础,具体内容如下:

  1. 数据集和模型:选择VTAB - 1k基准数据集进行实验,该数据集包含自然任务、专业任务和结构化任务三类视觉分类任务,每个任务有1000个训练样本,使用其中800个样本训练,200个样本验证。主要目标模型为在Imagenet - 21K上预训练的Vision Transformer(ViT)。
  2. 基线和攻击设置:选取BadNets、Blended、WaNet和ISSBA这4种现有的后门攻击方法作为基线。在实验中,将提示设置为唯一可学习参数,并遵循各方法原论文的默认设置以保证性能。对于所有情况,将干净令牌数量设为50,其他视觉提示学习设置参考相关文献。为保证触发的不可感知性,将 ϵ \epsilon ϵ 设为4,默认超参数 λ \lambda λ 设为100。
  3. 评估指标:实验需评估模型在干净模式和后门模式下的性能。在干净模式下,使用良性准确率(Benign Accuracy,BA)和带触发的良性准确率(Benign Accuracy with Triggers,BA - T)衡量模型对干净图像和触发图像的分类性能;在后门模式下,依据以往后门研究,使用良性准确率(BA)和攻击成功率(Attack Success Rate,ASR)评估后门攻击效果,指标值越高表示性能越好。

主要结果-Main Results

这部分主要呈现了在VTAB - 1k数据集上使用SWARM攻击方法的实验结果,对比了SWARM与其他基线攻击方法在干净模式和后门模式下的性能,具体内容如下:

  1. SWARM - C在干净模式下的性能:SWARM - C代表模型处于干净模式,即未添加开关令牌的情况。实验结果显示,在所有数据集中,SWARM - C对干净图像和触发图像的分类性能与无攻击情况相当。多数情况下,其准确率下降幅度小于2%,且触发图像和干净图像之间无性能下降,部分场景下甚至优于无攻击情况,这表明在干净模式下,即使输入图像被触发,受害者也难以察觉模型性能的差异。
  2. SWARM - B在后门模式下的良性准确率:SWARM - B表示模型处于后门模式,即添加了开关token。在此模式下,SWARM表现为正常的后门模型,会操纵触发图像的预测结果。实验数据表明,SWARM - B在所有后门攻击方法中具有最佳的良性准确率,多数情况下与无攻击情况相比,准确率下降小于2%,其平均良性准确率在这些方法中也是最高的,说明该攻击方法在后门模式下对干净图像仍能保持较好的分类能力。
  3. SWARM - B的攻击成功率:SWARM - B在攻击成功率(ASR)方面表现出色,在所有数据集上都实现了高于95%的攻击成功率,平均攻击成功率达到97.90%,这一数值在所有对比的后门攻击方法中是最高的。尽管ISSBA在某些情况下也能达到较高的攻击成功率,但在特定数据集上表现不佳,攻击成功率低于90%.
    表1. 在VTAB-1k数据集上的主要结果(%)。在良性准确率(BA)方面,SWARM与四种先进的后门攻击方法相比具有竞争力,同时其攻击成功率(ASR)超过95%。我们用粗体标记了5种后门攻击中最佳的BA和ASR分数,下划线分数表示第二好的性能。
    在这里插入图片描述

消融研究-Ablation Study

这部分主要通过一系列消融实验,研究了不同因素对SWARM攻击方法性能的影响,具体内容如下:

  1. SWARM在不同骨干网络上的效果:评估SWARM在不同骨干网络上的性能,除了ViT,还在Swin Transformer和ConvNeXt上进行实验。这些预训练模型均在Imagenet - 21K上预训练,实验结果表明,SWARM在这些骨干网络上都能实现96%以上的攻击成功率(ASR),证明了SWARM的有效性不受上游骨干网络的影响。
    表2. SWARM在不同骨干网络上的实验结果。与基于Vision Transformer(ViT)骨干网络的情况相比,它有着相同的性能表现。
    在这里插入图片描述

  2. 开关token数量的影响:探究改变开关token数量对SWARM性能的影响,在CIFAR100、Flowers和Pets三个数据集上进行实验。结果显示,随着开关token数量的增加,模型性能并未提升,表明在SWARM中使用一个开关token就足以实现攻击目的。
    在这里插入图片描述
    图4. 增加开关令牌数量所产生的效果。

  3. 超参数 λ λ λ 的影响:进一步研究超参数 λ λ λ(用于平衡跨模式特征蒸馏损失)对SWARM性能的影响,在CIFAR100、Flowers和Pets数据集上进行实验。当 λ λ λ 不超过200时,模型性能保持稳健,其中 λ λ λ 为100时是最合适的权衡参数。
    在这里插入图片描述
    图5. 增大 λ λ λ 值所产生的效果。

  4. 开关令牌和跨模式蒸馏损失的作用:通过实验验证了SWARM中开关令牌和跨模式特征蒸馏损失的不可或缺性。没有开关令牌时,SWARM在两种模式下性能均较差;缺少跨模式特征蒸馏损失时,模型在干净模式下表现正常,但在后门模式下对干净图像的分类准确率下降约10%。此外,文章还在附录中对触发学习进行了消融实验。
    表3. 开关token S S S 和跨模式蒸馏损失 L c s L_{cs} Lcs 在三个数据集上的影响。
    在这里插入图片描述

可视化-Visualization

这部分通过对SWARM模型提取的特征进行可视化,直观展示了模型在干净模式和后门模式下对不同图像的特征处理差异,验证了攻击方法的合理性,具体内容如下:
在这里插入图片描述
图6. 由SWARM提取的特征的t-SNE可视化结果。在干净模式下,干净图像和触发图像的特征均是可分离的。在后门模式下,干净图像的特征是可分离的,而触发图像的特征则聚集在一起。

  • 可视化方法及目的:运用t - SNE可视化技术,对SWARM模型在不同模式下处理图像得到的特征进行可视化展示,以此分析模型在不同模式下对干净图像和触发图像的特征表现,进而验证攻击方法的合理性。
  • 干净模式下的特征表现:在干净模式下,干净图像和触发图像的特征呈现出几乎相同的模式,且都具有可分离性。这就解释了为什么在干净模式下,即使输入的是触发图像,模型仍能有良好的表现,即能够正确分类。
  • 后门模式下的特征表现:在后门模式下,干净图像的特征依然可分离,这表明模型对干净图像的预测结果是可靠的,能保持较高的良性准确率。然而,触发图像的特征情况则截然不同,其特征边界不如干净图像清晰,触发图像的特征聚集在一起。这种现象使得分类器在处理这些输入时,自然会将其预测为目标标签,从而实现后门攻击的效果。这一可视化结果进一步说明了仅通过开关令牌中少量参数的调整,就能使模型在不同模式下产生明显的行为变化,证明了SWARM攻击方法的合理性,也为后续进一步研究这种现象提供了有价值的依据。

对后门检测的鲁棒性-Robustness to Backdoor Detection

这部分主要研究了SWARM对后门检测的鲁棒性,通过使用多种检测方法对其进行检测,并与基线攻击方法对比,评估其隐蔽性,具体内容如下:

  1. 检测方法与评估指标:选择Scale-Up、TeCo和STRIP三种后门检测方法来检验SWARM攻击的隐蔽性。采用受试者工作特征曲线下面积(AUROC)和攻击成功率(ASR-D)作为评估指标。AUROC用于衡量干净样本的误报率和触发样本的检测率之间的权衡,ASR-D通过先筛选出检测方法认为的干净样本,再计算这些样本在后门模型上的攻击成功率,ASR-D越高,表明检测方法越难检测到触发样本,即后门攻击的隐蔽性越好。
  2. Scale-Up检测结果:Scale-Up是一种黑箱输入级后门检测方法,通过放大所有像素值,依据中毒样本与良性样本预测结果的一致性差异来检测后门。在四个不同数据集(CIFAR100、Caltech101、EuroSAT和DMLab)上进行测试,结果显示SWARM在这些数据集上的平均AUROC最低(0.4905),平均ASR-D最高(61.75%),优于其他基线攻击方法。虽然WaNet的AUROC与SWARM相同,但ASR-D表现较差,说明SWARM在对抗Scale-Up检测时具有更好的隐蔽性。
    在这里插入图片描述
    图7. 五种后门攻击在“Scale-Up”检测方法下的结果。更低的受试者工作特征曲线下面积(AUROC)和更高的检测时攻击成功率(ASR-D)表明攻击性能更好。在这些攻击中,SWARM的表现超过了所有其他基线攻击方法。
  3. TeCo检测结果:TeCo是一种测试时后门检测方法,基于后门感染模型在不同图像损坏情况下对干净图像和中毒图像的性能差异进行检测。在与Scale-Up相同的检测设置下,对四个数据集进行测试,结果表明在大多数情况下,SWARM在不同攻击方法中具有最低的AUROC和最高的ASR-D,相比ISSBA,ASR-D提高了12%。这表明SWARM成功克服了基线攻击的局限性,其可开关机制使后门行为难以被TeCo检测到。
    在这里插入图片描述
    图8. 五种后门攻击在TeCo检测方法下的结果。更低的受试者工作特征曲线下面积(AUROC)和更高的检测时攻击成功率(ASR-D)表明攻击性能更好。在这些攻击中,SWARM的表现超过了所有其他基线攻击方法。

对后门缓解的鲁棒性-Robustness to Backdoor Mitigation

这部分主要研究了SWARM对后门缓解方法的抵抗能力,通过实验验证了其在面对不同缓解策略时仍能保持较高攻击成功率,具体内容如下:

  1. 缓解背景与方法:用户可利用额外的干净数据进行后门缓解,以减轻后门威胁。本部分研究中,用户在保持骨干网络冻结的情况下调整提示参数,并利用额外1000个干净测试样本作为缓解的干净子集。实验选取了Neural Attention Distillation(NAD)和I-BAU两种后门缓解方法进行测试。
  2. NAD缓解实验结果:NAD通过教师网络在小部分干净数据子集上训练,引导后门学生网络的微调,确保中间层注意力对齐。实验结果显示,在使用NAD进行后门缓解时,SWARM在所有情况下都保持了较高的攻击成功率,超过96%,而其他基线攻击方法的攻击成功率较低。这表明SWARM能够成功抵抗NAD的缓解作用。
    表4. 基于神经注意力蒸馏(NAD)的防御结果。与其他基线方法相比,我们的方法在经过后门缓解处理后仍保持较高的攻击成功率。
    在这里插入图片描述
  3. I-BAU缓解实验结果:I-BAU利用隐式超梯度来考虑内外优化之间的相互依赖关系,通过在干净数据上解决最小最大问题来处理未见测试数据。实验结果表明,SWARM在I-BAU缓解下,攻击成功率保持在97%以上,优于所有其他基线攻击方法。ISSBA和WaNet的攻击成功率低于25%,与SWARM存在显著性能差距。
    表5. 基于I-BAU的防御结果。与其他基线方法相比,我们的方法在经过缓解处理后仍保持着较高的攻击成功率。
    在这里插入图片描述

结论-Conclusion

这部分总结了论文的核心成果,强调了研究的创新性、攻击方法的特性以及对未来研究的期望,具体内容如下:

  1. 研究成果总结:探索了针对预训练视觉Transformer应用于下游视觉识别任务时的后门攻击,识别出一种新的安全威胁,即利用额外的提示token(开关token)开启或关闭后门模式。通过干净损失、后门损失和跨模式特征蒸馏损失优化触发和提示令牌,实现了这种可开关的后门攻击机制。
  2. 攻击方法特性:实验表明SWARM在保持干净图像准确率的同时,能达到较高的攻击成功率(95%以上)。并且该攻击方法具有良好的隐蔽性,难以被检测和通过现有后门防御手段清除。
  3. 研究贡献与期望:首次提出可开关后门机制,并基于视觉提示定制了这种后门攻击。希望该研究能开启预训练模型攻击机制研究的新领域,鼓励未来开展更多针对此类攻击的防御研究,以提升机器学习系统的安全性和可靠性。