introduction
目前的后门移除方法总是依赖于干净的标记数据,这意味着在下游任务中安全部署预训练模型仍然需要这些昂贵或难以获取的标签。在本文中,我们专注于如何仅使用未标记数据来净化带有后门的模型骨架。为了在没有标签的情况下唤起后门模式,我们提出利用无监督对比损失在特征空间中搜索后门。令人惊讶的是,我们发现可以通过对比损失制作的对抗样本来模仿后门样本,并通过对抗性微调将其擦除。因此,我们将我们的方法命名为对比后门防御(Contrastive Backdoor Defense, CBD)。
许多防御方法(Zeng et al., 2022; Wang et al., 2019; Wu & Wang, 2021),它们主要集中在通过构建基于分类的损失函数来防御监督学习中的后门攻击。在从预训练模型骨架到下游任务的流行部署方案中,从业者可能只有少量昂贵的标记数据,无法获得分类器头(例如自监督模型骨架)以与真实标签进行比较,或者难以设计基于分类的损失函数(例如检测或分割任务)。为了突破这一限制,本文专注于如何仅使用未标记数据来净化带有后门的模型骨架。
许多防御方法需要访问分类器头,通过比较模型输出与真实标签的差异(基于分类损失)来检测或移除后门。例如:
- 基于输出对齐的方法:通过最小化模型在干净数据上的分类损失来覆盖后门行为。
- 基于置信度的方法:通过分析分类器输出的置信度分布定位异常样本。
我们将后门触发器视为决策边界中的一个“捷径”(Wang et al., 2019),传统方法(Wang et al., 2019; Zeng et al., 2022)试图通过在输入中使用小扰动使预测尽可能偏离真实标签,从而唤起后门行为并将其擦除。不幸的是,我们无法访问任何标签,甚至在模型骨架缺乏分类器头时,也无法获取预测结果。为了在没有标签的情况下唤起后门行为,我们提出利用无监督对比损失在特征空间中搜索后门,即通过小扰动使输出特征尽可能与其原始特征不同。令人惊讶的是,我们发现可以通过对比损失制作的对抗样本来轻松模仿后门样本。基于这一发现,我们提出通过微调使这些基于对比损失的对抗样本与其干净对应样本具有相似的特征来擦除后门行为。
related work
后门移除,其可以主要分为两类,包括(1)训练时间防御(Huang等人,2022; Gao等人,2021):防御者可以访问训练数据,并根据各种防御策略训练模型。例如,Gao等人(2021)利用对抗性训练来训练一个针对后门触发的稳健模型;(2)后处理防御(Liu等人,2018; Wang等人,2019年; Wu & Wang,2021年; Zeng等人,2022年; Li等人,2021年):防御者用少量数据净化模型,而不访问训练过程和训练数据。因此,后处理防御可以应用于更广泛的场景,在将主干网部署到下游任务之前从Internet中对其进行净化。然而,几乎所有这些方法都依赖于足够量的标记干净数据和分类损失,而标记数据可能难以获得,主干可能没有分类器头,或者难以设计用于防御的基于分类的丢失(例如,用于对象检测或分割防御)。本文主要研究如何在不使用任何标签的情况下,对backbone进行纯化。
CONTRASTIVE BACKDOOR DEFENSE WITHOUT ANY LABELED DATA
我们提出了一种针对预训练特征提取器的新型微调方法。
防御设置:
在这里,我们考虑一种典型的后处理后门移除设置,即从业者从不可信的来源下载一个预训练的模型骨架 (特征提取器encoder) ,并在部署之前防御潜在的后门攻击。需要注意的是,我们设置中的预训练模型骨架可以通过监督学习或自监督学习方法训练而成。然而,在防御时,我们只能访问一些未标记的数据,没有任何标签或与标签相关的信息。这与依赖于干净标记数据的现有后门移除方法有很大不同。
后门攻击的可视化:
从监督学习模型骨架开始,成功的后门攻击会将带有触发器的样本错误分类为目标类别。如图1(a)所示,目标类别的干净样本(蓝色圆圈)和后门样本(黑色圆圈)位于两个不同的聚类中,尽管它们被分类为同一类别。对于自监督学习模型骨架,由于不知道下游任务,成功的后门攻击只能通过良性特征和后门特征之间的差异来验证(Carlini & Terzis, 2022)。如图1©所示,后门聚类(黑色圆圈)也明显与干净聚类分离。这种一致的现象启发我们通过识别后门聚类并将其移除来实现防御,这在标签可用时很容易实现(Wang et al., 2019)。然而,当没有任何标签时,我们需要思考如何识别分离的后门聚类。
增强的含义
对比损失
method
发现对抗性聚类接近后门聚类后,我们的目标是消除这种“捷径”以实现防御。
后门到标准的拉近(Backdoor-to-Standard Pulling)
我们首先说明如何缓解触发器敏感的“捷径”。在监督学习中,后门攻击主要在触发器和目标类别之间建立强连接(Huang et al., 2022)。因此,将触发器与所有类别连接可以有效打破后门攻击。然而,在我们的设置中,这种方法是不可行的,因为我们不使用标记数据。相反,我们需要弥合后门特征和干净特征之间的差距。基于上述实验,那些接近后门聚类的生成实例可以作为后门图像的替代品。因此,将对抗性图像拉向其良性部分可以减轻后门效应,因为我们对齐了潜在的后门特征和干净特征。
实验
我们的方法的可视化如图1(b)和(d)所示。