【论文阅读】Availability Attacks Create Shortcuts

发布于:2025-03-23 ⋅ 阅读:(29) ⋅ 点赞:(0)

还得重复读这一篇论文,有些地方理解不够透彻

可用性攻击通过在训练数据中添加难以察觉的扰动,使数据无法被机器学习算法利用,从而防止数据被未经授权地使用。
例如,一家私人公司未经用户同意就收集了超过30亿张人脸图像,用于构建商业人脸识别模型。为解决这些担忧,许多数据投毒攻击被提出,以防止数据被未经授权的深度模型学习。它们通过在训练数据中添加难以察觉的扰动,使模型无法从数据中学习太多信息,从而导致模型在未见数据上的准确率任意糟糕。这些攻击使数据无法被机器学习模型利用,被称为可用性攻击。

在这里插入图片描述

在本研究中,我们首次探讨了这些扰动为何能够奏效。我们揭示了这些攻击的扰动的一个重要特性:当被赋予相应样本的目标标签时,这些扰动几乎线性可分,从而可以作为学习目标的捷径。我们进一步验证了线性可分性确实是可用性攻击的关键因素。我们合成线性可分的扰动作为攻击手段,并展示了它们与精心设计的攻击一样有效。此外,这种合成扰动的生成过程要简单得多。例如,以往的攻击需要花费数小时来为ImageNet生成扰动,而我们的算法仅需几秒钟。我们的发现还表明,捷径学习比之前认为的更为普遍,因为即使捷径的规模小到难以察觉且与正常特征混合在一起,深度模型仍会依赖捷径。

通过二维T-SNE可视化了几种可用性攻击的扰动。令人惊讶的是,具有相同类别标签的扰动聚集得很好,表明这些扰动在原始高维空间中几乎是线性可分的。 我们通过用线性模型拟合扰动来确认这一点。扰动被赋予了它们目标样本的标签。(给扰动赋予标签) 结果表明,简单的逻辑回归模型可以以 > 90% 的训练准确率拟合四种代表性攻击的扰动。 干净数据的不同类别投影混合在一起,这表明它们需要一个复杂的神经网络才能正确分类。这一观察结果表明,使用线性可分的扰动可能是可用性攻击的共同模式。
在这里插入图片描述

从概念上讲,当前可用性攻击之所以有效,可能是因为这些难以察觉的扰动创造了一种捷径。它们如此简单,即线性可分,以至于深度模型倾向于依赖它们进行预测,而忽略真正的特征。这扩展了现有的捷径学习概念,捷径学习通常指的是深度模型倾向于依赖一些自然特征,这些特征与标签相关但不是因果关系,例如,“草地”是自然图像中识别“牛”的捷径。相比之下,我们揭示了一种更明确的捷径形式,人们可以有意地创建这样的捷径。
在这里插入图片描述

为了进一步确认创建捷径对于成功的可用性攻击也是充分的(不仅仅是必要的),我们逆转了上述过程:合成一些简单的线性可分扰动,看看它们是否可以作为可用性攻击。具体来说,我们首先通过Guyon的方法生成一些初始合成扰动,然后添加一个新的后处理程序,以便在应用数据增强时合成扰动仍然有效。在基准数据集和模型上的广泛实验表明,合成扰动可以和现有的可用性攻击一样强大。值得注意的是,生成合成扰动比现有攻击要容易得多和便宜得多,因为它不需要解决任何优化问题。例如,最近的攻击需要花费数小时来为ImageNet数据生成扰动,而生成合成扰动只需要几秒钟。这一发现揭示了人们可以通过简单地创建捷径来实施成功的可用性攻击。

我们的贡献总结如下:

  • 我们揭示了几种现有可用性攻击的扰动是(几乎)线性可分的。
  • 我们提出使用合成捷径来执行可用性攻击,这要容易得多和便宜得多。
  • 我们将可用性攻击与捷径学习联系起来,极大地扩展了对深度学习中捷径的理解。