活体检测 Domain Generalization via Shuffled Style Assembly for Face Anti-Spoofing 论文学习记录

发布于:2023-01-14 ⋅ 阅读:(1286) ⋅ 点赞:(1)

论文链接https://openaccess.thecvf.com/content/CVPR2022/papers/Wang_Domain_Generalization_via_Shuffled_Style_Assembly_for_Face_Anti-Spoofing_CVPR_2022_paper.pdf

动机

人脸识别系统经常遭到诸如打印纸张、视频重播、3D 头模的表示攻击,一系列的 FAS 方法被提出来解决这些问题。近期,基于域泛化 (DG) 的 FAS 方法由于能在未知域中有良好的表现而受到越来越多的关注。然而,这些方法没有充分利用全局和局部图像统计的属性。此外,风格迁移可以将内容特征作为全局数据、风格特征作为局部数据进行重组,形成用于特定监督的风格化特征,如下图所示:

创新点

1)将完整的特征分为内容和风格特征,提出了 shuffled style assembly network (SSAN),该网络基于特征级风格迁移

2)为了增强与活体相关的风格信息并抑制特定域的风格信息,采用对比学习方法来控制靠近或远离 anchor 特征的风格化特征

方法论

SSAN 的整体网络结构如下图所示,首先使用两个分支来分别提取内容和风格特征并对信息进行聚合。接着,提出了一个风格打乱及重组方法来组合不同的内容和风格特征,形成风格化的特征空间。为了抑制特定于域的风格信息并增强活体相关信息,作者在风格化特征空间中使用了对比学习。

内容和风格信息聚合

内容信息通常由 FAS 中的公共因子表示,主要包括语义特征和物理属性。而风格信息描述了一些判别线索,它在 FAS 任务中可以分为两类:特定域的风格信息和与活体相关的风格信息。因此,在 SSAN 中,内容和风格特征分别由两个分支提取。具体来说,特征生成器作为浅层嵌入网络,可以捕获多尺度低级信息。随后,内容和风格特征提取器通过使用特定的归一化层(即 BN 和 IN)来收集不同的图像统计信息。

针对内容信息聚合,作者基于下列事实推测不同域存在小的分布差异:1)虽然样本可能来自不同的域,但它们都包含脸部区域,因此它们共享了一个有共同语义的特征空间;2)无论是真人脸还是假人脸,它们的形状和大小等物理属性往往是相似的。因此,作者使用对抗学习进行训练,使得模型无法区分生成的不同域的内容特征。具体来说,内容特征生成器的参数通过最大化对抗性损失函数来优化,而域判别器的参数则在相反的方向上进行优化。公式如下:

其中,Y_{D} 是域标签集,M 是域的个数,G 和 D 分别表示内容特征生成器和域判别器。

对于风格信息聚合,由于风格特征的尺度不同,作者以类似金字塔的方法收集多层特征。

打乱风格重组

Adaptive Instance Normalization (AdaIN) 是一种自适应风格迁移方法,它能对内容输入 x 以及风格输入 y 进行重组,公式如下:

其中,\alpha 和 \beta 是由风格输入 y 产生的仿射参数。

作者提出了 style assembly layers (SAL) 来组合内容特征和风格特征,SAL 由 AdaIN 以及带有残差结构的卷积组成,公式如下:

其中,K_{1} 和K_{2} 为 3*3 卷积。然而,f_{s} 同时包含了与活体相关的信息以及特定于域的信息,后者可能会使网络学到偏差信息。为了缓解这个问题,作者提出了 SSA 来形成风格化特征以进行域泛化。假设 batch size 为 N,x_{i} 为其中的一个输入,它的内容特征可以表示为f_{c}(x_{i}),风格特征表示为f_{s}(x_{i}),相应的重组特征空间 S 可以表示为:

此外,为了利用与活体相关的风格特征,作者通过打乱原始对  来合成辅助特征空间,公式如下:

风格特征的对比学习

作者提出了一种对比学习方法来强调与活体相关的风格特征以及抑制特定于域的风格特征。在重组完内容特征及风格特征后,就得到了以及。对于前者,作者将它输入到分类器中,并使用二分类 GT 来监督。对于后者,作者使用余弦相似度来测量它们与前者的差异,公式如下:

 被设置为风格化特征空间中的 anchor,如下图所示,

作者使用 stop-gradient (stopgrad) 来固定在特征空间中的位置,随后 被拉近或者远离 anchor,对比学习的公式如下:

模型的伪代码如下:

损失函数

实验结果

在源域有限的条件下,与其他算法的对比实验结果如下:

消融实验结果如下:

与 SOTA 方法的实验对比结果如下: