前言:本篇文章主要对基于重建的AI生成图像检测的四篇相关工作进行介绍,分别为基于像素层面重建的检测方法 DIRE 和 Aeroblade,以及基于语义层面重建的检测方法 SimGIR 和 Zerofake;并对相应方法进行比较。
相关文章:论文研读|针对文生图模型的AIGC检测
⚠️ 基于像素层面重建的检测
顾名思义,像素层面的重建,即保证重建图像在视觉上要尽可能与原始图像一致。
比较具有代表性的2️⃣篇文章是 DIRE 和 Aeroblade:
- DIRE for Diffusion-Generated Image Detection. ICCV, 2023. code
- AEROBLADE: Training-Free Detection of Latent Diffusion Images Using Autoencoder Reconstruction Error. CVPR, 2024. code
二者的主要思想都是以视觉相似性为目的对原始图像进行重建,根据真实图像和生成图像分别与各自重建图像的差异性完成检测。主要区别在于,得到重建图像后,DIRE使用原始图像与重建图像的残差作为输入训练一个二分类器;而Aeroblade无需训练,直接使用lpips距离直接判断原始图像是否为生成图像。
⚠️ 基于语义层面重建的检测
基于语义的图像重建,旨在保证原始图像与重建图像在语义层面的相似性。
比较具有代表性的2️⃣篇文章是 ZeroFake 和 SimGIR:
- SemGIR: Semantic-Guided Image Regeneration Based Method for AI-generated Image Detection and Attribution. ACM Multimedia, 2024.
- ZeroFake: Zero-Shot Detection of Fake Images Generated and Edited by Text-to-Image Generation Models. CCS, 2024. code
这两项工作主要思想都是以原始图像对应的提示词文本为语义指引,得到重建图像辅助检测。区别在于,SemGIR 直接使用BLIP图像描述模型得到原始图像的提示词文本,生成重建图像,然后联合原始图像特征与重建图像特征训练二分类器进行检测(如下图):
而 Zerofake 无需训练,直接通过计算原始图像与重建图像的SSIM距离完成检测(提前设定比较阈值,文中为0.78)。此外,不同于 SimGIR,Zerofake不是使用BLIP模型得到的描述文本直接作为原始图像提示词文本,而是对描述文本添加了对抗扰动提示,如下图及伪代码所示:
像素层面重建和语义层面重建的区别是在 SimGIR 这篇文章中提出来的,旨在保证原始图像与重建图像的语义特征相似性。虽然方法是在 few-shot场景下使用常规的特征拼接得到检测特征依据,但能够找到这样一个切入点成文个人感觉比较新奇,启发就是方法的motivation很重要,要言之有物,言之有理。
比较好奇的一个点是,原始图像与重建图像之间的语义一致性对于检测结果有什么具体影响,并且这一影响是否在原理和实验层面进行解释呢?