标题:Attentive Eraser: Unleashing Diffusion Model’s Object Removal Potential via Self-Attention Redirection Guidance
Source:https://arxiv.org/pdf/2412.12974
收录:AAAI '25
作者单位:浙工商,字节(杭州),阿里(杭州)
1. 总结
提供了一种无需调参的方法,使得预训练的扩散模型在目标擦除任务上实现sota效果。
作者发现,自注意力图会影响生成图像的结构和纹理细节
作者提出ASS模块(attention activation and suppression),基于给定蒙版,调用语言训练扩散模型的自监督机制,在逆生成过程中实现背景相对于前景的优先处理
2. 有哪些相关研究?如何归类?谁是这一课题在领域内值得关注的研究员?
2.1 用于目标擦除的扩散模型
2.2 Sampling guidance
Classifier guidance: 使用额外的预训练分类器提供监督信号
Classifier-free guidance: 构建一个隐式分类器来引导生成过程
Self-attention guidance: 使用或者调整自监督模块来引导生成过程
SAG: Hong et al., 2023
PAG: Ahn et al., 2024
3. 论文试图解决什么问题?
扩散模型作为一种生成式模型,在目标去除任务(object removal tasks)上,会输出带有随机artifacts和前景物体区域生成不自然的问题。
4. 这篇文章要验证一个什么学科假设?
为前景物体区域提供背景标签,而其他区域在生成过程中保证标签不变,即可消除生成不自然的问题。
5. 论文中提到的解决方案之关键是什么?
作者发现不同层不同时间步的自监督图代表了图像各组成部分的语义信息。自监督图中代表前景和背景的部分有明显区分。
一种直觉的生成方案就是将前景自注意力信号与背景的相混合。相应地,蒙版内区域相较于背景的自注意力信号要提升,而相对自己的要下降。背景区域的信号要被固定且不受生成过程的影响。因此,背景相较于前景的注意力信号需要下降。
6. 论文中的实验是如何设计的?
无需微调,直接替换attention模块。在基于扩散模型的inpainting框架上验证效果可行性:SIP (stochastic inpainting pipeline) 和 DIP (deterministic inpainting pipeline)。
7. 用于定量评估的数据集是什么?代码有没有开源?
测试:从OpenImages V5的测试集中随机抽取一万组数据,包含原始图,对应的蒙版,分割的外接框,和分割类别标签。
评估指标:
整体效果:FID, LPIPS,
局部效果:Local-FID,
一致多样性:CLIP consensus,和
目标擦除度:CLIP score,越高,说明擦除得越真实,擦除度越高。
代码已开源:https://github.com/Anonym0u3/AttentiveEraser?tab=readme-ov-file