【论文阅读+复现】LayoutDM: Transformer-based Diffusion Model for Layout Generation

发布于:2025-07-25 ⋅ 阅读:(22) ⋅ 点赞:(0)

Abstract

自动化高质量布局生成。虽然用生成对抗网络(GANs)和变分自编码器(VAEs)已经有不少进展,但GAN的多样性和分布覆盖有限、VAE生成质量又不够高。作者受扩散模型(Diffusion Models)在高质量图像生成领域的成功启发,提出将条件扩散模型(Conditional DDPM)纯Transformer架构结合 ,创造出LayoutDM 模型,用于条件布局生成。

LayoutDM既继承了transformer建模复杂关系的优势,也利用了DDPM的高分布覆盖及稳定训练目标,比GAN/VAE更优秀。实验也表明,LayoutDM在生成质量与多样性上领先于现有方法。


Introduction

现有方法及其局限
  • GANs 可以生成高质量布局样本,缺点是训练不稳定、分布覆盖有限(多样性差)。
  • VAEs 比GAN表现出更好的多样性和分布覆盖,但生成内容视觉效果不及GAN,且采样速度较慢。
  • 二者都难以完全解决多样性、真实感、分布拟合和训练稳定性四者的平衡。
扩散模型的优势
  • DDPM (Denoising Diffusion Probabilistic Model)近年来在图像生成领域风头正劲,兼具高质量样本、强多样性、分布覆盖、目标函数收敛稳定、易扩展等优势。
  • 但,直接迁移到布局生成有两大难点
    • 布局数据非像素网格,具有离散+连续+可变长度 的结构,不适合常用的卷积网络(如U-Net)。
    • 元素属性和元素间关系对布局有决定性作用,怎么用神经网络建模这些尤为关键。
论文创新点
  • 用Transformer 取代 U-Net,作为反扩散网络,充分建模元素间复杂关系
  • 设计出条件布局去噪器(cLayoutDenoiser),巧妙消融序列位置编码(不关心元素顺序),专注于空间关系
  • 对比GAN与VAE,不仅生成质量高,还具备更强多样性、分布覆盖和稳定性

方法概述

1. 总体框架(LayoutDM)

  • 包含一个前向扩散过程、一个反向去噪过程
  • 前向过程:逐步添加高斯噪声(把原始布局扰乱)
  • 反向过程:模型(cLayoutDenoiser)学会逐步从噪声还原布局

2. Transformer-based cLayoutDenoiser

  • 用纯Transformer实现噪声预测,不依赖CV常用的卷积/U-Net
  • 输入:被扰动的布局(带噪声)+ 布局元素特征f + 当前时间步t
  • 输出:预测噪声分量,实现回溯去噪
  • 不需要位置编码(Positional Encoding),因为元素没有顺序之分,强调元素间的相互关系而非“前后谁先谁后”

3. 条件生成

  • 用户可以指定元素和属性(比如按钮、图片、文字模块的类型与尺寸等),模型据此生成可控属性下的多样化高质量布局。

主要贡献总结

  1. 创新 :首次提出用Diffusion Model生成布局,并用纯Transformer替换传统U-Net骨干。
  2. 去噪器 :设计了条件Transformer作为去噪器,强力建模复杂多元素关系。
  3. 实验 :在多个数据集上大幅优于SOTA,兼得视觉质量和样本多样性。

Figure 1

  • a) LayoutDM整体架构 :左侧是正向扩散过程(加噪声),右侧是反向过程(布局去噪器εθ),逐步还原布局。
  • b) cLayoutDenoiser架构 :输入带噪声的元素属性+时间步,输出噪声预测。
  • c) 条件去噪器 :能根据指定元素类别/属性,生成有控制的布局。

Method

3.1 Layout Representation

  • 布局作为元素集合 :每个布局由任意数量的元素组成,每个元素包括几何参数(位置和尺寸,如中心点坐标和宽高)以及属性(如类别标签或文本特征)。
  • 形式化表达 :布局表示为l = (g1, f1, g2, f2, ..., gN, fN)。gi = [xi, yi, wi, hi],代表第i个元素的中心坐标和宽高;fi 是该元素的属性。
  • 无序性 :元素在序列中的顺序没有意义,因此交换g和f中的元素不会改变布局含义,这也是模型不用“序列位置信息编码”的理论依据。
  • 归一化 :所有几何参数都归一化到 [−1, 1] 区间,实现统一建模。

3.2 LayoutDM Architecture

整体概览 :LayoutDM属于带条件的DDPM(Denoising Diffusion Probabilistic Model),区别在于这里用的是Transformer背骨而非U-Net。

核心思想 :

  • 正向扩散:逐步将布局几何参数加高斯噪声,直至变为完全噪声分布(近似高斯白噪声)。
  • 反向去噪:用cLayoutDenoiser逐步从噪声恢复到可用的布局(受元素属性f引导,生成符合条件的多样化、高质量布局)。

关键公式 :

3.3 Conditional Layout Denoiser

(条件布局去噪器,核心创新)

  • 输入 :t时刻的噪声布局 gt、元素属性 f 和 time step t。
  • 模型 :完全基于 Transformer,而不是CNN。
  • 属性引导 :将属性embedding嵌入到输入元素token,指导每步生成。
  • 三大embedding
    • GeometricEmbedding(gt) :将归一化坐标投到高维空间。
    • AttributesEmbedding(f) :将离散类标签/文本property投到高维空间。
    • TE(t) :sinusoidal时间步编码,使模型有“进度”感知。
  • ElementEmbedding过程
    • 将上述两个embedding拼接,然后用一个FC层融合生成element token,再加TE(t)。
  • 多头自注意力Transformer结构
    • 堆叠8层,每层都进行多元素间关系建模,理解相互制约/吸引是高质量布局生成的关键。
    • 不用传统transformer的“位置编码”,因为布局元素无顺序!
  • 输出 :对每个元素,预测其噪声分量(作为去噪依据)。

项目

传统 DDPM

LayoutDM

主干网络

UNetCNN

纯 Transformer 架构

输入数据

图像(像素)

布局元素序列([x,y,w,h] + 属性)

噪声注入

加在图像像素上

加在 几何位置参数(layout box) 上

条件输入

class label / 图像

元素属性 f(如类别、语义)

 

3.4 Training and Inference

  • 损失函数 (简化版):

  • 目标 :让预测噪声和真实噪声尽量接近,训练cLayoutDenoiser高质量还原布局。
  • 训练算法(Algorithm 1)
    1. 随机采样真实布局(g0, f)、时间步t和噪声ε。
    2. 得到添加噪声后的gt。
    3. 用预测器εθ(gt, t, f)还原噪声,计算MSE,反向传播优化。
  • 采样流程(Algorithm 2)
    1. 从纯高斯噪声gT开始。
    2. 逐步从T降到1,逆向用cLayoutDenoiser根据属性f指导,每次去噪一步,直至g0即布局结果。

Experiments

4.1 Experimental Settings

  • 数据集
    1. Rico :手机UI大规模布局。
    2. PublayNet :科学文档布局(文本、标题、表格等)。
    3. Magazine :杂志。
    4. COCO :自然场景目标。
    5. TextLogo3K :文本logo的布局检测。
  • 评估指标
    • FID (Fréchet Inception Distance):越小越好,衡量生成分布与真实分布的接近度,综合多样性/拟真度。
    • Max. IoU :找最佳匹配,测生成布局与真实布局重合质量。
    • Overlap、Alignment :分别评判布局元素的重叠/对齐程度,反映感官美学。
  • 实现细节
    • 步数T=1000,变异度β线性递增,8层Transformer,8头注意力。
    • Adam优化器,lr=1e-5, batch size=1024, PyTorch Lightning, 单卡即可。

4.2 Quantitative Evaluation

与主流方法对比(基于Rico, PublayNet, Magazine等)

  • 对象 :LayoutGAN、LayoutGAN++、NDN、VTN等(有的引用前作结果,有的重实现对比)。
  • 结论总结
    1. FID/MaxIoU指标 :LayoutDM全线领先(意味着生成既多样又高质量)。甚至有的场景生成FID比验证集还低,因为采样属性和测试集一致,没引入复杂度。
    2. Overlap/Alignment :略微劣于部分GAN/NDN方法,因为LayoutDM无判别器(GAN的判别器能严格优化对齐/重叠),也未采用精细化layout refine模块。
    3. 更广泛SOTA对比 :补充和BLT等最近模型对比,LayoutDM依然在各指标最优。

消融实验(Transformer结构有效性)

  • 实验现象
    • 如果把Transformer换成全连接网络(FC),能拟合每个元素大小,但失去了全局/相对关系理解,表现为严重“堆叠”“错位”。
    • 说明自注意力机制(即Transformer结构)对解码和表达布局元素间复杂依赖至关重要。
    • 见表3和图3,直观可见效果明显优于无Transformer版本。

4.3 Qualitative Comparisons

① 生成质量对比

  • 实验设置 :随机采样测试集的布局,输入类别标签作为生成条件,对比 LayoutDM、LayoutGAN++ 和条件 VTN(Conditional VTN)。
  • 可视化结果(Fig.2)
    • LayoutDM 布局更合理、丰富、复杂,元素排列兼顾全局和细节,几乎没有重叠且对齐较好。
    • LayoutGAN++ 和 VTN ‌生成的结果则更容易出现元素重叠和对齐不佳等问题。

② 生成多样性对比

  • 结果 :LayoutDM 和 VTN 都显示出更强的布局多样性,同一组条件生成的结果不同,体现模型的高泛化能力。LayoutGAN++ 则很容易陷入模式坍缩(如大图片元素总是放在相同位置)。
  • 归因 :LayoutDM 通过逐步条件扩散建模,天然避免了GAN系常见的模式坍缩问题,使每一次采样都能探索更大解空间。

③ 渲染结果对比

  • 实验方法 :将生成的版面用真实素材“还原”成可视化的图形页面(如PublayNet)。
  • 结果(Fig.5) :LayoutDM生成的页面布局完全合理,空间利用和对齐优于LayoutGAN++,而且无明显重叠现象。虽然简单裁剪和拉伸图片会导致失真,真实应用中可通过调整字体/图像自适应解决。


4.4 扩展任务(Extended Layout Generation Tasks)

1. 文本Logo布局生成

  • 实验 :在TextLogo3K数据集上生成logo布局(该数据集无标签,只能用字符/词嵌入为条件)。
  • 方法变化 :此处LayoutDM在Transformer中使用了位置编码(因为字符有阅读顺序需求)。
  • 结果(Fig.6)
    • LayoutDM保证了阅读顺序和美观,多字符布局还能灵活调整(而LogoGAN容易失败或只简单地水平排布)。
    • 大量字符场景下,LayoutDM显著优于对手,生成效果更丰富、合理

2. 场景布局生成

  • 实验 :在COCO等自然场景数据集按场景元素标签生成布局。
  • 结果(Fig.7)
    • LayoutDM能合理预测并安排物体空间位置,“船在河中央,云在天空”,体现了模型对真实场景关系的“理解”。
    • 并可结合下游模型直接生成高质量的场景图片。

4.5 主要局限性

  1. 单层画布:如同多数布局生成方法,目前只能处理所有元素在同一平面,不可表达多层叠加关系(前后遮挡)。
  2. 生成速度 :扩散模型迭代去噪过程较慢,不能与VAEs快速采样相提并论。实际应用可能需要进一步加速优化或采用快速采样技术。

5. 结论

  • 创新之处 :首次将完全无序元素的Transformer结构扩散模型(LayoutDM)用于条件布局生成。
  • 优势突出 :融合了扩散模型的高分布覆盖与Transformer的强关系建模,兼得高质量、多样性与稳定性。
  • 实验充分 :大量定量定性对比,领先传统GAN/VAE类模型。

补充材料

1. 数据集及评测划分说明

  • 各数据集严格规范地划分了train/val/test,结果可信且保证公平对比。

2. 评测指标详细解释

  • FID :用特征判别器中间层输出做分布匹配,度量生成和真实布局的分布距离。

  • MaxIoU :生成布局和真实参考集两两最佳重叠度评价。

  • Alignment :度量元素对齐性(左右/居中/上下)。

  • Overlap :总重叠比例。

3. 对BLT等SOTA方法的补充对比

  • 按BLT的方式,在PublayNet、Rico、Magazine等做了更全面的SOTA对比,LayoutDM始终全面领先。

4. 为什么LayoutDM有时“比真实数据还低的FID”

  • 因为LayoutDM生成时用到了test set的属性条件而验证集是随机分布,所以生成分布与test set高度匹配(比val更像test set),FID会更低。这一点作者也补充通过实验证明。

5. 关于位置编码消融实验

  • 不加位置编码(PE) :无序输入任意shuffle都不影响生成,高稳定性。

  • 加上PE :输入顺序变化会导致错误解读和低质量输出。

  • 充分说明LayoutDM结构自然满足布局元素无序性。


网站公告

今日签到

点亮在社区的每一天
去签到