牛津&Meta最新!PartGen:基于多视图扩散模型的多模态部件级3D生成和重建!

发布于:2024-12-30 ⋅ 阅读:(30) ⋅ 点赞:(0)

文章链接:https://arxiv.org/pdf/2412.18608
项目链接:https://silent-chen.github.io/PartGen/

总结速览

解决的问题
当前的3D生成与扫描技术能够生成具有高质量形状和纹理的3D资产,但这些资产通常是单一的、不具备结构的整体表示(如隐式神经场、高斯混合体或网格)。然而,专业应用与创意工作流中需要结构化的3D资产,这些资产由具有独立意义的部分组成,便于重用、编辑与动画制作。

提出的方案
本文提出了PartGen,能够将无结构的3D对象转化为具有语义意义的组成部分。方法分为两个关键阶段:

  • 部分分割:通过多视图扩散模型生成多个视角的一致分割图,将3D对象分割为多个部分。

  • 部分补全与重建:利用第二个多视图扩散模型补全各部分的遮挡区域,并通过3D重建网络生成完整的3D部件,确保部件间的无缝整合。

应用的技术

  • 多视图扩散模型:用于生成视角一致的分割图,并捕捉多种可能的分割方案,符合艺术家分割对象的习惯。

  • 生成式补全:通过上下文信息完成遮挡部件,甚至在信息缺失的情况下进行“合理幻觉”,生成完整的不可见部分。

  • 3D重建网络:将补全的视图转换为高质量的3D部件,实现模型的整体性和一致性。

达到的效果

  • 提升分割与重建质量:相比现有分割与部件提取baseline,PartGen在分割精度和部件完整性上表现出色。

  • 多输入支持:支持从文本、图像或无结构3D对象生成具有部分结构的3D资产。

  • 下游任务应用:支持3D部分编辑任务,例如部件替换、移除、独立编辑等,满足动画制作、游戏开发和机器人应用需求。

  • 语义一致性:生成的部件语义清晰,整体结构完整,为3D理解和空间智能提供支持。

方法

PartGen是一个能够将 3D 对象完全分解为完整 3D 部件的框架。每个部件都是独立的、可供人类理解的、自包含的元素,组成了 3D 对象的组合表示。PartGen 能够接受不同的输入模态(文本提示、图像提示或 3D 资产),并通过重新利用一个强大的多视角扩散模型来执行部件分割和补全任务。PartGen 的概述如下图 2 所示。

本节简要介绍了 3D 生成的多视角扩散模型背景,以及 PartGen 如何应用于文本、图像或 3D 模型输入。然后,描述了 PartGen 如何自动分割、补全和重建 3D 部件。

3D 生成的背景

多视角扩散模型方法通常采用两阶段的 3D 生成方法。

在第一阶段,给定一个提示 ,一个图像生成器 从不同的视角输出对象的多个 2D 视图。根据 的性质,网络 要么是文本到图像(T2I)模型,要么是图像到图像(I2I)模型。这些模型经过微调,可以输出一个单一的“多视角”图像 ,其中对象从四个主要方向的视图被排列成一个 的网格。该模型因此提供了一个概率映射 。这些 2D 视图 随后被传递到重建模型(Reconstruction Model,RM) ,即一个神经网络,用于重建 3D 对象 的形状和外观。相比直接 3D 生成,这种两阶段的范式充分利用了基于互联网规模的 2D 数据预训练的图像生成模型。

该方法是通用的,可以与多种实现的图像生成和重建模型结合使用。本文的工作采用了类似于 AssetGen 的设置。通过对一个预训练的文本到图像扩散模型(其架构类似于 Emu)进行微调获得 。Emu 是一个在 8 通道潜空间中的扩散模型,其映射由一个经过特殊训练的变分自编码器(VAE)提供。当输入是一个 3D 模型时,会渲染多个视图以形成网格视图。对于 RM ,使用了在数据集上训练的 LightplaneLRM。

多视角部件分割

本文提出了一种将对象分解为组成部件的方法。受多视角扩散方法的启发,将对象分解为部件的任务框定为多视角分割任务,而非直接进行 3D 分割。总体目标是将 映射为一个 2D masks集合 ,每个mask对应对象的一个可见部件。图像 和masks 均为多视角网格。

通过多视角扩散的视角处理 3D 对象分割有以下几个优势:

  • 允许重新利用现有的多视角模型 ),这些模型已经经过预训练,可以在 RGB 域中生成一致的多视角输出。

  • 它能轻松集成到现有的多视角框架中。

  • 将对象分解为部件本质上是一个非确定性、模糊的任务,因为它取决于所需的详细程度、个人偏好以及艺术意图。

通过使用概率扩散模型学习此任务,能够有效地捕获并建模这种模糊性。为此,在一个经过精心挑选的艺术家创建的 3D 对象数据集上训练模型,其中每个对象 被注释为可能的 3D 部件分解 。

假设输入为一个多视角图像 ,输出为一组多视角部件masks 。为了微调我们的多视角图像生成器 以用于mask预测,将 RGB 空间量化为 个不同的颜色 。对于每个训练样本 ,为部件分配颜色,将部件 映射到颜色 ,其中 是集合 上的一个随机排列(假设 )。根据此映射,我们将分割图渲染为多视角 RGB 图像 (下图 4)。然后微调 使其 (1) 将多视角图像 作为条件输入,(2) 生成颜色编码的多视角分割图 ,从而对分布 进行采样。

该方法通过简单地重新运行具有随机性的 来生成不同的分割结果。此外,它利用了 的随机性,无需纠结于部件的具体“命名”或着色,这些是任意的。部件命名是实例分割中的一个技术性问题,通常需要特定的解决方案,而此方法能够“免费”解决该问题。

在测试阶段,通过采样图像 并基于参考颜色 对其进行量化,从而提取分割结果,并丢弃仅包含少量像素的部分。

实现细节
网络 的架构与网络 相同,但进行了部分修改以支持多视角图像 的条件输入:我们使用 VAE 对其编码到潜空间,并将其与加噪的潜变量一起堆叠,作为扩散网络的输入。

上下文部件补全

目前的方法已经生成了 3D 对象的多视角图像 以及 2D 分割 mask 。接下来需要将这些结果转换为完整的 3D 部件重建。

在给定mask 的情况下,理论上可以简单地将被mask遮蔽的图像 提交到重建模块 (RM) 中,以获得部件的 3D 重建,即 。然而,在多视角图像中,有些部件可能会被其他部件严重遮挡,甚至完全不可见。虽然可以训练 RM 直接处理这些遮挡问题,但实际上效果不佳,因为部件补全本质上是一个随机问题,而 RM 是确定性的。

为了解决这一问题,研究者们再次重新利用多视角生成器 ,让其执行部件补全任务。该模型能够从文本或单张图像生成 3D 对象,因此经过适当微调后,它应该能够补全部件中缺失的部分。

微调 来采样视图 ,将遮罩图像 映射到部件的补全多视角图像 。然而,考虑到某些部件可能几乎不可见,遮罩图像 提供的信息非常有限。此外,生成的部件需要与其他部件以及整个对象很好地契合。因此,我们还向模型提供未遮罩图像 作为上下文。因此,条件分布 依赖于遮罩图像 、未遮罩图像 和mask 。上下文 的重要性随着遮挡程度的增加而提高。

实现细节
网络架构扩展了条件输入,灵感来自 [71] 中的图像修复设置。分别对mask图像 和上下文图像 应用预训练的 VAE,得到 通道的特征图,并将其与 8 维噪声图像和未编码的部件掩码 堆叠,形成具有 25 通道的扩散模型输入。示例结果如下图 5 所示。

部件重建

给定多视角部件图像 ,最后一步是将部件重建为 3D 模型。由于部件视图已经完整且一致,我们可以直接使用重建模块 (RM) 来预测部件的重建结果 。模型在从对象转换到其部件时无需特殊微调,因此任何高质量的重建模型都可以直接集成到pipeline中。

训练数据

为了训练本文的模型,需要一个包含多个部件的 3D 模型数据集。从商业来源许可了一组由 3D 艺术家生成的 14 万个 3D 资产构建了该数据集。这些资产以 GLTF 场景格式存储,通常由多个水密网格 组成,这些网格通常对应于语义部件,因为这些资产是由人类设计的,目的是创建可编辑的资源。数据集中的示例对象如下图 3 所示。

根据三种需要微调的模型,对数据进行了不同的预处理:

多视角生成器数据
为了训练多视角生成器模型 ,首先需要渲染目标多视角图像 ,包含对象的 4 个视图。按照 Instant3D 的方法,从正交方位角和 20° 仰角渲染阴影颜色 ,并将其排列为 的网格形式。

文本条件的情况下,训练数据由多视角图像和文本描述对 组成。参照 AssetGen 的方法,从 10k 高质量资产中生成文本描述,使用类似 CAP3D 的pipeline 和 LLAMA3 模型。

图像条件的情况下,使用全部 14 万个模型,条件 以从随机方向渲染的单视图形式提供(不限于 中的 4 个视图之一)。

部件分割与补全数据 为了训练部件分割和补全网络,需要额外渲染多视角部件图像及其深度图。由于不同的创作者对部件分解有不同的理解,我们对数据集进行了筛选,以避免包含过于细粒度且缺乏语义意义的部件。

首先剔除体积小于对象总体积 5% 的部件,然后移除包含超过 10 个部件或仅由单一整体部件组成的资产。这使得最终数据集包含 4.5 万个对象,总计 21 万个部件。

对于给定资产 ,渲染了一组多视角图像 (如前面图 3 所示)以及对应的深度图 ,渲染视点与上述一致。

分割扩散网络在由多视角图像和分割图对 组成的数据集上进行训练,其中分割图 是多视角二值部件masks 的堆叠。每个掩码标识在 中部件可见的像素位置:,其中 ,方括号表示 Iverson 括号。

部件补全网络在由三元组 组成的数据集上训练。上述所有组件均按照描述的方式生成。

实验

评估协议
首先分别评估pipeline中的两个主要组件:部件分割和部件补全与重建。然后,评估分解后的重建结果与原始对象的匹配程度。所有实验均使用数据集中的 100 个保留对象。

部件分割

评估协议
为分割任务设置了以下两种场景:

  1. 自动部件分割:输入为多视角图像 ,要求方法输出对象的所有部件 。

  2. 种子分割:假设用户提供了一个点作为特定mask的附加输入。在此设置中,分割算法被视为一个黑箱 ,将多视角图像 映射为一个包含 个部件分割的排序列表(这些分割通常可以部分重叠)。

排序列表通过对候选区域评分并移除冗余部分生成。随后,将这些分割与真实分割 进行匹配,并报告平均精度均值(mAP)。

由于问题本身的不确定性,该精度在实际应用中可能较低:算法预测的许多部件可能无法完全匹配特定艺术家的选择。

Baselines
采用原始的和微调后的 SAM2 作为多视角分割的基线方法,并使用以下两种方式对 SAM2 进行微调:

  1. mask解码器微调:在本文的数据集上使用真实mask和随机选择的种子点微调 SAM2 的mask解码器,针对不同视角进行训练。

  2. 多视角拼接微调:将四个正交视角拼接为多视角图像 ,并微调 SAM2 以预测多视角mask (此情况下,种子点随机落在某一视角中)。

对于每个输入图像和种子点,SAM2 生成三个区域:

  • 自动分割:在对象上分布一组查询点作为种子点,获得每个种子点的三个不同区域。

  • 种子分割:直接返回给定种子点的分割结果。

此外,与最新工作 Part123 进行了比较。

结果
如下表 1 所示,本文的方法在 mAP 指标上的结果显著高于其他方法,包括微调后的 SAM2。这主要归因于分割任务的模糊性,基于生成器的方法能够更好地捕捉这种模糊性。定性结果如下图 4 所示。

部件补全与重建

使用测试数据,构成元组 ,其中:

  • 是 3D 对象的部件,

  • 是完整的多视角图像,

  • 是部件掩码,

  • 是部件的多视角图像。

对于每个模型,随机选择一个部件索引 ,以下表示中省略 以简化符号。

评估协议
补全算法和其基线被视为一个黑箱 ,该黑箱预测补全后的多视角图像 。将 与真实渲染结果 进行比较,使用以下指标:

  • 峰值信噪比(PSNR):针对前景像素。

  • Learned Perceptual Image Patch Similarity(LPIPS) :评估感知相似性。

  • CLIP 相似性:由于补全任务具有高度模糊性,语义相似性的评估能够提供更多洞见。
    此外,通过比较预测补全的重建部件 与真实部件 来评估重建质量,使用相同的指标,但在四个随机的新视角渲染后取平均值。

结果
将部件补全算法 与多个基线方法和上限性能(oracle)进行比较:

  • 无补全:

  • 无上下文:

  • 独立视角补全:

如下表 2 所示,本文的方法在性能上大幅超越基线方法。联合多视角推理和上下文部件补全对取得良好性能至关重要。定性结果见前面图 5。

部件重组

评估协议
从 3D 对象 的多视角图像 出发,运行分割算法以获得分割结果 ,重建每个 3D 部件 ,然后通过合并 3D 部件 重组 3D 对象 。 将 与未分割的重建结果 进行比较,使用与部件相同的评估协议。

结果
下表 3 显示,本文的方法在性能上与直接使用 RM 重建对象 () 相当,同时提供了分结构的重建结果,这在诸如编辑等下游应用中具有显著优势。

应用

基于部件的文本到 3D 生成
PartGen 应用于基于部件的文本到 3D 生成。训练的文本到多视角生成器类似于 [76],接受文本提示作为输入,输出四视图网格。

  • 示例中使用了 DreamFusion 的提示。

  • 下图 6 表明,PartGen 即使在高度遮挡(如橡皮糖熊)等具有挑战性的情况下,也能有效生成具有清晰和完整部件的 3D 对象。

基于部件的图像到 3D 生成
进一步扩展 PartGen 到基于部件的图像到 3D 生成,在文本到多视角生成器的基础上,通过类似于 [95] 的策略微调生成器以接受图像作为输入。 上图 6 的结果表明,PartGen 在这一任务中同样表现出色。

真实世界 3D 对象分解
PartGen 还可以分解真实世界的 3D 对象。使用 Google Scanned Objects (GSO) 的对象进行实验。

  • 对于每个 GSO 3D 对象,渲染不同视角以获得图像网格,并按上述方式应用 PartGen。

  • 上图 6 的最后一行展示了 PartGen 在分解真实世界 3D 对象方面的效果。

3D 部件编辑
展示了分解后的 3D 部件可以通过文本输入进一步修改。

  • 如下图 7 所示,方法的变体使得能够基于文本提示有效编辑部件的形状和纹理。

  • 3D 编辑模型的详细信息见补充材料。

结论

PartGen,一种从文本、图像或非结构化 3D 对象生成或重建组成性 3D 对象的新方法。PartGen 可以重建即使是仅部分可见或完全不可见的 3D 部件,利用特制的多视角扩散先验进行引导。还展示了 PartGen 的几个应用,包括基于文本的部件编辑。这是朝着生成更适用于专业工作流的 3D 资产迈出的重要一步。

参考文献

[1] PartGen: Part-level 3D Generation and Reconstruction with Multi-View Diffusion Models


网站公告

今日签到

点亮在社区的每一天
去签到