WonderWorld: Interactive 3D Scene Generation from a Single Image 论文解读-EW帮帮网

持续视图生成：给定一个场景的单个输入图像，合成一组对应于所述场景任意长度的，由用户控制3D路径（轨迹）的逼真输出视图。如Infinite Images（最早的通过图片拼接的方法），Infinite Nature（通过图像生成，貌似是用的GAN）。后续考虑引入LLM和Diffusion来优化图像生成质量和实现用户交互。如SceneScape（通过简单的Prompt优化），WonderJourney（通过LLM来生成不同内容和生成点云表示）。

2、单视图3D场景生成

在单视图3D场景生成中，大量的工作局限于室内环境，或者城市街区。如Text2NeRF，LucidDreamer，CAT3D生成多视角图像，RealmDreamer，DreamScene通过蒸馏多视角图像和深度图来生成3D场景。

对于做场景生成的工作，使用离线方式来生成固定的场景，即不能用于用户交互，生成速度也慢，比如Genvs，Zeronvs等（主要是用利用3D特征和隐式辐射场表示，实现稀疏视角下的场景生成）。

3、视频生成

近期工作考虑引入场景生成器或者引入相机参数的控制，允许用户在场景中“移动”，但不能保证3D一致性，如Stable Video Diffusion。

4、快速的3D场景表示

主要依赖于3DGS和NeRF的场景表示，NeRF的包括InstantNGP，Plenoxels，3DGS相关包括3DGS，InstantSplat等等，该论文考虑使用surfel（曲面元素）并通过基于几何的初始化来促进场景表示优化。

三、WonderWorld

WonderWorld分为两个部分：生成3D场景部分，系统从输入图像生成一个初始3D场景FLAGS表示。用户交互控制部分，用户可以通过移动相机视角来控制新场景的生成位置，通过文字提示控制新场景的内容，新生成场景作为现有场景的延伸，也可以作为独立的新场景。

1、FLAGS表示

FLAGS（Fast LAyered Gaussian Surfels，快速分层高斯曲面），是一种3D场景表示方式，是3DGS的变体之一，每个高斯核的z轴被压缩到很小的数值，并且去除视角相关的颜色信息，而这种方式的渲染仍然使用3DGS相同的可微分渲染（包括3D到2D的投射，alpha渲染）

每一个场景 $\varepsilon$ 是用前景、背景、天空三个辐射场合并而来 $\varepsilon =\left \{ L_{fg},L_{bg},L_{sky} \right \}$ ，其中每一层都包含一系列参数。如 $L_{fg}=\left \{ p_i,q_i,s_i,o_i,c_i \right \}^{N_{fg}}_{i=1}$ ，其中三维空间位置 $p_i$ ，旋转四元数 $q_i$ ，x轴和y轴的放缩系数 $s_i=[s_{i,x},s_{i,y}]$ ，不透明度 $o_i$ ，视角独立的颜色信息 $c_i$ 。

另外对于协方差矩阵计算，也要在z轴上进行压缩： $\Sigma=Qdiag(s_x^2,s_y^2,\epsilon ^2)Q^T$ ，其中 $\epsilon$ 表示远小于另外两个放缩系数的平方最小值的一个小数，防止最终无法反向传递权重。

2、引导深度扩散模块

生成连续3D场景中，由于估计深度与现有几何之间存在不一致性而导致几何失真，所以引入了引导深度扩散的方式。该方法依赖于上一个场景已知的的深度和掩码来推断新的场景的深度。

目的是：由于生成新场景一定与原场景（或者说原单个输入图像）之间一定存在重叠部分，我们依靠上一个场景生成的深度图在新场景投影下重叠的部分的深度图，作为新场景深度图生成的引导图，来保证新场景与原场景之间重叠部分的深度方向的一致性。所以这也进一步解释了为什么FLAGS表示中拍扁z轴，也就是其他场景的深度，都依赖于深度扩散得到的深度，而不是RGB图像渲染出的深度。

具体来说，首先输入RGB图像，并依赖外推场景的深度图作为引导，来估计带外场景的深度图。在生成3D场景部分和用户交互控制部分两个部分用到了不同的深度图作为引导，一个是地面深度图，相当于除去地面以外部分作为外场景，一个是第一阶段的视角深度图，相当于扩展出的图像作为外场景。

对于扩散模型仍然使用去噪得U-Net模型，将原图 $I_{scene}$ 作为输入，深度图 $d_t$ 作为补充，时间步t下解码出预期噪声，但在该方法中引入了一个正则项 $s_tg_t$ 来保证平滑的几何一致性。其中 $s_t$ 是正则化权重， $g_t$ 是每一轮预测几何特征与引导几何特征的2范数的梯度值，或者说是t-1步的预测深度图 $D_{t-1}$ 与原深度图掩码 $M_{guide}$ （“引导图”）与原深度图 $D_{guide}$ 与原深度图掩码 $M_{guide}$ 的2范数对t步预测深度图 $d_t$ 的梯度。（t-1步的预测深度图是先由已知深度图编码t步，得到含有图像信息的噪声图，之后解码1步，或者若干步得到的噪声，经过与噪声图相减得到的t-1步预测深度图）

3、单视角层次生成

通过单视角图像 $I_{scene}$ 来生成背景（F）、前景（B）、天空（S）三个视角下的FLAGS三维表示。这个过程可以用数学语言描述如下，其中 $\mathcal{J,U}$ 分别代表，用户提示（如garden）和场景描述（如 You are an intelligent scene generator. Imagine you are wandering through a scene or a sequence of scenes ...）

$\mathcal{T}=\left \{ \mathcal{F,B,S} \right \}=g_{LLM}(\mathcal{J,U})$

接下来对于我们要生成的背景，前景，天空的RGB图像分别定义为 $I_{fg},I_{bg},I_{sky}$ 。

前景RGB图生成

首先，我们能够通过预训练的分割网络得到每一个对象的掩码 $O_k$ ，根据给定的预测深度图 $D$ ，可以计算得到一个显式深度边缘掩码 $E$ ，深度边缘掩码通过计算预测深度图各像素的梯度，如果大于阈值则使得该像素的掩码为1。

$E_{h,w}=1 \quad if||\nabla D_{h,w} ||_2 >T$

之后，我们计算前景掩码，通过图像中各对象与各对象显式深度边缘掩码的并集得到。

$M_fg=\bigcup_k O_k:||O_k \bigodot E||>0$

前景RGB图像通过前景掩码与原场景RGB图像点积得到。

$I_{fg}=I_{scene} \bigodot M_{fg}$

背景RGB图生成

首先，通过预训练分割网络得到天空的掩码 $M_{vis}$ 。

之后，计算背景掩码，通过1-天空的掩码得到。 $M_{bg}=1-M_{vis}$ 。

最后，计算背景RGB图像，通过背景掩码 $M_{bg}$ 和生成被前景遮挡的背景区域点积得到。

$I_{bg}=M_{bg} \bigodot I_{inpaint}(I_{scene},M_{fg},\left \{ B,S \right \})$

其中， $I_{inpaint}$ 是一个依靠文本引导的扩散模型，用于生成被前景层遮挡的背景和天空区域。

天空RGB图生成

计算天空RGB图生成，直接生成被前景遮挡的天空区域得到。

$I_{sky}=I_{inpaint}(I_{scene},1-M_{vis},\left \{ "sky",S \right \})$

4、基于几何的初始化

基于几何的初始化围绕两个关键设计步骤，像素对齐生成和surfel表示。

初始化的目的达到了最小化渲染时的高频伪影和过度重叠（或者说无缝覆盖），另外加快了FLAGS表示的优化过程，防止从头开始优化，大大加快生成速度。

像素对齐生成

第一个是像素对齐生成，保证像素级几何对齐。

首先给定前景层RGB图像 $I_{fg}$ ，我们生成前景层场景 $L_{fg}$ 。

对于每一个surfel应该对应一个有效像素，所以数量应该一致， $N_{fg}=||M_{fg}||_F$ 。

surfel颜色初始化为对应像素的RGB值。

surfel的位置通过像素的坐标计算得到 $p=R^{-1}(d \cdot K^{-1}[u,v,1]^T)-T$ 。

surfel表示

surfel表示部分主要针对于方向和尺度来进行初始化

对于方向由，估计像素法线 $n_c$ 来初始化旋转矩阵 $Q=[Q_x,Q_y,Q_z]$ ，计算如下：

其中 $u=[0,1,0]^T,n=R^{-1}n_{cam}$ , $n_{cam}$ 是相机视角下的估计法线， $n$ 世界视角下的估计像素法线

对于尺度，考虑根据奈奎斯特定理中最大信号频率是 $\frac{1}{2T_N}$ ，那么将surfel的高斯核带宽的倒数设为信号频率 $\frac{1}{2ks_x}$ ，尺度初始化为 $s_x=d/(kf_xcos \theta_x)$ ， $s_y=d/(kf_ycos \theta_y)$ ，其中d是像素深度，f是相机焦距， $\theta$ 是surfel法线 $n$ 与图像平面法线 $[0,0,-1]^T$ 夹角，超参数 $k=\sqrt{2}$ 。（相机坐标系下，图像平面法向量指向相机负z轴方向）