StyleRF: Zero-shot 3D Style Transfer of Neural Radiance Fields-EW帮帮网

StyleRF: Zero-shot 3D Style Transfer of Neural Radiance Fields

摘要

3D风格迁移的目标是在多视图一致性的情况下，渲染出具有目标风格的3D场景的新视图。然而，现有的大多数工作在精确几何重建、高质量风格化以及对任意新风格的泛化能力之间面临着三难困境。我们提出了StyleRF（Style Radiance Fields），一种创新的3D风格迁移技术，通过在辐射场的特征空间内进行风格转换来解决这一三难困境。StyleRF采用一个显式的高维特征网格来表示3D场景，通过体积渲染可以可靠地恢复高保真几何结构。此外，它根据参考风格转换网格特征，直接实现高质量的零样本风格迁移。StyleRF包含两个创新设计。第一个是采样不变的内容转换（Sampling-Invariant Content Transformation, SICT），它使得转换对采样3D点的整体统计量不变，从而确保多视图一致性。第二个是2D特征图的延迟风格转换（Deferred Style Transformation, DST），它等同于3D点的转换，但大大减少了内存占用，而不会降低多视图一致性。广泛的实验表明，StyleRF在精确几何重建的基础上实现了优越的3D风格化质量，并且能够以零样本的方式泛化到各种新风格。

1. 引言

1.1 问题背景

给定一组3D场景的多视图图像和一张目标风格的图像，3D风格迁移的目标是生成具有目标风格的3D场景的新视图，并且这些新视图在风格上具有一致性。尽管神经风格迁移已经被广泛研究，现有的方法允许以零样本的方式迁移任意风格，但大多数工作集中在2D图像之间的风格迁移，无法扩展到具有任意新视图的3D场景。先前的研究表明，简单地将3D新视图合成和2D风格迁移结合起来，往往会导致多视图不一致或风格化质量差，因此3D风格迁移应该联合优化新视图合成和风格迁移。然而，当前的3D风格迁移面临着精确几何重建、高质量风格化以及对新风格的泛化能力之间的三难困境。不同的方法已经被研究来解决这一三难困境。例如，多风格迁移需要一组预定义的风格，但无法泛化到未见过的新风格。基于点云的风格迁移需要一个预训练的深度估计模块，这容易导致几何重建不准确。零样本风格迁移与神经辐射场（Neural Radiance Fields, NeRF）无法捕捉详细的风格模式和纹理，因为它将风格信息隐式地注入到神经网络参数中。基于优化的风格迁移则存在优化速度慢且无法适应新风格的问题。在本工作中，我们引入StyleRF来解决这一三难困境，通过在辐射场的特征空间内进行风格转换。辐射场是一种连续的体积，能够比点云或网格更精确地恢复几何结构。此外，在特征空间内转换辐射场比隐式方法更具表现力，能够实现更好的风格化质量，并且可以泛化到任意风格。我们构建了一个3D场景表示，使用一个高维特征网格来实现特征转换。此外，通过转换整个特征网格或转换采样的3D点，可以在特征空间内实现多视图一致的风格转换。我们采用了后者，因为前者在训练过程中需要对整个特征网格进行风格化，计算成本更高，而后者可以通过减少训练块的大小和采样点的数量来降低计算成本。然而，将现成的风格转换应用于一批采样的3D点会破坏多视图一致性，因为它们依赖于这批点的整体统计量。此外，由于NeRF需要沿每条射线查询数百个采样点来渲染一个像素，因此对每个采样点进行转换是内存密集型的。我们将风格转换分解为采样不变的内容转换（SICT）和延迟风格转换（DST），前者消除了对采样点批的整体统计量的依赖，后者将风格转换推迟到2D特征图上以提高效率。在SICT中，我们引入了体积自适应归一化，它学习整个体积的均值和方差，而不是从采样批中计算它们。此外，我们应用通道自注意力来独立转换每个3D点，使其依赖于该点的特征，而不是采样批的整体统计量。在DST中，我们将风格转换推迟到体积渲染后的2D特征图上，基于观察到每个点的风格转换是相同的。通过将风格转换表示为纯矩阵乘法和自适应偏置加法，转换2D特征图在数学上等同于转换3D点特征，但大大节省了计算和内存。得益于3D场景的内存高效表示和延迟风格转换，我们的网络可以直接使用 $256 im es 256$ 的块进行训练，而无需像之前的基于NeRF的3D风格迁移方法那样进行子采样。本工作的贡献可以总结为三个方面。首先，我们引入了StyleRF，一个创新的零样本3D风格迁移框架，可以通过在辐射场的特征空间内进行风格转换来生成高质量的3D风格化结果。其次，我们设计了采样不变的内容转换和延迟风格转换，前者通过消除对采样点批的整体统计量的依赖来实现多视图一致的转换，而后者通过将风格转换推迟到2D特征图上大大提高了风格化效率。最后，广泛的实验表明，StyleRF在精确几何重建、高质量风格化以及对新风格的泛化能力方面都取得了优越的3D风格迁移效果。

2. 相关工作

2.1 神经场景表示

近年来，3D场景表示已经得到了广泛的研究，不同的表示方法包括体素（volumes）、点云（point clouds）、网格（meshes）、深度图（depth maps）和隐函数（implicit functions）。这些方法采用可微渲染，使得模型可以通过2D多视图图像进行优化。其中，神经辐射场（Neural Radiance Field, NeRF）能够以高保真度和精确几何结构渲染复杂的3D场景。它通过一个隐式坐标函数来表示场景，将每个3D坐标映射到一个密度值和一个颜色值，并采用体积渲染来生成新视图的图像。然而，这个隐式坐标函数由一个大型多层感知机（MLP）表示，通常难以优化且推理速度慢。为了加速重建和渲染，一些研究采用了混合表示，使用显式数据结构，如离散体素网格、分解张量、哈希表等来存储特征或球谐函数，从而实现快速收敛和推理。尽管大多数现有工作提取的特征作为场景的中间层表示，但这些特征通常是神经网络的中间输出，语义信息较少，不适合风格迁移任务。我们引入分解张量来存储由预训练CNN提取的高级特征，这使得可以在特征空间内进行转换，并且能够高效地进行训练和推理。与一些现有方法不同，StyleRF能够高效地渲染全分辨率特征图（与输出RGB图像的分辨率相同），并且主要使用高级特征进行转换。

2.2 神经风格迁移

神经风格迁移的目标是渲染出一张新图像，它包含了一张图像的内容结构和另一张图像的风格模式。开创性的工作表明，可以从预训练CNN的中间层提取多级特征统计量作为艺术图像风格的表示，但它将风格迁移视为一个缓慢且迭代的优化任务。后续的研究利用前馈网络来近似优化过程，以加速渲染。其中一些方法可以实现零样本风格迁移，通过应用转换到由预训练CNN提取的高级特征，特征转换可以通过匹配二阶统计量、线性变换、自注意力变换等方式实现。视频风格迁移将风格迁移扩展到视频中，以在相邻视频帧中一致地注入目标风格。一些研究利用光流作为时间约束来估计视频内容的运动，它们可以产生平滑的视频，但对底层3D几何结构了解甚少，无法在任意视图中渲染一致的帧。Huang等人首次尝试对复杂3D场景进行风格化，他们通过将图像特征反投影到3D空间中形成点云，然后对3D点的特征进行风格转换。他们的方法可以实现零样本风格迁移，但需要一个容易出错的预训练深度估计器来建模场景几何结构。另一些研究也构建了点云来进行风格化，但主要关注单目图像。相反，一些研究使用NeRF作为3D表示，能够更忠实地重建场景几何结构。其中一种方法是光逼真的风格迁移方法，只能迁移风格图像的色调。还有一些方法通过优化实现3D风格迁移，能够产生高质量的视觉风格化效果，但需要对每种参考风格进行耗时的优化过程。一些方法使用潜在代码来表示一组预定义的风格，但无法泛化到未见过的风格。另一种方法可以实现任意风格迁移，但只能迁移风格图像的色调，无法捕捉详细的风格模式。StyleRF可以以零样本的方式迁移任意风格，并且能够捕捉风格细节，如笔触和纹理。

3. 方法

3.1 特征网格3D表示

为了用深度特征表示3D场景，我们使用一个连续的体积极度和辐射场。与原始的NeRF不同，对于每个查询的3D位置 $x oin R^3$ ，我们得到一个体积极度 $\sigma(x)$ 和一个多通道特征 $F(x) oin R^C$ ，而不是一个RGB颜色，其中 $C$ 是特征通道的数量。然后我们可以通过积分沿射线采样的点来得到任何穿过体积的射线 $r$ 的特征，通过近似体积渲染实现：
$\sum_{i=1}^{N} w_i F_i,$
其中
$w_i = \exp\left(-\sum_{j=1}^{i-1} \sigma_j \delta_j\right)(1 - \exp(-\sigma_i \delta_i)),$
其中 $\sigma_i, F_i$ 分别表示采样点 $i$ 的体积极度和特征， $w_i$ 表示 $F_i$ 在射线 $r$ 中的权重， $\delta_i$ 是相邻采样点之间的距离。我们禁用了视图依赖效应，以实现更好的多视图一致性。然后我们可以通过2D CNN解码器将生成的特征图映射到RGB空间。然而，与一些现有方法不同，我们渲染全分辨率特征图，其分辨率与最终的RGB图像相同，而不是下采样的特征图。渲染全分辨率特征图有两个独特的优势：1）它丢弃了上采样操作，这些操作通常会导致多视图不一致；2）它消除了渲染低分辨率特征图时的混叠现象，这种现象会导致风格化RGB视频中出现严重的闪烁效果。直接使用3D体素网格存储特征是内存密集型的。因此，我们采用了向量-矩阵张量分解，它放宽了3D张量的低秩约束，并将张量分解为紧凑的向量和矩阵因子，从而将空间复杂度从 $O(n^3)$ 降低到 $O(n^2)$ ，大大减少了内存占用。我们分别使用密度网格存储体积极度和特征网格存储多通道特征。

3.2 特征转换用于风格迁移

一旦我们有了场景的特征网格表示，我们就可以着手对3D场景进行风格化。给定一个参考风格图像，我们的目标是以多视图一致性的方式渲染出具有目标风格的3D场景的新视图。为了实现这一目标，我们对网格的特征进行转换。一种可行的解决方案是直接对特征网格应用风格迁移。这种解决方案在评估时效率很高，因为它只需要进行一次风格迁移过程就可以渲染出任何风格化的视图。然而，在训练过程中，这种转换需要对整个特征网格进行风格化，这是不切实际的。另一种解决方案是对采样的3D点的特征应用现成的零样本风格迁移方法。虽然这种解决方案可以通过减少训练块的大小和采样点的数量来降低计算成本，但它存在两个问题：1）现成的零样本风格转换依赖于采样点批的整体统计量，这违反了体积渲染中的多视图一致性，因为特定3D点的特征转换会随着不同采样点而变化；2）体积渲染需要沿单条射线采样数百个点，这使得对点批进行转换变得内存密集。受风格转换依赖于内容信息和风格信息的启发，我们将风格转换分解为采样不变的内容转换（SICT）和延迟风格转换（DST）。在分解后，SICT将仅依赖于内容信息，而DST将仅依赖于风格信息，更多细节将在以下小节中详细阐述。

3.2.1 采样不变的内容转换

给定一批采样点，我们可以从特征网格中得到它们对应的特征 $F_i oin R^C$ ， $i o in [1, 2, ..., N]$ ，其中 $N$ 是沿射线采样的点数， $C$ 是特征通道的数量。SICT的目标是对提取的特征 $F_i$ 进行转换，以便它们能够更好地被风格化。我们将SICT表示为对经过实例归一化（Instance Normalization, IN）后的特征进行通道自注意力操作。具体来说，我们将查询（query）、键（key）和值（value）表示为：
$q(\text{Norm}(F_i)),$
$k(\text{Norm}(F_i)),$
$v(\text{Norm}(F_i)),$
其中 $q$ 、 $k$ 、 $v$ 是 $1 im es 1$ 卷积层，用于将通道数从 $C$ 减少到 $C^{'}$ 以提高计算效率， $\text{Norm}$ 表示IN。然而，传统的IN计算采样点批的每个维度的均值和标准差，这会随着不同的采样点而变化，从而导致多视图不一致。因此，我们设计了体积自适应IN，在训练期间，它会保留计算得到的均值和标准差的运行估计值，并在评估期间使用它们进行归一化（而不是从采样点批中计算）。通过体积自适应IN，我们可以确保内容转换与采样点批的整体统计量无关。通道自注意力可以这样实现：
$\bar{F}_i = V \otimes \text{Softmax}(\text{cov}(Q, K)),$
其中 $\otimes$ 表示矩阵乘法， $\text{cov}(Q, K) oin R^{N imesC' imesC'}$ 表示通道维度中的协方差矩阵。

3.2.2 延迟风格转换

在对每个3D点的特征应用SICT之后，我们对体积渲染后的2D特征图 $\bar{F}_c$ 而不是3D点特征 $\bar{F}_i$ 应用DST。为了确保多视图一致性，我们将转换表示为矩阵乘法和自适应偏置加法。具体来说，我们首先使用预训练的VGG提取参考风格 $S$ 的特征图 $F_s$ ，然后根据 $F_s$ 的特征协方差 $\text{cov}(F_s)$ 生成风格转换矩阵 $T oin R^{C' imesC'}$ 。接下来，我们对特征图 $\bar{F}_c$ 应用矩阵乘法 $T$ ，并使用一个没有偏置的 $1 im es 1$ 卷积层 $\text{conv}$ 来恢复通道数从 $C^{'}$ 到 $C$ 。尽管这些操作可以部分地注入风格信息，但如果没有包含风格信息的偏置加法，它们的表达能力是不够的。因此，我们根据[21]，将特征图乘以标准差值 $\sigma(F_s)$ 并加上均值 $\mu(F_s)$ 。为了确保在对3D点特征或2D特征图应用转换时等效，我们自适应地用沿每条射线采样的点的权重和 $w_r$ 来调制均值 $\mu(F_s)$ 。DST可以用数学公式表示为：
$F_{cs} = \text{conv}(T \otimes \bar{F}_c) \times \sigma(F_s) + w_r \times \mu(F_s),$
其中
$\bar{F}_c = \sum_{i=1}^{N} w_i \bar{F}_i,$
$w_r = \sum_{i=1}^{N} w_i, \quad r oin R,$
其中 $w_i$ 表示采样点 $i$ 的权重（如公式（2））， $\bar{F}_i$ 表示经过SICT后的样本 $i$ 的特征， $R$ 是每个训练批次中的射线集合。注意 $\text{conv}$ 是一个没有偏置的 $1 im es 1$ 卷积层，所以它基本上是一个矩阵乘法操作。 $\sigma(S)$ 和 $\mu(S)$ 是标量。连同自适应偏置调制 $w_r$ ，公式（7）可以重新表述为：
$F_{cs} = \sum_{i=1}^{N} w_i(\text{conv}(T \otimes \bar{F}_i) \times \sigma(F_s) + \mu(F_s)),$
其中部分（i）可以被视为在体积渲染之前独立地对每个3D点特征应用风格转换。这证明了在2D特征图上应用DST等同于对3D点的特征应用转换，保持了多视图一致性。公式的完整推导在附录中提供。最后，我们采用一个2D CNN解码器将风格化的特征图 $F_{cs}$ 映射到RGB空间，以生成最终的风格化新视图图像。

3.3 两阶段模型训练

我们模型的训练分为特征网格训练阶段和风格化训练阶段，前者的目标是新视图合成，后者的目标是风格迁移。特征网格训练阶段（第一阶段）。我们首先学习用于新视图合成任务的特征网格3D表示，为进行风格迁移的特征转换做准备。我们同时训练特征网格和2D CNN解码器，使用RGB图像及其从预训练VGG的ReLU3_1层双线性上采样的特征图作为监督。通过将VGG特征与特征网格对齐，重建的特征获得了语义信息。我们使用仅在RGB图像上预训练的密度网格，因为监督特征图并不严格具有多视图一致性。训练目标是预测和真实特征图以及RGB图像之间的均方误差（MSE）。按照[19,37]，我们使用感知损失作为额外的监督，以提高重建图像的质量。整体损失函数为：
$L_{\text{grid}} = \sum_{r oin R}(\|\hat{F}(r) - F(r)\|_2^2 + \|\hat{I}_R - I_R\|_2^2) + \sum_{l oin l_p}(\|F_l(\hat{I}_R) - F_l(I_R)\|_2^2),$
其中 $R$ 是每个训练批次中的射线集合， $\hat{F}(r)$ 、 $F (r)$ 分别是射线 $r$ 的预测和真实特征， $\hat{I}_R$ 、 $I_R$ 分别是预测和真实的RGB图像， $l_p$ 表示计算感知损失的VGG层集合， $F_l$ 表示预训练VGG网络的第 $l$ 层的特征图。风格化训练阶段（第二阶段）。我们的模型在第二阶段学习风格化新视图。我们冻结特征网格，训练风格迁移模块，并微调CNN解码器。得益于3D场景的内存高效表示和DST，与[8,11,48]不同，我们的模型可以直接在 $256 im es 256$ 的块上进行训练，使得子采样算法[8,11,22,48]变得不必要。我们使用与[21]相同的损失函数，其中内容损失 $L_c$ 是特征图的MSE，风格损失 $L_s$ 是通道特征均值和标准差的MSE：
$L_{\text{stylization}} = L_c + \lambda L_s,$
其中 $\lambda$ 平衡了内容保持和风格化效果。

4. 实验

4.1 定性实验

我们在两个公共数据集上评估StyleRF，包括包含具有复杂几何结构的真实场景的LLFF和包含360°物体视图的Synthetic NeRF。此外，我们使用它们发布的代码，将StyleRF与两种最先进的零样本3D风格迁移方法LSNV和Hyper进行基准测试。我们在LLFF数据集上进行了比较。图5显示了定性比较结果。我们可以看到，StyleRF在精确几何重建和风格化质量方面明显优于其他方法。具体来说，StyleRF能够以高分辨率生成具有风格图像的真实纹理和图案的风格化图像。这种优越的风格化主要归功于我们的转换设计，它允许在全分辨率特征图的特征空间内进行工作。如图中的高亮框所示，StyleRF能够成功地恢复复杂场景的复杂几何结构，这得益于其辐射场表示。此外，只有StyleRF能够忠实地转移第二个风格图像中的方形纹理。此外，StyleRF能够以零样本的方式稳健地泛化到新风格，并且能够很好地适应360°数据集，如图1所示。相比之下，LSNV无法捕捉到像霸王龙的骨骼和花朵的花瓣这样的细节，而Hyper则产生了非常模糊的风格化效果。

4.2 定量结果

3D风格迁移是一个非常新且尚未充分研究的任务，用于定量评估风格化质量的指标很少。因此，我们只能评估多视图一致性。在我们的实验中，我们根据光流使用softmax splatting将一个视图变形到另一个视图，然后计算掩膜RMSE分数和LPIPS分数，以衡量风格化的一致性。按照[8,11,19]，我们计算了短程和长程一致性分数，分别比较相邻视图和远离视图。我们将StyleRF与两种最先进的零样本3D风格迁移方法Hyper和LSNV、一种基于单帧的视频风格迁移方法CCPL、一种基于多帧的视频风格迁移方法ReReVST以及一种经典的图像风格迁移方法AdaIN进行了比较。从表1中可以看出，StyleRF显著优于图像风格迁移方法和视频风格迁移方法，这些方法对底层3D几何结构了解甚少。此外，StyleRF在一致性方面也优于基于点云的3D风格迁移。需要注意的是，Hyper在LPIPS和RMSE分数上略优于我们的方法，这主要是因为它产生了过度平滑的结果，风格化效果不足，如图5所示。

4.3 消融研究

我们设计了两种创新技术来提高风格化质量和保持多视图一致性。第一种是体积自适应实例归一化，它在推理过程中使用整个体积的学习到的均值和方差，消除了对采样点批的整体统计量的依赖。第二种是DST中的自适应偏置加法，它使用包含风格信息的偏置来提高风格化质量。我们评估这两种设计，以检查它们如何为我们的方法的整体风格化做出贡献。

体积自适应实例归一化：我们将体积自适应实例归一化（IN）与传统的IN以及没有IN的StyleRF进行了比较。如图6（c）所示，传统的IN会产生严重的块状伪影，因为每个批次的转换依赖于批次自身的整体统计量，因此每个批次（即图像中的块）会产生不一致的风格化，从而导致伪影。然而，如果我们放弃IN，如图6（d）所示，虽然可以保持多视图一致性，但风格化质量会大大降低，无法捕捉到参考风格图像的正确色调。这是因为IN去除了内容图像的原始风格信息，从而促进了参考风格的转移。
自适应偏置加法：如图6（b）所示，如果我们在DST中消除自适应偏置加法，风格化质量会大大降低，产生不自然的风格化效果，与我们完整流程的风格化效果（如图6（a））相比。这是因为偏置通常包含关键的风格信息，如整体色调。StyleRF采用自适应调制的偏置加法，通过每条射线的权重来提高风格化质量，同时保持多视图一致性。

4.4 应用

StyleRF可以很容易地沿着不同方向进行扩展，并应用于不同的场景。我们在以下小节中提供了两种可能的扩展。

多风格插值：由于StyleRF对3D场景的高级特征表示，它可以平滑地插值不同的风格。如图7所示，我们通过在四个角落使用四种不同的风格，线性插值特定视图的特征图。与以前的基于NeRF的3D风格迁移方法不同，StyleRF可以通过插值场景的特征来插值任意数量的未见新风格，从而产生更平滑、更和谐的插值效果。因此，StyleRF不仅可以以零样本的方式迁移任意风格，还可以通过多风格插值生成不存在的风格化效果。
组合3D风格迁移：由于其精确的几何重建能力，StyleRF可以无缝地与基于NeRF的对象分割集成，用于组合3D风格迁移。如图8所示，我们将3D一致的分割掩膜应用于特征图，并分别对掩膜内外的内容应用不同的风格进行风格化。我们可以看到，通过将分割掩膜应用于特征图而不是RGB图像，掩膜的边缘可以更柔和地融合。由于其零样本特性，StyleRF可以创建无限的风格组合，无需额外训练，从而产生无数的艺术创作和灵感。

5. 结论

在本文中，我们提出了StyleRF，一种新颖的零样本3D风格迁移方法，平衡了精确几何重建、高质量风格化以及对任意新风格的泛化能力之间的三难困境。通过用一个显式的高级特征网格表示3D场景，我们可以通过体积渲染忠实地重建高保真几何结构。然后我们在场景的特征空间内进行风格迁移，从而实现高质量的零样本风格化结果。我们创新性地设计了采样不变的内容转换以保持多视图一致性，并设计了延迟风格转换以提高效率。我们证明了StyleRF在3D风格化质量方面优于以前的零样本3D风格迁移方法，并且可以扩展到各种有趣的应用中，用于艺术3D创作。

该篇文章的笔记

1. 该篇文章的研究目的

研究目的总结

本文旨在解决3D风格迁移中的一个关键问题：如何在保持多视图一致性的同时，实现精确的几何重建和高质量的风格化，并且能够泛化到任意新风格。现有的方法在精确几何重建、高质量风格化以及对新风格的泛化能力之间存在三难困境，而本文提出的StyleRF框架通过在辐射场的特征空间内进行风格转换，成功地平衡了这三者之间的关系。

2. 该篇文章的研究方法

研究方法总结

本文提出了一种名为StyleRF（Style Radiance Fields）的3D风格迁移方法，通过在辐射场的特征空间内进行风格转换来解决现有方法的局限性。具体方法包括：

特征网格表示：使用一个显式的高维特征网格来表示3D场景，通过体积渲染恢复高保真几何结构。
采样不变的内容转换（SICT）：通过体积自适应归一化和通道自注意力机制，消除对采样点批的整体统计量的依赖，确保多视图一致性。
延迟风格转换（DST）：将风格转换推迟到2D特征图上，通过矩阵乘法和自适应偏置加法实现高效的风格化，同时减少内存占用。
两阶段训练：首先训练特征网格以实现新视图合成，然后冻结特征网格，训练风格迁移模块并微调解码器。

3. 该篇文章的研究内容

研究内容总结

本文的核心内容包括：

3D风格迁移的挑战：分析了现有方法在精确几何重建、高质量风格化和泛化能力之间的三难困境。
StyleRF框架的设计：详细介绍了特征网格表示、采样不变的内容转换和延迟风格转换的具体实现方式。
实验验证：通过定性和定量实验，展示了StyleRF在多视图一致性、风格化质量和泛化能力上的优越性。
应用拓展：探讨了StyleRF在多风格插值和组合3D风格迁移中的应用潜力。

4. 该篇文章的最大创新点

最大创新点总结

本文的最大创新点在于：

特征空间内的风格转换：通过在辐射场的特征空间内进行风格转换，解决了现有方法无法同时实现精确几何重建和高质量风格化的问题。
采样不变的内容转换（SICT）：通过体积自适应归一化和通道自注意力机制，确保了风格化过程的多视图一致性。
延迟风格转换（DST）：通过将风格转换推迟到2D特征图上，显著提高了风格化效率，同时减少了内存占用。
零样本风格迁移：能够以零样本的方式泛化到任意新风格，无需额外训练过程。

5. 该篇文章给我们的启发

启发总结

本文为3D风格迁移领域提供了以下重要启发：

特征空间的重要性：通过在特征空间内进行风格转换，可以更好地平衡几何重建和风格化质量。
多视图一致性的关键：通过消除对采样点批的整体统计量的依赖，可以有效解决多视图一致性问题。
效率与效果的平衡：通过延迟风格转换，可以在不牺牲效果的前提下显著提高计算效率。
泛化能力的提升：零样本风格迁移的设计思路为处理任意新风格提供了新的思路。
应用拓展的潜力：本文展示了StyleRF在多风格插值和组合风格迁移中的应用潜力，为未来的研究提供了新的方向。

图1. 零样本3D风格迁移

图1. 零样本3D风格迁移
给定一组3D场景的多视图内容图像，StyleRF可以将任意参考风格转移到3D场景中，以零样本的方式渲染出高质量的风格化新视图，并具有出色的多视图一致性。

图2. StyleRF的框架

图2. StyleRF的框架
对于沿射线 $r$ 采样的一批点，首先从特征网格中提取对应的特征 $F_i$ ， $i \in [1, 2, ..., N]$ ，然后通过采样不变的内容转换（SICT）独立地将每个特征 $F_i$ 转换为 $\bar{F}_i$ ，而不依赖于采样点批次的整体统计量。 $\bar{F}_i$ 通过体积渲染转换为特征图 $\bar{F}_c$ 。之后，延迟风格转换（DST）根据采样点沿射线 $r$ 的权重和 $w_r$ 以及风格信息 $T$ 、 $\mu(F_s)$ 和 $\sigma(F_s)$ 自适应地将 $\bar{F}_c$ 转换为特征图 $F_{cs}$ 。最后，通过CNN解码器生成风格化的新视图。

图3. 传统实例归一化（IN）与体积自适应IN的比较

图3. 传统实例归一化（IN）与体积自适应IN的比较
在评估过程中，体积自适应IN使用学习到的均值和标准差，丢弃了采样点批次整体统计量的依赖（图中左侧的红色箭头所示）。

图4. 延迟风格转换

图4. 延迟风格转换
我们将风格转换应用于体积渲染后的2D特征图 $\bar{F}_c$ ，根据风格特征图 $F_s$ 进行转换。为了确保多视图一致性，我们将风格特征图的均值 $\mu(F_s)$ 与沿每条射线采样的点的权重和 $w_r$ 自适应地调制。

图5. StyleRF与两种最先进的零样本3D风格迁移方法LSNV和Hyper的比较

图5. StyleRF与两种最先进的零样本3D风格迁移方法LSNV和Hyper的比较
对于每个样本场景和参考风格，StyleRF能够生成明显更好的3D风格迁移和深度估计结果。请查看放大后的细节。

图6. 消融研究

图6. 消融研究
(a) 表示我们完整流程的风格化结果。
(b) 表示在延迟风格转换（DST）中去除自适应偏置后的风格化结果，风格化质量明显下降，产生不自然的风格化效果。
© 表示用传统实例归一化（IN）替换体积自适应IN后的风格化结果，产生了严重的块状伪影。
(d) 表示没有使用任何IN的风格化结果，虽然保持了多视图一致性，但风格化质量大幅下降，无法捕捉到参考风格图像的正确色调。

图7. 多风格插值

图7. 多风格插值
StyleRF可以通过插值场景的特征来平滑地插值不同风格。图中展示了使用四种不同风格在四个角落进行线性插值的结果。与以往基于NeRF的3D风格迁移方法不同，StyleRF可以通过插值场景的特征来插值任意数量的未见新风格，从而产生更平滑、更和谐的插值效果。

图8. 组合3D风格迁移

图8. 组合3D风格迁移
得益于其精确的几何重建能力，StyleRF可以无缝地与基于NeRF的对象分割集成，用于组合3D风格迁移。图中展示了将3D一致的分割掩膜应用于特征图，并分别对掩膜内外的内容应用不同风格进行风格化的结果。通过将分割掩膜应用于特征图而不是RGB图像，掩膜的边缘可以更柔和地融合。

表1. 一致性结果

表1. 一致性结果
我们在一致性方面对StyleRF进行了评估，并与现有的几种方法进行了比较。结果显示，StyleRF在多视图一致性方面显著优于图像风格迁移方法和视频风格迁移方法，并且在一致性方面优于基于点云的3D风格迁移方法。需要注意的是，Hyper在LPIPS和RMSE分数上略优于我们的方法，这主要是因为它产生了过度平滑的结果，风格化效果不足。

方法	短程一致性	长程一致性
AdaIN [21]	$0.152$	$0.220$
CCPL [60]	$0.110$	$0.191$
ReReVST [57]	$0.098$	$0.186$
LSNV [19]	$0.093$	$0.181$
Hyper [8]	$0.084$	$0.131$
Ours	$0.072$	$0.149$

在论文《StyleRF: Zero-shot 3D Style Transfer of Neural Radiance Fields》中，数学公式是理解其核心方法的关键。以下是对论文中主要数学公式的详细讲解，以及对其构建想法来源的分析。

1. 特征网格表示（Feature Grid Representation）

公式：

$\sum_{i=1}^{N} w_i F_i$
$w_i = \exp\left(-\sum_{j=1}^{i-1} \sigma_j \delta_j\right)(1 - \exp(-\sigma_i \delta_i))$

讲解：

$F (r)$ ：表示沿射线 $r$ 积分后的特征图，用于描述3D场景在该射线方向上的特征。
$F_i$ ：表示第 $i$ 个采样点的特征。
$w_i$ ：表示第 $i$ 个采样点的权重，用于在体积渲染中对特征进行加权。
$\sigma_i$ ：表示第 $i$ 个采样点的体积极度（density），用于控制该点对最终特征的贡献。
$\delta_i$ ：表示相邻采样点之间的距离。

构建想法来源：

体积渲染（Volume Rendering）：这种方法借鉴了NeRF（Neural Radiance Fields）的思想，通过沿射线对采样点的特征进行积分，能够重建出高保真度的3D场景。这种表示方式能够自然地处理3D场景的连续性，并且支持多视图一致性。
特征空间操作：与传统的RGB渲染不同，这里使用了特征网格（feature grid）来表示场景，使得后续可以在特征空间内进行风格化操作，从而避免了直接在RGB空间操作带来的复杂性。

2. 采样不变的内容转换（Sampling-Invariant Content Transformation, SICT）

公式：

$q(\text{Norm}(F_i)), \quad K = k(\text{Norm}(F_i)), \quad V = v(\text{Norm}(F_i))$
$\bar{F}_i = V \otimes \text{Softmax}(\text{cov}(Q, K))$

讲解：

$Q, K, V$ ：分别表示查询（query）、键（key）和值（value），用于自注意力机制。
$\text{Norm}(F_i)$ ：表示对特征 $F_i$ 进行归一化处理，这里使用了体积自适应归一化（volume-adaptive normalization）。
$\text{cov}(Q, K)$ ：表示 $Q$ 和 $K$ 之间的协方差矩阵，用于计算自注意力的权重。
$\otimes$ ：表示矩阵乘法。
$\bar{F}_i$ ：表示经过内容转换后的特征。

构建想法来源：

自注意力机制：借鉴了Transformer架构中的自注意力机制，通过计算特征之间的关系，能够更好地捕捉局部和全局信息。
多视图一致性：为了避免传统方法中因依赖采样点批次的统计量而导致的多视图不一致问题，作者引入了体积自适应归一化，确保每个采样点的转换独立于批次的统计量。
特征空间操作：通过在特征空间内进行操作，可以更好地分离内容和风格信息，为后续的风格化操作提供便利。

3. 延迟风格转换（Deferred Style Transformation, DST）

公式：

$F_{cs} = \text{conv}(T \otimes \bar{F}_c) \times \sigma(F_s) + w_r \times \mu(F_s)$
$\bar{F}_c = \sum_{i=1}^{N} w_i \bar{F}_i, \quad w_r = \sum_{i=1}^{N} w_i$

讲解：

$F_{cs}$ ：表示经过风格化后的特征图。
$T$ ：表示风格转换矩阵，用于将内容特征转换为目标风格。
$\bar{F}_c$ ：表示经过体积渲染后的2D特征图。
$\sigma(F_s)$ 和 $\mu(F_s)$ ：分别表示风格图像的特征的标准差和均值，用于注入风格信息。
$w_r$ ：表示沿射线 $r$ 的权重和，用于自适应地调制风格信息。
$\text{conv}$ ：表示一个无偏置的 $\times 1$ 卷积操作，用于调整特征的通道数。

构建想法来源：

延迟处理：将风格转换推迟到2D特征图上，而不是直接在3D点上操作，这样可以显著减少内存占用和计算成本。
风格化操作：通过矩阵乘法和自适应偏置加法，将风格信息注入到特征图中。这种方法借鉴了经典风格迁移中的特征空间操作，能够有效地将风格信息传递到目标图像中。
多视图一致性：通过自适应调制权重 $w_r$ ，确保在不同视图下风格化结果的一致性。

4. 损失函数（Loss Function）

公式：

$L_{\text{grid}} = \sum_{r \in R} \left( \| \hat{F}(r) - F(r) \|_2^2 + \| \hat{I}_R - I_R \|_2^2 \right) + \sum_{l \in l_p} \| F_l(\hat{I}_R) - F_l(I_R) \|_2^2$
$L_{\text{stylization}} = L_c + \lambda L_s$

讲解：

$L_{\text{grid}}$ ：表示特征网格训练阶段的损失函数，用于优化特征网格以实现新视图合成。
- 第一部分： $\| \hat{F}(r) - F(r) \|_2^2$ ，表示预测特征与真实特征之间的均方误差。
- 第二部分： $\| \hat{I}_R - I_R \|_2^2$ ，表示预测RGB图像与真实RGB图像之间的均方误差。
- 第三部分：感知损失（Perceptual Loss），用于提高重建图像的质量。
$L_{\text{stylization}}$ ：表示风格化训练阶段的损失函数。
- $L_c$ ：内容损失，用于保持原始内容的结构。
- $L_s$ ：风格损失，用于注入目标风格。
- $\lambda$ ：平衡内容损失和风格损失的权重。

构建想法来源：

多视图一致性：通过优化特征网格，使得在不同视图下重建的图像具有一致性。
感知损失：借鉴了图像风格迁移中的感知损失，用于提高重建图像的视觉质量。
内容与风格的平衡：通过调整 $\lambda$ ，可以在内容保持和风格化效果之间进行权衡，确保风格化结果既保留了原始内容的结构，又能够很好地融入目标风格。

总结

论文中的数学公式构建了StyleRF的核心方法，其主要想法来源包括：

体积渲染与特征空间操作：借鉴NeRF的思想，通过体积渲染和特征网格表示3D场景，为风格化操作提供了基础。
自注意力机制与多视图一致性：通过自注意力机制和体积自适应归一化，解决了传统方法中多视图不一致的问题。
延迟风格转换与效率优化：通过将风格转换推迟到2D特征图上，减少了内存占用和计算成本，同时保持了风格化效果。
感知损失与风格化平衡：通过优化损失函数，确保了风格化结果在内容保持和风格注入之间的平衡。

StyleRF: Zero-shot 3D Style Transfer of Neural Radiance Fields