A Survey on 3D Gaussian Splatting——3D高斯领域综述-EW帮帮网

原文链接：[2401.03890] A Survey on 3D Gaussian Splatting

动态更新的GitHub仓库（包含性能对比与最新文献追踪）：

https://github.com/guikunchen/3DGS-Benchmarks

https://github.com/guikunchen/Awesome3DGS

摘要：3D高斯 splatting（GS）已成为显式辐射场和计算机图形学领域的一种变革性技术。这种创新方法的特点是使用数百万个可学习的3D高斯，它与主流神经辐射场方法有显著区别——后者主要使用基于坐标的隐式模型将空间坐标映射到像素值。3D GS凭借其显式场景表示和可微渲染算法，不仅有望实现实时渲染能力，还引入了前所未有的可编辑性水平。这使得3D GS成为下一代3D重建和表示领域的潜在游戏规则改变者。在本文中，我们首次系统概述了3D GS领域的最新发展和关键贡献。我们首先详细探讨3D GS的基本原理及其兴起的驱动力，为理解其重要性奠定基础。我们讨论的一个重点是3D GS的实际适用性。通过实现前所未有的渲染速度，3D GS开辟了从虚拟现实到互动媒体等众多应用场景。此外，我们还对领先的3D GS模型进行了对比分析，通过各种基准任务对其进行评估，以突出它们的性能和实用价值。本综述最后指出了当前面临的挑战，并提出了未来研究的潜在方向。通过本次综述，我们旨在为新手和资深研究人员提供有价值的资源，以促进显式辐射场领域的进一步探索和发展。

关键词：3D高斯 splatting、显式辐射场、实时渲染、场景理解

1.引言

背景与挑战
3D场景重建是计算机视觉和图形学领域的核心问题，旨在从图像或视频中生成可编辑的数字3D模型，其应用涵盖虚拟现实、自动驾驶、文物保护等。传统方法如运动恢复结构（SfM）和多视图立体视觉（MVS）虽取得进展，但在处理复杂场景、光照条件及纹理缺失时仍存在局限。神经辐射场（NeRF）的提出标志着重大突破，通过神经网络隐式建模场景的辐射场，实现了逼真的新视图合成。然而，NeRF存在两大瓶颈：一是计算成本高昂，训练和渲染耗时；二是隐式表示难以直接编辑，限制了实际应用灵活性。

3D高斯泼溅的革新性
3D高斯泼溅（3D GS）通过显式表示场景实现了范式转换。其核心思想是利用数百万个可学习的3D高斯椭球体建模场景，结合可微渲染和基于点的渲染技术，在保持NeRF级视觉质量的同时显著提升效率。3D GS的优势在于：

高效渲染：通过并行化管线避免NeRF中耗时的光线步进计算，支持实时渲染（如VR/AR应用）；
显式可编辑性：直接操作3D高斯参数（位置、尺度、旋转等）即可调整几何与外观，解决了隐式模型难以编辑的问题；
动态场景适应性：为复杂动态场景（如光照变化、物体运动）提供了灵活建模工具。

未来展望
尽管3D GS已展现出巨大潜力，仍需解决以下开放问题：

计算效率的进一步优化：尤其在移动端和边缘设备上的部署；
大规模场景扩展性：当前方法对内存和显存需求较高；
动态建模的通用性：如何统一处理非刚性变形、流体等复杂动态；
与生成式AI的结合：探索3D GS与扩散模型等技术的协同创新。

总结
3D高斯泼溅通过显式表示与高效渲染的融合，推动了3D重建领域的范式演进。其兼具高质量输出与实时性能的特点，为工业界和学术界开辟了新方向。本综述不仅为初学者提供入门指南，也为资深研究者揭示了技术脉络与潜在突破点，助力这一快速发展的领域持续创新。

2.背景

2.1辐射场（Radiance Field）

隐式辐射场（Implicit Radiance Field）

隐式辐射场不显式定义场景几何，而是通过连续函数（如神经网络）建模光场分布。在深度学习时代，典型代表是神经辐射场（NeRF）。NeRF（图3a）使用多层感知机（MLP）将空间坐标 (x, y, z) 和观察方向 (θ, φ) 映射到颜色 c 和体积密度 σ：

(𝑐,𝜎)←MLP(𝑥,𝑦,𝑧,𝜃,𝜙)

这种表示具有可微性和紧凑性，但依赖体积光线步进（ray marching），计算开销大。需注意，颜色 c 通常与视角相关，而密度 σ 仅与位置相关。

显式辐射场（Explicit Radiance Field）

显式辐射场通过离散结构（如体素网格或点云）直接存储光场数据，其形式为：
(𝑐,𝜎)←DataStructure(𝑥,𝑦,𝑧,𝜃,𝜙).

其中 DataStructure 可以是体素、点云等，其颜色编码方式分为两类：高维特征+轻量MLP解码：先存储特征向量，再通过小型MLP解码出颜色；方向基函数系数（如球谐函数、球面高斯）：直接存储基函数系数，通过视角方向计算最终颜色。
显式方法访问数据更快，但内存占用高且分辨率受限。

3D高斯泼溅（3D GS）：融合隐式与显式优势

3D GS 是一种显式辐射场，但吸收了隐式场的优点。其核心创新在于：

可学习3D高斯作为基本单元：每个高斯直接编码不透明度 α（而非传统方法先计算密度 σ 再转换）；
混合优化策略：结合神经网络的优化能力与显式数据存储结构，在可微渲染管线中通过多视图图像监督优化高斯参数；
高效与高质量兼顾：避免了NeRF的昂贵光线步进，支持实时渲染，同时训练时间更短，尤其适合复杂场景和高分辨率输出。

2.2 上下文与术语

体渲染（Volumetric Rendering）

目标是通过沿相机光线积分辐射值，将3D体积表示转换为2D图像。一条相机光线 r(t) 可参数化为：

其中 o 是光线起点（相机中心），d 是光线方向，t 表示沿光线的距离范围。像素颜色 C(r) 的计算公式为：

其中：

σ(r(t)) 是点 r(t) 处的体积密度；

c(r(t), d) 是该点沿方向 d 的颜色；

T(t) 是透射率（衡量光线未被遮挡的概率）。

光线步进（Raymarching） 是体渲染的离散近似方法，沿光线逐步采样并计算积分。NeRF 采用类似方法，但引入重要性采样（importance sampling）和位置编码（positional encoding） 以提高渲染质量。然而，光线步进计算成本高昂，尤其在高分辨率渲染时效率较低。

基于点的渲染（Point-Based Rendering）

与体渲染不同，基于点的渲染算法直接对点云进行光栅化。传统方法（如固定大小的点渲染）容易产生空洞和伪影，而改进方法包括：

空间扩展的泼溅（Splatting）：为点赋予空间范围（如椭球或高斯分布），减少渲染瑕疵
神经点特征（Neural Point Features）：在点中嵌入神经特征，再通过网络解码渲染。

3D GS 的创新点：

采用3D高斯作为基本渲染单元，显式存储颜色、不透明度等属性（而非隐式神经特征）；
使用基于点的α混合（Point-Based α-Blending），其成像模型与NeRF体渲染（Eq. 3）数学等效，但计算方式不同：NeRF 需沿光线密集采样计算积分，计算量大；3D GS 通过光栅化直接渲染高斯点，天然适合并行计算，速度优势显著。

核心差异总结

3. 3DGS原理

3.1 用学习得到的 3D 高斯进行渲染

这一部分主要讲述：如何利用 3D 高斯表示进行图像渲染，并对比 NeRF 的体积渲染方式，介绍 3DGS 中的三个关键技术环节：高斯定义、视锥剔除、Splatting 渲染。

✅ 渲染任务目标：

输入：一个由数百万个 3D 高斯表示组成的场景
输出：从某一相机视角（camera pose）渲染生成的图像

🔁 NeRF 与 3DGS 渲染方式的对比：

方法	NeRF	3D Gaussian Splatting
渲染机制	每像素沿射线进行体积采样（raymarching）	将 3D 高斯投影到 2D 平面（splatting）
效率	渲染慢，难以实时	渲染快，支持实时甚至高分辨率
应用限制	对资源要求高，难上移动端	更适用于实时系统、AR/VR

两者几乎可视为“逆过程”：NeRF 从像素回溯采样 3D，3DGS 从 3D 投影到像素。

渲染流程详解

1️⃣ 定义：3D 高斯的属性（Learned 3D Gaussian）

一个 3D 高斯是渲染中的最小单位，具备以下属性：

属性	说明
μ	中心点位置（position）
α	不透明度（opacity）
Σ	3D 空间协方差矩阵（形状/范围）
c	颜色（color），通过球谐函数（spherical harmonics）建模视角相关颜色

所有属性均可学习，并通过反向传播进行优化。

2️⃣ 视锥剔除（Frustum Culling）

目的：排除那些位于相机视锥体（frustum）之外的高斯点，减少无效计算。
做法：依据当前相机位姿，仅保留处于视锥内的高斯参与后续投影。

3️⃣ Splatting（投影渲染）

✅ 概念：

将 3D 高斯（椭球）投影成图像平面上的 2D 高斯（椭圆）
核心过程分两步：
1. 坐标变换：将世界坐标系下的高斯转换到相机坐标系（使用相机视角变换矩阵 W）
2. 高斯投影：使用仿射近似进行透视变换，将其从 3D 投影到 2D 图像平面

✅ 数学公式：

给定 3D 协方差矩阵 Σ 和相机变换矩阵 W，2D 投影后的协方差矩阵 Σ′ 为：

其中：

W：3D 到相机空间的变换矩阵
J：透视变换的仿射近似雅可比矩阵（Jacobian）
J 来自透视投影的泰勒展开前两项（参见文献 [39]）

⚠️ 标准的相机内参矩阵无法直接作用于协方差 Σ，因为透视变换是非线性的。3DGS 采用一种仿射近似方法，可在数学上保持可微性和高效性。

✅ 小结：

3D Gaussian Splatting 利用“splatting”而非“raymarching”进行图像生成，大幅减少渲染计算量。其核心渲染流程包括：

表示场景为多个可学习的 3D 高斯点
剔除视野外无效高斯
投影 + 排序 + 累积实现图像生成

该流程支持高速、可微、实时渲染，是 NeRF 的一种高效替代范式。

逐像素渲染机制（Rendering by Pixels）

👉 渲染步骤：

像素与高斯距离计算：
对于图像中某一像素点 x，计算其与所有重叠高斯之间的深度距离（通过视图变换矩阵 W 得到），形成一个深度排序的高斯列表 N。
Alpha 混合（α-Blending）：
使用如下公式计算像素的最终颜色 C：

$c_{n}$ ：第 n 个高斯的颜色
$\alpha _{n}^{'}$ ：加权不透明度，结合高斯函数与可学习参数定义如下：
- $\alpha _{n}$ ：可学习的不透明度
- $\mu _{n}^{'}$ 、x′：投影空间中的高斯中心和像素位置
- $\Sigma _{n}^{'}$ ：投影空间下的协方差矩阵

⚠️ 存在问题：

该方法逐像素地遍历并排序高斯点，难以并行化，效率远低于 NeRF 的统一射线采样，因此不能满足实时渲染需求。

提升策略一：图像切块（Tiles / Patches）

为突破效率瓶颈，3DGS 借鉴了**基于瓦片的光栅化（tile-based rasterization）**思想：

👉 思路：

将图像划分为多个 不重叠的 tile（块），通常大小为 16×16 像素
对每个 tile，判断哪些高斯投影与其发生重叠

👉 实现：

高斯复制（Gaussian Replication）：
一个高斯可能同时影响多个 tile，因此需“复制”高斯，分别赋予每个副本对应 tile 的 ID，供后续并行渲染使用。

提升策略二：并行渲染（Parallel Rendering）

3DGS 接下来通过 tile ID + 深度构造一个可排序的键值结构，用于高效并行渲染。

👉 核心做法：

将高斯的 tile ID 放在高位、深度值放在低位，组成一个 byte 序列
使用该结构进行排序后，可直接用于 alpha compositing（即逐层叠加计算像素颜色）

👉 优点：

每个 tile 可独立渲染，tile 内的像素也可并行执行
每个 tile 的像素共享缓存，提升 memory 访问效率
映射到 CUDA 架构中：
- tile ↔ block
- pixel ↔ thread

📸 多张照片
   │  
   ▼
🧠 SFM重建 → 稀疏点云 + 相机位姿
   │    
   |  （得到：几千到几万个 3D 点、每个点的位置、每个相机的位置和朝向（相机矩阵））
   |
   ▼
🌐 初始化为数万个 3D 高斯（位置+颜色+透明度+形状）
   │
   |  𝜇：3D 空间中的位置中心点
   |  Σ：3×3 的协方差矩阵，表示它的形状（椭球的方向和大小）
   |  α：不透明度，控制它“在图像中是否显著”   
   |  c：颜色，一般用球谐函数表示（支持视角相关）
   |  📌 初始时这些值是随机或规则初始化的，随后都会通过优化学习得到最优值
   ▼
🎯 优化高斯参数（训练过程）
   │  用一种 NeRF 类似的思想：从不同视角拍的真实照片中，来优化这些高斯的参数
   |  步骤：1.从某个相机视角“看向”这些高斯 → 把它们投影到 2D 图像上
   |
   |        2.使用一种叫 高斯溅射（Gaussian Splatting） 的方法进行渲染，得到一个合成图像
   |
   |        3.把合成图像和真实照片进行对比（L1 / L2 损失 + 结构损失等）
   |
   |        4.用梯度下降不断更新所有高斯的参数（位置、透明度、形状、颜色）
   |
   | 这整个过程会遍历很多张图片，优化所有高斯，直到生成图像和真实照片尽量一致。
   |
   ▼
🧃 投影到图像平面（splatting）
   │   
   |  3D Gaussian Splatting 做的事就是：把 3D 空间中的高斯点，在某个相机视角下“投影”成 2D 图像上 
   |  的“模糊光斑”（椭圆形），过程如下：
   |       1.投影 Projection：每个 3D 高斯通过相机矩阵被投影到图像平面上（变成一个 2D 高斯），协 
   |         方差矩阵也从 3D 转换为 2D，变成椭圆大小和方向
   |       2.排序 Sorting：对所有落在某个像素或 tile 上的高斯点，按深度从近到远排序
   |       3.混合 Alpha blending：使用公式把颜色和透明度混合出这个像素的最终颜色
   |                             （越近的点影响越大，越透明的点权重越小）
   |
   ▼
🎨 混合出颜色（alpha blending）
   |
   ▼
🧠 提速：tile-based 并行渲染（支持实时）
“按块算”（Tile-based rendering）：整张图像被分成多个小 tile（例如 16x16），每个 tile 分配一组高斯；所有 tile 并行处理，每个 tile 内部也并行处理每个像素。这样就能完美使用 GPU 的 CUDA block/thread 架构，实现 实时渲染！
最后渲染结果：从任意角度、任意距离实时查看场景；不需要像 NeRF 那样“采样 + MLP + raymarch”，渲染速度快几十倍！保持较高画质，还能动态加载（比如 Niantic 的 SPZ 格式就是这么做的）

3D GS 的正向过程图示（参见第 3.1 节）（a）展开步骤将 3D 高斯投影到图像空间中。（b） 3D GS 将图像划分为多个不重叠的块，即平铺。（c） 3D GS 复制覆盖多个瓦片的高斯分布，为每个副本分配一个标识符，即瓦片 ID。（d）通过渲染排序的高斯分布，我们可以获得瓦片内的所有像素。请注意，像素和切片的计算工作流程是独立的，可以并行完成。

3.2 3D 高斯 Splatting 的优化流程

3.2.1 参数优化（Parameter Optimization）

目标： 利用可微 splatting 渲染，将合成图像与真实照片对齐，并通过梯度下降更新所有高斯参数。

损失函数：结合 L1 / L2 颜色误差 + D-SSIM 结构相似度，控制逼真效果和平滑度，可以写为：

优化的参数包括：
- 每个高斯的位置 μ\muμ、透明度 α\alphaα、
- 颜色球谐系数 ccc（支持视角依赖）
- 协方差矩阵 Σ\SigmaΣ
协方差矩阵的稳定优化：
- 直接训练 Σ\SigmaΣ 容易让其失去正定属性，影响物理意义。
- 解决方案：学习一个 四元数表示的旋转 qqq 和一个 3D 缩放向量 sss；
  然后通过：

来生成稳定的协方差矩阵。

效率优化：

相比自动求导整个流程，通过推导公式显式计算梯度，加快优化速度。

3.2.2 自适应密度控制（Density Control）

场景中适当的 Gaussian 数量不同，3DGS 设计了 动态增加（densification）和删减（pruning） 的迭代机制：

🟢 增加高斯密度（Point Densification）

议题：场景中某些区域出现几何缺失或点过稀时，需要补点。
方式：
- 寻找 视空间位置梯度大 的高斯（表示重建不足），然后：
  - 复制高斯 并沿梯度方向初始激活；
  - 或 分裂一个大 Gaussian 为两个更小个体，通过缩放分裂策略刷新；
目的：重建细节区域，使重建更均匀丰富 arxiv.org+15arxiv.org+15arxiv.org+15。

🔴 删减冗余节点（Point Pruning）

动机：避免不必要的计算开销与视觉误差。
策略：
- 删去 几乎透明 的 Gaussian（α 很小）；
- 去除在世界空间或视空间中显得异常巨大的 Gaussian；
- 在训练中期时，将靠相机非常近的 Gaussian α 降为接近 0，防止摄像机附近节点过度密集。
目标：提升表示效率，控制粒子数量并保持训练稳定、表达完整。

🔁 两者交替进行 🎯

上述两个过程会在训练中交替进行：

优化参数，强化节点对当前视角的视觉准确性；
根据梯度与 α 信息动态增加或删除高斯；
重复以上步骤直至画质收敛。

总结一览

模块	方法	效果 / 目的
参数优化	学习 μ、α、c、q（旋转）、s（缩放）	生成可优化的协方差，提升画质与稳定性
损失函数	L1 + D‑SSIM	保证结构与视觉一致性
协方差处理	四元数 + 缩放分解	避免 Σ 非正定
加密 / 分裂高斯	依据位置梯度克隆或分裂大高斯点	重建场景细节
删除冗余高斯	移除透明或过大节点，控制局部密度	降低计算与存储开销

4.发展方向

4.1 针对稀疏输入的 3D Gaussian Splatting

问题背景：

3D Gaussian Splatting（简称 3D GS）在可观察视角有限时（如拍摄角度少），容易在图像重建中产生几何畸变或纹理缺失的问题。

这是辐射场重建（Radiance Field Rendering）中的通病 —— 当输入图像稀疏时，模型很难还原完整的场景几何与外观。

现有解决方案可分为两类：

一类：基于正则化的方法（Regularization-based）

通过引入先验约束（如深度）来增强稀疏条件下的建模效果。

DNGaussian ：加入深度正则项，有效缓解几何退化；
FSGS：设计了 Gaussian Unpooling 的初始化机制，同时引入深度约束；
MVSplat：构建了 cost volume 表征，用于提供几何提示。

🧨 不足：当视角数量极少（如仅有一张图）时，这类方法的性能显著下降，鲁棒性不足。

二类：基于泛化建模的方法（Generalizability-based）

通过学习先验模型，提高模型从少量视图中生成完整场景的能力。

生成视图补全（View Synthesis）：借助生成模型（如 NeRF-W）生成更多视图，然后并入重建流程；
- 🧨 缺点：计算开销大，且效果依赖于生成模型的泛化能力。
前馈式高斯建模（Feed-forward Gaussian Models）：
- 如 PixelSplat ：从密集概率分布中采样高斯；
- Splatter Image：通过图像到高斯的映射网络，将 2D 图像像素转换为 3D 高斯。

🧨 问题：这些方法生成的高斯是像素对齐、均匀分布的，难以精准覆盖细节区域和光滑曲面。

🧭 当前挑战与展望：

核心挑战：如何在“过拟合视图”和“先验泛化”之间做平衡；
未来方向：
- 引入置信度机制：基于上下文或用户偏好动态选择建模先验；
- 扩展到动态场景：考虑时间一致性、运动模糊等因素，是重要研究前沿。

4.2 内存高效的 3D GS（Memory-efficient 3D GS）

问题背景：

与 NeRF 相比，3D GS 不需要 MLP 网络，但需要大量高斯点（上百万个）来表达场景，导致：

内存开销大（远高于存储一个小型神经网络）；
大规模场景（如室外城市）渲染和训练时资源瓶颈明显。

两类优化方向：

① 减少高斯数量

体素掩膜裁剪（volume-based masking） [58]：
- 删除视觉影响小的高斯点，降低数量和渲染冗余。
共享属性（共享 anchor）表示：
- 邻近高斯共享颜色等属性，减少重复存储：
  - 如：局部锚点共享（local anchor）；
  - 哈希网格共享（hash-grid） [62]；
  - 聚类共享 [22]。

② 压缩高斯属性

代码本压缩（codebook compression）：
- 如 [61] 将颜色和协方差编码进压缩表（codebook），再通过灵敏度指标进行微调。
自适应量化（adaptive quantization）：
- HAC [62]：对高斯属性分布进行建模后进行可学习的量化压缩。

📌 这些策略可以组合使用，即一套系统可同时做高斯裁剪 + 属性压缩。

🧭 面临的挑战：

训练过程中的内存优化尚不成熟（如量化感知训练仍在探索中）；
如何构建通用场景的可复用压缩字典（codebook）；
如何在压缩率与渲染质量之间取得更好的折中。

4.3 Photorealistic 3D Gaussian Splatting（真实感提升）

背景：

当前的 3D GS 渲染流程（见第 3.1 节）虽然计算高效，但在图像质量方面仍有不足，主要问题包括：

可见性算法过于简单 → 导致深度顺序切换不自然；
存在混叠、反射效果差、模糊等问题；
渲染真实感仍远逊于传统渲染或高质量 NeRF。

当前研究集中优化的三个视觉质量方向：

① 混叠问题（Aliasing）

原因：3D GS 使用点采样（每像素视为一个点），在多分辨率/边缘区域导致锯齿或模糊。
训练阶段改进：
- Multi-scale Gaussian [67]：多尺度建模，兼顾不同分辨率；
- Mip Filter [65]：借鉴传统渲染的层级模糊滤波；
- Logistic Function 调制 [78]：对密度函数做平滑处理。
推理阶段改进：
- Scale-adaptive Filtering [80]：自动调整滤波大小以匹配分辨率变化，兼容所有框架。

② 反射效果差（Reflection）

反射物体难以建模，一直是重建领域的难题。
新研究：
- 提出 可重光照高斯（relightable Gaussians） [23]；
- 建模镜面反射材质 [68][73][99]；
- 但要实现物理准确的镜面反射仍然十分困难。

③ 模糊问题（Blur）

实际数据集中常出现运动模糊、失焦模糊等问题。
解决方案：
- 模糊建模：显式在训练中考虑模糊核；
- 如：
  - Coarse-to-fine 模糊核优化 [74]；
  - Photometric Bundle Adjustment [75]：多帧联合优化照片一致性。

🎯 总结思路：

当前解决方案多为“一对一解决策略”：即哪个问题就解决哪个；
更理想的做法应是建立自动检测问题 → 自动选择优化方式的机制；
目标是构建一个全能型重建系统，或是从头重建 3D GS 渲染管线。

4.4 Improved Optimization Algorithms（优化算法改进）

🎯 背景：

3D GS 的优化过程存在以下关键问题：

收敛慢；
高斯点分布不均，造成有些区域重建过密、有些区域模糊或缺失；
正则化不足，导致结构不清晰、外观失真。

🔍 目前优化算法的三个方向：

① 正则化增强（Regularization）

频率正则化 [84]：限制高频信息，避免过拟合；
几何正则化：
- 使用 anchor 点 [22]、深度/表面约束 [100]~[102]；
- 引入高斯体积建模（Gaussian Volumes）[103]，保持几何一致性。

② 优化策略增强（Optimization Procedure）

原始方法（见第 3.2 节）虽有效，但还可提升：
- 例如：GaussianPro [44] 针对大场景/光滑区域提出更稳健的 densification 策略；
- 改进点初始化方式、避免贴图区域稀疏。

③ 约束松弛（Constraint Relaxation）

当前依赖 SfM 等工具初始化，误差较大，限制性能上限；
新研究探索 “COLMAP-free” 方法：
- 如基于连续流（stream continuity）的直接高斯建模；
- 支持从互联网视频中自动学习场景。

🧠 未来方向探索：

多数研究集中在“从零优化高斯表示”，但忽略了更具潜力的：
- ✅ 少量样本重建（few-shot reconstruction）
- ✅ 元表示学习（meta representation）
  - 即：融合“场景通用知识”与“场景特定信息”，进行快速适应。

4.5 Augmented 3D Gaussians：加入更多属性的3DGS

虽然3D Gaussians 最初只为 新视角合成（novel view synthesis） 设计，但研究者发现它还能通过融合更多属性信息，拓展到语义理解、语言交互、时空建模等多领域任务。

三类扩展属性与应用方向：

① 语言嵌入场景建模（Language Embedded Scene Representation）

高维语言嵌入成本高，Shi 等人 [87] 提出：
- 压缩嵌入（quantized language embedding）；
- 结合语义不确定性引导的平滑机制；
- 提升跨视角语义一致性与开放词汇查询准确度。

② 语义理解与编辑（Scene Understanding & Editing）

Feature 3DGS [90]：从2D大模型中蒸馏语义特征；
构建低维语义场 → 用小型卷积解码器上采样；
应用包括：
- 场景语义分割、
- 文本引导编辑（text-guided editing）、
- 快速训练与实时渲染。

③ 时空建模（Spatiotemporal Modeling）

Yang 等人提出 [93]：
- 4D 高斯点（带时间维度）；
- 统一建模动态场景的时空变化；
- 渲染支持任意旋转 + 时序变化；
- 可进行端到端训练。

4.6 Hybrid Representations：混合式表示增强任务适应性

除了直接扩展属性，另一方向是将 3D Gaussians 与结构化信息（如 MLP、网格等）融合，提升其对特定任务的适配能力。

三类典型混合表示场景：

① 表情建模（Facial Expression Modeling）

Gaussian Head Avatar [96]：
- 使用可控 3D Gaussians + MLP形变场；
- 同时优化“中性面部高斯”与“动态变形”；
- 实现稀疏视角下高保真表情建模。

② 动态建模（Spatiotemporal Modeling）

Yang 等人 [94]：
- 引入形变高斯点，学习在 canonical 空间；
- 使用 空间 MLP 表示时空动态；
- 增加“退火平滑机制”提升时间一致性，且无额外计算开销。

③ 风格迁移（Style Transfer）

GS in Style [107]：
- 利用预训练高斯点 + 多分辨率哈希网格 + 小型 MLP；
- 实现实时场景风格化；
- 保证多视角一致性与高渲染速度。

总结：

结构信息作为“外骨骼”填补高斯点的稀疏性与无序性短板，使其更适用于编辑、风格化、动画等任务。

4.7 新型渲染算法：从光栅化到光线追踪

虽然 3DGS 的光栅化渲染方式（基于排序 + 局部高斯加权）非常高效，但仍存在多个结构性缺陷，尤其在复杂相机/光效/几何重叠等场景下表现不足。

🔧 主要问题：

难以处理：
- 畸变相机（如鱼眼、Rolling Shutter）；
- 二次光线（反射、阴影）；
- 随机采样（如光照模拟）；
高斯点之间常常重叠，仅靠中心排序会导致：
- “图像跳跃”（popping artifacts）
- 时序不一致（Temporal instability）

🌟 替代性方案：光线追踪（Ray Tracing）3D Gaussian 渲染

① GaussianTracer [108]

首次提出“高斯光线追踪渲染管线”；
为非均匀高斯分布设计高效加速策略；
支持不连续密度和交叉分布的快速遍历。

② EVER [109]

提出物理精确的“恒定密度椭球体”表示；
可以精确求解体积渲染积分，避免近似；
消除跳帧与边缘模糊问题。

展望与潜能：

新能力	说明
✅ 全光照支持	反射、折射、全局光照等
✅ 复杂相机建模支持	鱼眼镜头、运动快门等
✅ 高物理精度渲染	真正支持方向性外观估计（非 tile approximation）
✅ 可用于逆向渲染与材质建模	支持物理场景理解、可重光照等

但目前仍存在计算成本高的问题，是未来研究的关键方向之一。

5.未来研究方向（Future Research Directions）

尽管 3D Gaussian Splatting（3DGS）已经在多项任务上取得显著成就，但目前仍存在大量尚未开发的潜力和研究空白，主要可归纳为以下五大研究前沿：

1️⃣ 物理与语义感知的场景表示（Physics- and Semantics-aware Scene Representation）

核心观点：将物理规则与语义信息整合到3D GS中，可大幅提升几何、纹理、光照等方面的表示质量。
当前现状：已有不少单独研究关注物理或语义建模，但两者的协同融合仍属空白领域。
潜在价值：
- 改善建模质量（几何/表面重建等）
- 支持动态建模、场景编辑与生成任务
- 降低训练视角数量需求（利用先验知识）
应用方向：场景理解、计算创作（computational creativity）、增强现实等。

2️⃣ 基于大规模数据学习物理先验（Learning Physical Priors from Large-scale Data）

目标：从2D/3D大规模数据中提取通用物理属性，用于更好地建模现实世界。
应用前景：
- 快速适配新物体和新环境（few-shot learning）
- 提高虚拟场景的交互性与动态表现力，尤其适用于 AR/VR 领域。
挑战：
- 当前从数据中提取物理知识的研究仍较稀缺。
- 有价值的路径包括：real2sim、sim2real 桥接。
已有探索：连续力学（continuum mechanics）方法、基于MVS的高斯表示等。

3️⃣ 建模对象内部结构（Modeling Internal Structures of Objects）

现有问题：
- 当前3D GS通过点云“溅射”（splatting）构建表示，无法准确对齐物体内部结构。
- 这对需要体积建模（如CT扫描、医学影像）等应用是重大限制。
已有尝试：
- Li 等使用密度控制不使用 splatting 建模体积；
- X-Gaussian使用 splatting 但无法生成体积结构。
未来方向：
- 建立适用于体积建模的 3D GS 框架；
- 支持真实结构建模与分析。

4️⃣ 3D GS 在自动驾驶仿真等场景中的应用（3D GS for Simulation in Autonomous Driving and Beyond）

问题背景：
- 自动驾驶数据获取成本高，仿真成为替代方案。
关键挑战：
- 构建高质量、可控、真实感强的虚拟数据生成器。
当前探索：已有初步尝试重建城市街景（如 [188]–[190]），但尚处于初级阶段。
需进一步突破的点：
- 支持用户定义模型
- 模拟物理变化（如轮胎转动）
- 多光照、多环境模拟
应用展望：
- 计算空间理解
- Embodied AI（具身智能）
- 世界模型（World Models）

5️⃣ 赋予3D GS更多功能与属性（Empowering 3D GS with More Possibilities）

方向一：增强属性
- 引入更多信息：语言（linguistic）、时空（spatiotemporal）属性等
方向二：结构建模
- 融入空间MLP、网格结构（如 Sec. 4.6）以提升表达能力
已探索应用：
- 点云配准（Point Cloud Registration）
- 图像表示与压缩
- 流体合成（Fluid Synthesis）
强调：鼓励跨学科深入探索，打开新的研究与应用边界。

总结

虽然3D Gaussian Splatting已在新视图合成等领域取得显著进展，但其潜力远未完全释放。未来的研究可以围绕物理与语义感知表示、从大数据中学习物理先验、建模内部结构、用于自动驾驶仿真以及增强功能属性与跨学科扩展等方面展开。这些方向不仅将提升模型的准确性与表达力，也将促进3D GS在计算机视觉、机器人、AR/VR、医学影像等多个领域的应用落地。

A Survey on 3D Gaussian Splatting——3D高斯领域综述