原文链接:[2401.03890] A Survey on 3D Gaussian Splatting
动态更新的GitHub仓库(包含性能对比与最新文献追踪):
https://github.com/guikunchen/3DGS-Benchmarks
https://github.com/guikunchen/Awesome3DGS
摘要:3D高斯 splatting(GS)已成为显式辐射场和计算机图形学领域的一种变革性技术。这种创新方法的特点是使用数百万个可学习的3D高斯,它与主流神经辐射场方法有显著区别——后者主要使用基于坐标的隐式模型将空间坐标映射到像素值。3D GS凭借其显式场景表示和可微渲染算法,不仅有望实现实时渲染能力,还引入了前所未有的可编辑性水平。这使得3D GS成为下一代3D重建和表示领域的潜在游戏规则改变者。在本文中,我们首次系统概述了3D GS领域的最新发展和关键贡献。我们首先详细探讨3D GS的基本原理及其兴起的驱动力,为理解其重要性奠定基础。我们讨论的一个重点是3D GS的实际适用性。通过实现前所未有的渲染速度,3D GS开辟了从虚拟现实到互动媒体等众多应用场景。此外,我们还对领先的3D GS模型进行了对比分析,通过各种基准任务对其进行评估,以突出它们的性能和实用价值。本综述最后指出了当前面临的挑战,并提出了未来研究的潜在方向。通过本次综述,我们旨在为新手和资深研究人员提供有价值的资源,以促进显式辐射场领域的进一步探索和发展。
关键词:3D高斯 splatting、显式辐射场、实时渲染、场景理解
1.引言
背景与挑战
3D场景重建是计算机视觉和图形学领域的核心问题,旨在从图像或视频中生成可编辑的数字3D模型,其应用涵盖虚拟现实、自动驾驶、文物保护等。传统方法如运动恢复结构(SfM)和多视图立体视觉(MVS)虽取得进展,但在处理复杂场景、光照条件及纹理缺失时仍存在局限。神经辐射场(NeRF)的提出标志着重大突破,通过神经网络隐式建模场景的辐射场,实现了逼真的新视图合成。然而,NeRF存在两大瓶颈:一是计算成本高昂,训练和渲染耗时;二是隐式表示难以直接编辑,限制了实际应用灵活性。
3D高斯泼溅的革新性
3D高斯泼溅(3D GS)通过显式表示场景实现了范式转换。其核心思想是利用数百万个可学习的3D高斯椭球体建模场景,结合可微渲染和基于点的渲染技术,在保持NeRF级视觉质量的同时显著提升效率。3D GS的优势在于:
- 高效渲染:通过并行化管线避免NeRF中耗时的光线步进计算,支持实时渲染(如VR/AR应用);
- 显式可编辑性:直接操作3D高斯参数(位置、尺度、旋转等)即可调整几何与外观,解决了隐式模型难以编辑的问题;
- 动态场景适应性:为复杂动态场景(如光照变化、物体运动)提供了灵活建模工具。
未来展望
尽管3D GS已展现出巨大潜力,仍需解决以下开放问题:
- 计算效率的进一步优化:尤其在移动端和边缘设备上的部署;
- 大规模场景扩展性:当前方法对内存和显存需求较高;
- 动态建模的通用性:如何统一处理非刚性变形、流体等复杂动态;
- 与生成式AI的结合:探索3D GS与扩散模型等技术的协同创新。
总结
3D高斯泼溅通过显式表示与高效渲染的融合,推动了3D重建领域的范式演进。其兼具高质量输出与实时性能的特点,为工业界和学术界开辟了新方向。本综述不仅为初学者提供入门指南,也为资深研究者揭示了技术脉络与潜在突破点,助力这一快速发展的领域持续创新。
2.背景
2.1辐射场(Radiance Field)
隐式辐射场(Implicit Radiance Field)
隐式辐射场不显式定义场景几何,而是通过连续函数(如神经网络)建模光场分布。在深度学习时代,典型代表是神经辐射场(NeRF)。NeRF(图3a)使用多层感知机(MLP)将空间坐标 (x, y, z) 和观察方向 (θ, φ) 映射到颜色 c 和体积密度 σ:
(𝑐,𝜎)←MLP(𝑥,𝑦,𝑧,𝜃,𝜙)
这种表示具有可微性和紧凑性,但依赖体积光线步进(ray marching),计算开销大。需注意,颜色 c 通常与视角相关,而密度 σ 仅与位置相关。
显式辐射场(Explicit Radiance Field)
显式辐射场通过离散结构(如体素网格或点云)直接存储光场数据,其形式为:
(𝑐,𝜎)←DataStructure(𝑥,𝑦,𝑧,𝜃,𝜙).
其中 DataStructure 可以是体素、点云等,其颜色编码方式分为两类:高维特征+轻量MLP解码:先存储特征向量,再通过小型MLP解码出颜色;方向基函数系数(如球谐函数、球面高斯):直接存储基函数系数,通过视角方向计算最终颜色。
显式方法访问数据更快,但内存占用高且分辨率受限。
3D高斯泼溅(3D GS):融合隐式与显式优势
3D GS 是一种显式辐射场,但吸收了隐式场的优点。其核心创新在于:
- 可学习3D高斯作为基本单元:每个高斯直接编码不透明度 α(而非传统方法先计算密度 σ 再转换);
- 混合优化策略:结合神经网络的优化能力与显式数据存储结构,在可微渲染管线中通过多视图图像监督优化高斯参数;
- 高效与高质量兼顾:避免了NeRF的昂贵光线步进,支持实时渲染,同时训练时间更短,尤其适合复杂场景和高分辨率输出。

2.2 上下文与术语
体渲染(Volumetric Rendering)
目标是通过沿相机光线积分辐射值,将3D体积表示转换为2D图像。一条相机光线 r(t) 可参数化为:
其中 o 是光线起点(相机中心),d 是光线方向,t 表示沿光线的距离范围。像素颜色 C(r) 的计算公式为:
其中:
σ(r(t)) 是点 r(t) 处的体积密度;
c(r(t), d) 是该点沿方向 d 的颜色;
T(t) 是透射率(衡量光线未被遮挡的概率)。
光线步进(Raymarching) 是体渲染的离散近似方法,沿光线逐步采样并计算积分。NeRF 采用类似方法,但引入重要性采样(importance sampling) 和位置编码(positional encoding) 以提高渲染质量。然而,光线步进计算成本高昂,尤其在高分辨率渲染时效率较低。
基于点的渲染(Point-Based Rendering)
与体渲染不同,基于点的渲染算法直接对点云进行光栅化。传统方法(如固定大小的点渲染)容易产生空洞和伪影,而改进方法包括:
- 空间扩展的泼溅(Splatting):为点赋予空间范围(如椭球或高斯分布),减少渲染瑕疵
- 神经点特征(Neural Point Features):在点中嵌入神经特征,再通过网络解码渲染。
3D GS 的创新点:
- 采用3D高斯作为基本渲染单元,显式存储颜色、不透明度等属性(而非隐式神经特征);
- 使用基于点的α混合(Point-Based α-Blending),其成像模型与NeRF体渲染(Eq. 3)数学等效,但计算方式不同:NeRF 需沿光线密集采样计算积分,计算量大;3D GS 通过光栅化直接渲染高斯点,天然适合并行计算,速度优势显著。
核心差异总结
3. 3DGS原理
3.1 用学习得到的 3D 高斯进行渲染
这一部分主要讲述:如何利用 3D 高斯表示进行图像渲染,并对比 NeRF 的体积渲染方式,介绍 3DGS 中的三个关键技术环节:高斯定义、视锥剔除、Splatting 渲染。
✅ 渲染任务目标:
输入:一个由数百万个 3D 高斯表示组成的场景
输出:从某一相机视角(camera pose)渲染生成的图像
🔁 NeRF 与 3DGS 渲染方式的对比:
方法 | NeRF | 3D Gaussian Splatting |
---|---|---|
渲染机制 | 每像素沿射线进行体积采样(raymarching) | 将 3D 高斯投影到 2D 平面(splatting) |
效率 | 渲染慢,难以实时 | 渲染快,支持实时甚至高分辨率 |
应用限制 | 对资源要求高,难上移动端 | 更适用于实时系统、AR/VR |
两者几乎可视为“逆过程”:NeRF 从像素回溯采样 3D,3DGS 从 3D 投影到像素。
渲染流程详解
1️⃣ 定义:3D 高斯的属性(Learned 3D Gaussian)
一个 3D 高斯是渲染中的最小单位,具备以下属性:
属性 | 说明 |
---|---|
μ | 中心点位置(position) |
α | 不透明度(opacity) |
Σ | 3D 空间协方差矩阵(形状/范围) |
c | 颜色(color),通过球谐函数(spherical harmonics)建模视角相关颜色 |
所有属性均可学习,并通过反向传播进行优化。
2️⃣ 视锥剔除(Frustum Culling)
目的:排除那些位于相机视锥体(frustum)之外的高斯点,减少无效计算。
做法:依据当前相机位姿,仅保留处于视锥内的高斯参与后续投影。
3️⃣ Splatting(投影渲染)
✅ 概念:
将 3D 高斯(椭球)投影成图像平面上的 2D 高斯(椭圆)
核心过程分两步:
坐标变换:将世界坐标系下的高斯转换到相机坐标系(使用相机视角变换矩阵 W)
高斯投影:使用仿射近似进行透视变换,将其从 3D 投影到 2D 图像平面
✅ 数学公式:
给定 3D 协方差矩阵 Σ 和相机变换矩阵 W,2D 投影后的协方差矩阵 Σ′ 为:
其中:
W:3D 到相机空间的变换矩阵
J:透视变换的仿射近似雅可比矩阵(Jacobian)
J 来自透视投影的泰勒展开前两项(参见文献 [39])
⚠️ 标准的相机内参矩阵无法直接作用于协方差 Σ,因为透视变换是非线性的。3DGS 采用一种仿射近似方法,可在数学上保持可微性和高效性。
✅ 小结:
3D Gaussian Splatting 利用“splatting”而非“raymarching”进行图像生成,大幅减少渲染计算量。其核心渲染流程包括:
表示场景为多个可学习的 3D 高斯点
剔除视野外无效高斯
投影 + 排序 + 累积实现图像生成
该流程支持高速、可微、实时渲染,是 NeRF 的一种高效替代范式。
逐像素渲染机制(Rendering by Pixels)
👉 渲染步骤:
像素与高斯距离计算:
对于图像中某一像素点 x,计算其与所有重叠高斯之间的深度距离(通过视图变换矩阵 W 得到),形成一个深度排序的高斯列表 N。Alpha 混合(α-Blending):
使用如下公式计算像素的最终颜色 C:
:第 n 个高斯的颜色
:加权不透明度,结合高斯函数与可学习参数定义如下:
:可学习的不透明度
、x′:投影空间中的高斯中心和像素位置
:投影空间下的协方差矩阵
⚠️ 存在问题:
该方法逐像素地遍历并排序高斯点,难以并行化,效率远低于 NeRF 的统一射线采样,因此不能满足实时渲染需求。
提升策略一:图像切块(Tiles / Patches)
为突破效率瓶颈,3DGS 借鉴了**基于瓦片的光栅化(tile-based rasterization)**思想:
👉 思路:
将图像划分为多个 不重叠的 tile(块),通常大小为 16×16 像素
对每个 tile,判断哪些高斯投影与其发生重叠
👉 实现:
高斯复制(Gaussian Replication):
一个高斯可能同时影响多个 tile,因此需“复制”高斯,分别赋予每个副本对应 tile 的 ID,供后续并行渲染使用。
提升策略二:并行渲染(Parallel Rendering)
3DGS 接下来通过 tile ID + 深度构造一个可排序的键值结构,用于高效并行渲染。
👉 核心做法:
将高斯的 tile ID 放在高位、深度值放在低位,组成一个 byte 序列
使用该结构进行排序后,可直接用于 alpha compositing(即逐层叠加计算像素颜色)
👉 优点:
每个 tile 可独立渲染,tile 内的像素也可并行执行
每个 tile 的像素共享缓存,提升 memory 访问效率
映射到 CUDA 架构中:
tile ↔ block
pixel ↔ thread
📸 多张照片
│
▼
🧠 SFM重建 → 稀疏点云 + 相机位姿
│
| (得到:几千到几万个 3D 点、每个点的位置、每个相机的位置和朝向(相机矩阵))
|
▼
🌐 初始化为数万个 3D 高斯(位置+颜色+透明度+形状)
│
| 𝜇:3D 空间中的位置中心点
| Σ:3×3 的协方差矩阵,表示它的形状(椭球的方向和大小)
| α:不透明度,控制它“在图像中是否显著”
| c:颜色,一般用球谐函数表示(支持视角相关)
| 📌 初始时这些值是随机或规则初始化的,随后都会通过优化学习得到最优值
▼
🎯 优化高斯参数(训练过程)
│ 用一种 NeRF 类似的思想:从不同视角拍的真实照片中,来优化这些高斯的参数
| 步骤:1.从某个相机视角“看向”这些高斯 → 把它们投影到 2D 图像上
|
| 2.使用一种叫 高斯溅射(Gaussian Splatting) 的方法进行渲染,得到一个合成图像
|
| 3.把合成图像和真实照片进行对比(L1 / L2 损失 + 结构损失等)
|
| 4.用梯度下降不断更新所有高斯的参数(位置、透明度、形状、颜色)
|
| 这整个过程会遍历很多张图片,优化所有高斯,直到生成图像和真实照片尽量一致。
|
▼
🧃 投影到图像平面(splatting)
│
| 3D Gaussian Splatting 做的事就是:把 3D 空间中的高斯点,在某个相机视角下“投影”成 2D 图像上
| 的“模糊光斑”(椭圆形),过程如下:
| 1.投影 Projection:每个 3D 高斯通过相机矩阵被投影到图像平面上(变成一个 2D 高斯),协
| 方差矩阵也从 3D 转换为 2D,变成椭圆大小和方向
| 2.排序 Sorting:对所有落在某个像素或 tile 上的高斯点,按深度从近到远排序
| 3.混合 Alpha blending:使用公式把颜色和透明度混合出这个像素的最终颜色
| (越近的点影响越大,越透明的点权重越小)
|
▼
🎨 混合出颜色(alpha blending)
|
▼
🧠 提速:tile-based 并行渲染(支持实时)
“按块算”(Tile-based rendering):整张图像被分成多个小 tile(例如 16x16),每个 tile 分配一组高斯;所有 tile 并行处理,每个 tile 内部也并行处理每个像素。这样就能完美使用 GPU 的 CUDA block/thread 架构,实现 实时渲染!
最后渲染结果:从任意角度、任意距离实时查看场景;不需要像 NeRF 那样“采样 + MLP + raymarch”,渲染速度快几十倍!保持较高画质,还能动态加载(比如 Niantic 的 SPZ 格式就是这么做的)

3.2 3D 高斯 Splatting 的优化流程
3.2.1 参数优化(Parameter Optimization)
目标: 利用可微 splatting 渲染,将合成图像与真实照片对齐,并通过梯度下降更新所有高斯参数。
损失函数:结合 L1 / L2 颜色误差 + D-SSIM 结构相似度,控制逼真效果和平滑度,可以写为:
优化的参数包括:
每个高斯的 位置 μ\muμ、透明度 α\alphaα、
颜色球谐系数 ccc(支持视角依赖)
协方差矩阵 Σ\SigmaΣ
协方差矩阵的稳定优化:
直接训练 Σ\SigmaΣ 容易让其失去正定属性,影响物理意义。
解决方案:学习一个 四元数表示的旋转 qqq 和一个 3D 缩放向量 sss;
然后通过:
来生成稳定的协方差矩阵 。
效率优化:
相比自动求导整个流程,通过推导公式显式计算梯度,加快优化速度 。
3.2.2 自适应密度控制(Density Control)
场景中适当的 Gaussian 数量不同,3DGS 设计了 动态增加(densification)和删减(pruning) 的迭代机制:
🟢 增加高斯密度(Point Densification)
议题:场景中某些区域出现几何缺失或点过稀时,需要补点。
方式:
寻找 视空间位置梯度大 的高斯(表示重建不足),然后:
复制高斯 并沿梯度方向初始激活;
或 分裂一个大 Gaussian 为两个更小个体,通过缩放分裂策略刷新;
目的:重建细节区域,使重建更均匀丰富 arxiv.org+15arxiv.org+15arxiv.org+15。
🔴 删减冗余节点(Point Pruning)
动机:避免不必要的计算开销与视觉误差。
策略:
删去 几乎透明 的 Gaussian(α 很小);
去除在世界空间或视空间中显得异常巨大的 Gaussian;
在训练中期时,将靠相机非常近的 Gaussian α 降为接近 0,防止摄像机附近节点过度密集 。
目标:提升表示效率,控制粒子数量并保持训练稳定、表达完整。
🔁 两者交替进行 🎯
上述两个过程会在训练中交替进行:
优化参数,强化节点对当前视角的视觉准确性;
根据梯度与 α 信息动态增加或删除高斯;
重复以上步骤直至画质收敛。
总结一览
模块 | 方法 | 效果 / 目的 |
---|---|---|
参数优化 | 学习 μ、α、c、q(旋转)、s(缩放) | 生成可优化的协方差,提升画质与稳定性 |
损失函数 | L1 + D‑SSIM | 保证结构与视觉一致性 |
协方差处理 | 四元数 + 缩放分解 | 避免 Σ 非正定 |
加密 / 分裂高斯 | 依据位置梯度克隆或分裂大高斯点 | 重建场景细节 |
删除冗余高斯 | 移除透明或过大节点,控制局部密度 | 降低计算与存储开销 |
4.发展方向
4.1 针对稀疏输入的 3D Gaussian Splatting
问题背景:
3D Gaussian Splatting(简称 3D GS)在可观察视角有限时(如拍摄角度少),容易在图像重建中产生几何畸变或纹理缺失的问题。
这是辐射场重建(Radiance Field Rendering)中的通病 —— 当输入图像稀疏时,模型很难还原完整的场景几何与外观。
现有解决方案可分为两类:
一类:基于正则化的方法(Regularization-based)
通过引入先验约束(如深度)来增强稀疏条件下的建模效果。
DNGaussian :加入深度正则项,有效缓解几何退化;
FSGS:设计了 Gaussian Unpooling 的初始化机制,同时引入深度约束;
MVSplat:构建了 cost volume 表征,用于提供几何提示。
🧨 不足:当视角数量极少(如仅有一张图)时,这类方法的性能显著下降,鲁棒性不足。
二类:基于泛化建模的方法(Generalizability-based)
通过学习先验模型,提高模型从少量视图中生成完整场景的能力。
生成视图补全(View Synthesis):借助生成模型(如 NeRF-W)生成更多视图,然后并入重建流程;
🧨 缺点:计算开销大,且效果依赖于生成模型的泛化能力。
前馈式高斯建模(Feed-forward Gaussian Models):
如 PixelSplat :从密集概率分布中采样高斯;
Splatter Image:通过图像到高斯的映射网络,将 2D 图像像素转换为 3D 高斯。
🧨 问题:这些方法生成的高斯是像素对齐、均匀分布的,难以精准覆盖细节区域和光滑曲面。
🧭 当前挑战与展望:
核心挑战:如何在“过拟合视图”和“先验泛化”之间做平衡;
未来方向:
引入置信度机制:基于上下文或用户偏好动态选择建模先验;
扩展到动态场景:考虑时间一致性、运动模糊等因素,是重要研究前沿。
4.2 内存高效的 3D GS(Memory-efficient 3D GS)
问题背景:
与 NeRF 相比,3D GS 不需要 MLP 网络,但需要大量高斯点(上百万个)来表达场景,导致:
内存开销大(远高于存储一个小型神经网络);
大规模场景(如室外城市)渲染和训练时资源瓶颈明显。
两类优化方向:
① 减少高斯数量
体素掩膜裁剪(volume-based masking) [58]:
删除视觉影响小的高斯点,降低数量和渲染冗余。
共享属性(共享 anchor)表示:
邻近高斯共享颜色等属性,减少重复存储:
如:局部锚点共享(local anchor);
哈希网格共享(hash-grid) [62];
聚类共享 [22]。
② 压缩高斯属性
代码本压缩(codebook compression):
如 [61] 将颜色和协方差编码进压缩表(codebook),再通过灵敏度指标进行微调。
自适应量化(adaptive quantization):
HAC [62]:对高斯属性分布进行建模后进行可学习的量化压缩。
📌 这些策略可以组合使用,即一套系统可同时做高斯裁剪 + 属性压缩。
🧭 面临的挑战:
训练过程中的内存优化尚不成熟(如量化感知训练仍在探索中);
如何构建通用场景的可复用压缩字典(codebook);
如何在压缩率与渲染质量之间取得更好的折中。
4.3 Photorealistic 3D Gaussian Splatting(真实感提升)
背景:
当前的 3D GS 渲染流程(见第 3.1 节)虽然计算高效,但在图像质量方面仍有不足,主要问题包括:
可见性算法过于简单 → 导致深度顺序切换不自然;
存在混叠、反射效果差、模糊等问题;
渲染真实感仍远逊于传统渲染或高质量 NeRF。
当前研究集中优化的三个视觉质量方向:
① 混叠问题(Aliasing)
原因:3D GS 使用点采样(每像素视为一个点),在多分辨率/边缘区域导致锯齿或模糊。
训练阶段改进:
Multi-scale Gaussian [67]:多尺度建模,兼顾不同分辨率;
Mip Filter [65]:借鉴传统渲染的层级模糊滤波;
Logistic Function 调制 [78]:对密度函数做平滑处理。
推理阶段改进:
Scale-adaptive Filtering [80]:自动调整滤波大小以匹配分辨率变化,兼容所有框架。
② 反射效果差(Reflection)
反射物体难以建模,一直是重建领域的难题。
新研究:
提出 可重光照高斯(relightable Gaussians) [23];
建模镜面反射材质 [68][73][99];
但要实现物理准确的镜面反射仍然十分困难。
③ 模糊问题(Blur)
实际数据集中常出现运动模糊、失焦模糊等问题。
解决方案:
模糊建模:显式在训练中考虑模糊核;
如:
Coarse-to-fine 模糊核优化 [74];
Photometric Bundle Adjustment [75]:多帧联合优化照片一致性。
🎯 总结思路:
当前解决方案多为“一对一解决策略”:即哪个问题就解决哪个;
更理想的做法应是建立自动检测问题 → 自动选择优化方式的机制;
目标是构建一个全能型重建系统,或是从头重建 3D GS 渲染管线。
4.4 Improved Optimization Algorithms(优化算法改进)
🎯 背景:
3D GS 的优化过程存在以下关键问题:
收敛慢;
高斯点分布不均,造成有些区域重建过密、有些区域模糊或缺失;
正则化不足,导致结构不清晰、外观失真。
🔍 目前优化算法的三个方向:
① 正则化增强(Regularization)
频率正则化 [84]:限制高频信息,避免过拟合;
几何正则化:
使用 anchor 点 [22]、深度/表面约束 [100]~[102];
引入高斯体积建模(Gaussian Volumes)[103],保持几何一致性。
② 优化策略增强(Optimization Procedure)
原始方法(见第 3.2 节)虽有效,但还可提升:
例如:GaussianPro [44] 针对大场景/光滑区域提出更稳健的 densification 策略;
改进点初始化方式、避免贴图区域稀疏。
③ 约束松弛(Constraint Relaxation)
当前依赖 SfM 等工具初始化,误差较大,限制性能上限;
新研究探索 “COLMAP-free” 方法:
如基于连续流(stream continuity)的直接高斯建模;
支持从互联网视频中自动学习场景。
🧠 未来方向探索:
多数研究集中在“从零优化高斯表示”,但忽略了更具潜力的:
✅ 少量样本重建(few-shot reconstruction)
✅ 元表示学习(meta representation)
即:融合“场景通用知识”与“场景特定信息”,进行快速适应。
4.5 Augmented 3D Gaussians:加入更多属性的3DGS
虽然3D Gaussians 最初只为 新视角合成(novel view synthesis) 设计,但研究者发现它还能通过融合更多属性信息,拓展到语义理解、语言交互、时空建模等多领域任务。
三类扩展属性与应用方向:
① 语言嵌入场景建模(Language Embedded Scene Representation)
高维语言嵌入成本高,Shi 等人 [87] 提出:
压缩嵌入(quantized language embedding);
结合语义不确定性引导的平滑机制;
提升跨视角语义一致性与开放词汇查询准确度。
② 语义理解与编辑(Scene Understanding & Editing)
Feature 3DGS [90]:从2D大模型中蒸馏语义特征;
构建低维语义场 → 用小型卷积解码器上采样;
应用包括:
场景语义分割、
文本引导编辑(text-guided editing)、
快速训练与实时渲染。
③ 时空建模(Spatiotemporal Modeling)
Yang 等人提出 [93]:
4D 高斯点(带时间维度);
统一建模动态场景的时空变化;
渲染支持任意旋转 + 时序变化;
可进行端到端训练。
4.6 Hybrid Representations:混合式表示增强任务适应性
除了直接扩展属性,另一方向是将 3D Gaussians 与结构化信息(如 MLP、网格等)融合,提升其对特定任务的适配能力。
三类典型混合表示场景:
① 表情建模(Facial Expression Modeling)
Gaussian Head Avatar [96]:
使用可控 3D Gaussians + MLP形变场;
同时优化“中性面部高斯”与“动态变形”;
实现稀疏视角下高保真表情建模。
② 动态建模(Spatiotemporal Modeling)
Yang 等人 [94]:
引入形变高斯点,学习在 canonical 空间;
使用 空间 MLP 表示时空动态;
增加“退火平滑机制”提升时间一致性,且无额外计算开销。
③ 风格迁移(Style Transfer)
GS in Style [107]:
利用预训练高斯点 + 多分辨率哈希网格 + 小型 MLP;
实现实时场景风格化;
保证多视角一致性与高渲染速度。
总结:
结构信息作为“外骨骼”填补高斯点的稀疏性与无序性短板,使其更适用于编辑、风格化、动画等任务。
4.7 新型渲染算法:从光栅化到光线追踪
虽然 3DGS 的光栅化渲染方式(基于排序 + 局部高斯加权)非常高效,但仍存在多个结构性缺陷,尤其在复杂相机/光效/几何重叠等场景下表现不足。
🔧 主要问题:
难以处理:
畸变相机(如鱼眼、Rolling Shutter);
二次光线(反射、阴影);
随机采样(如光照模拟);
高斯点之间常常 重叠,仅靠中心排序会导致:
“图像跳跃”(popping artifacts)
时序不一致(Temporal instability)
🌟 替代性方案:光线追踪(Ray Tracing)3D Gaussian 渲染
① GaussianTracer [108]
首次提出“高斯光线追踪渲染管线”;
为非均匀高斯分布设计高效加速策略;
支持不连续密度和交叉分布的快速遍历。
② EVER [109]
提出物理精确的“恒定密度椭球体”表示;
可以精确求解体积渲染积分,避免近似;
消除跳帧与边缘模糊问题。
展望与潜能:
新能力 | 说明 |
---|---|
✅ 全光照支持 | 反射、折射、全局光照等 |
✅ 复杂相机建模支持 | 鱼眼镜头、运动快门等 |
✅ 高物理精度渲染 | 真正支持方向性外观估计(非 tile approximation) |
✅ 可用于逆向渲染与材质建模 | 支持物理场景理解、可重光照等 |
但目前仍存在计算成本高的问题,是未来研究的关键方向之一。
5.未来研究方向(Future Research Directions)
尽管 3D Gaussian Splatting(3DGS)已经在多项任务上取得显著成就,但目前仍存在大量尚未开发的潜力和研究空白,主要可归纳为以下五大研究前沿:
1️⃣ 物理与语义感知的场景表示(Physics- and Semantics-aware Scene Representation)
核心观点:将物理规则与语义信息整合到3D GS中,可大幅提升几何、纹理、光照等方面的表示质量。
当前现状:已有不少单独研究关注物理或语义建模,但两者的协同融合仍属空白领域。
潜在价值:
改善建模质量(几何/表面重建等)
支持动态建模、场景编辑与生成任务
降低训练视角数量需求(利用先验知识)
应用方向:场景理解、计算创作(computational creativity)、增强现实等。
2️⃣ 基于大规模数据学习物理先验(Learning Physical Priors from Large-scale Data)
目标:从2D/3D大规模数据中提取通用物理属性,用于更好地建模现实世界。
应用前景:
快速适配新物体和新环境(few-shot learning)
提高虚拟场景的交互性与动态表现力,尤其适用于 AR/VR 领域。
挑战:
当前从数据中提取物理知识的研究仍较稀缺。
有价值的路径包括:real2sim、sim2real 桥接。
已有探索:连续力学(continuum mechanics)方法、基于MVS的高斯表示等。
3️⃣ 建模对象内部结构(Modeling Internal Structures of Objects)
现有问题:
当前3D GS通过点云“溅射”(splatting)构建表示,无法准确对齐物体内部结构。
这对需要体积建模(如CT扫描、医学影像)等应用是重大限制。
已有尝试:
Li 等使用密度控制不使用 splatting 建模体积;
X-Gaussian使用 splatting 但无法生成体积结构。
未来方向:
建立适用于体积建模的 3D GS 框架;
支持真实结构建模与分析。
4️⃣ 3D GS 在自动驾驶仿真等场景中的应用(3D GS for Simulation in Autonomous Driving and Beyond)
问题背景:
自动驾驶数据获取成本高,仿真成为替代方案。
关键挑战:
构建高质量、可控、真实感强的虚拟数据生成器。
当前探索:已有初步尝试重建城市街景(如 [188]–[190]),但尚处于初级阶段。
需进一步突破的点:
支持用户定义模型
模拟物理变化(如轮胎转动)
多光照、多环境模拟
应用展望:
计算空间理解
Embodied AI(具身智能)
世界模型(World Models)
5️⃣ 赋予3D GS更多功能与属性(Empowering 3D GS with More Possibilities)
方向一:增强属性
引入更多信息:语言(linguistic)、时空(spatiotemporal)属性等
方向二:结构建模
融入空间MLP、网格结构(如 Sec. 4.6)以提升表达能力
已探索应用:
点云配准(Point Cloud Registration)
图像表示与压缩
流体合成(Fluid Synthesis)
强调:鼓励跨学科深入探索,打开新的研究与应用边界。
总结
虽然3D Gaussian Splatting已在新视图合成等领域取得显著进展,但其潜力远未完全释放。未来的研究可以围绕物理与语义感知表示、从大数据中学习物理先验、建模内部结构、用于自动驾驶仿真以及增强功能属性与跨学科扩展等方面展开。这些方向不仅将提升模型的准确性与表达力,也将促进3D GS在计算机视觉、机器人、AR/VR、医学影像等多个领域的应用落地。