A Survey on 3D Gaussian Splatting——3D高斯领域综述

发布于:2025-06-18 ⋅ 阅读:(19) ⋅ 点赞:(0)

原文链接:[2401.03890] A Survey on 3D Gaussian Splatting

动态更新的GitHub仓库(包含性能对比与最新文献追踪):

https://github.com/guikunchen/3DGS-Benchmarks

https://github.com/guikunchen/Awesome3DGS

摘要:3D高斯 splatting(GS)已成为显式辐射场和计算机图形学领域的一种变革性技术。这种创新方法的特点是使用数百万个可学习的3D高斯,它与主流神经辐射场方法有显著区别——后者主要使用基于坐标的隐式模型将空间坐标映射到像素值。3D GS凭借其显式场景表示和可微渲染算法,不仅有望实现实时渲染能力,还引入了前所未有的可编辑性水平。这使得3D GS成为下一代3D重建和表示领域的潜在游戏规则改变者。在本文中,我们首次系统概述了3D GS领域的最新发展和关键贡献。我们首先详细探讨3D GS的基本原理及其兴起的驱动力,为理解其重要性奠定基础。我们讨论的一个重点是3D GS的实际适用性。通过实现前所未有的渲染速度,3D GS开辟了从虚拟现实到互动媒体等众多应用场景。此外,我们还对领先的3D GS模型进行了对比分析,通过各种基准任务对其进行评估,以突出它们的性能和实用价值。本综述最后指出了当前面临的挑战,并提出了未来研究的潜在方向。通过本次综述,我们旨在为新手和资深研究人员提供有价值的资源,以促进显式辐射场领域的进一步探索和发展。

关键词:3D高斯 splatting、显式辐射场、实时渲染、场景理解

1.引言

背景与挑战 
3D场景重建是计算机视觉和图形学领域的核心问题,旨在从图像或视频中生成可编辑的数字3D模型,其应用涵盖虚拟现实、自动驾驶、文物保护等。传统方法如运动恢复结构(SfM)和多视图立体视觉(MVS)虽取得进展,但在处理复杂场景、光照条件及纹理缺失时仍存在局限。神经辐射场(NeRF)的提出标志着重大突破,通过神经网络隐式建模场景的辐射场,实现了逼真的新视图合成。然而,NeRF存在两大瓶颈:一是计算成本高昂,训练和渲染耗时;二是隐式表示难以直接编辑,限制了实际应用灵活性。

3D高斯泼溅的革新性  
3D高斯泼溅(3D GS)通过显式表示场景实现了范式转换。其核心思想是利用数百万个可学习的3D高斯椭球体建模场景,结合可微渲染和基于点的渲染技术,在保持NeRF级视觉质量的同时显著提升效率。3D GS的优势在于:  

  1. 高效渲染:通过并行化管线避免NeRF中耗时的光线步进计算,支持实时渲染(如VR/AR应用);  
  2. 显式可编辑性:直接操作3D高斯参数(位置、尺度、旋转等)即可调整几何与外观,解决了隐式模型难以编辑的问题;  
  3. 动态场景适应性:为复杂动态场景(如光照变化、物体运动)提供了灵活建模工具。  

未来展望
尽管3D GS已展现出巨大潜力,仍需解决以下开放问题:  

  1. 计算效率的进一步优化:尤其在移动端和边缘设备上的部署;  
  2. 大规模场景扩展性:当前方法对内存和显存需求较高;  
  3. 动态建模的通用性:如何统一处理非刚性变形、流体等复杂动态;  
  4. 与生成式AI的结合:探索3D GS与扩散模型等技术的协同创新。  

总结
3D高斯泼溅通过显式表示与高效渲染的融合,推动了3D重建领域的范式演进。其兼具高质量输出与实时性能的特点,为工业界和学术界开辟了新方向。本综述不仅为初学者提供入门指南,也为资深研究者揭示了技术脉络与潜在突破点,助力这一快速发展的领域持续创新。

2.背景

2.1辐射场(Radiance Field)

隐式辐射场(Implicit Radiance Field)

隐式辐射场不显式定义场景几何,而是通过连续函数(如神经网络)建模光场分布。在深度学习时代,典型代表是神经辐射场(NeRF)。NeRF(图3a)使用多层感知机(MLP)将空间坐标 (x, y, z) 和观察方向 (θ, φ) 映射到颜色 c 和体积密度 σ:

(𝑐,𝜎)←MLP(𝑥,𝑦,𝑧,𝜃,𝜙)

这种表示具有可微性和紧凑性,但依赖体积光线步进(ray marching),计算开销大。需注意,颜色 c 通常与视角相关,而密度 σ 仅与位置相关。

显式辐射场(Explicit Radiance Field)

显式辐射场通过离散结构(如体素网格或点云)直接存储光场数据,其形式为:
(𝑐,𝜎)←DataStructure(𝑥,𝑦,𝑧,𝜃,𝜙).

其中 DataStructure 可以是体素、点云等,其颜色编码方式分为两类:高维特征+轻量MLP解码:先存储特征向量,再通过小型MLP解码出颜色;方向基函数系数(如球谐函数、球面高斯):直接存储基函数系数,通过视角方向计算最终颜色。
显式方法访问数据更快,但内存占用高且分辨率受限。

3D高斯泼溅(3D GS):融合隐式与显式优势

3D GS 是一种显式辐射场,但吸收了隐式场的优点。其核心创新在于:

  1. 可学习3D高斯作为基本单元:每个高斯直接编码不透明度 α(而非传统方法先计算密度 σ 再转换);
  2. 混合优化策略:结合神经网络的优化能力与显式数据存储结构,在可微渲染管线中通过多视图图像监督优化高斯参数;
  3. 高效与高质量兼顾:避免了NeRF的昂贵光线步进,支持实时渲染,同时训练时间更短,尤其适合复杂场景和高分辨率输出。
Fig.3

2.2 上下文与术语

体渲染(Volumetric Rendering)

目标是通过沿相机光线积分辐射值,将3D体积表示转换为2D图像。一条相机光线 r(t) 可参数化为:

其中 o 是光线起点(相机中心),d 是光线方向,t 表示沿光线的距离范围。像素颜色 C(r) 的计算公式为:

其中:

σ(r(t)) 是点 r(t) 处的体积密度;

c(r(t), d) 是该点沿方向 d 的颜色;

T(t) 是透射率(衡量光线未被遮挡的概率)。

光线步进(Raymarching) 是体渲染的离散近似方法,沿光线逐步采样并计算积分。NeRF 采用类似方法,但引入重要性采样(importance sampling) 和位置编码(positional encoding) 以提高渲染质量。然而,光线步进计算成本高昂,尤其在高分辨率渲染时效率较低。

基于点的渲染(Point-Based Rendering)

与体渲染不同,基于点的渲染算法直接对点云进行光栅化。传统方法(如固定大小的点渲染)容易产生空洞和伪影,而改进方法包括:

  1. 空间扩展的泼溅(Splatting):为点赋予空间范围(如椭球或高斯分布),减少渲染瑕疵
  2. 神经点特征(Neural Point Features):在点中嵌入神经特征,再通过网络解码渲染。

3D GS 的创新点:

  • 采用3D高斯作为基本渲染单元,显式存储颜色、不透明度等属性(而非隐式神经特征);
  • 使用基于点的α混合(Point-Based α-Blending),其成像模型与NeRF体渲染(Eq. 3)数学等效,但计算方式不同:NeRF 需沿光线密集采样计算积分,计算量大;3D GS 通过光栅化直接渲染高斯点,天然适合并行计算,速度优势显著。

核心差异总结

3. 3DGS原理

3.1 用学习得到的 3D 高斯进行渲染

这一部分主要讲述:如何利用 3D 高斯表示进行图像渲染,并对比 NeRF 的体积渲染方式,介绍 3DGS 中的三个关键技术环节:高斯定义、视锥剔除、Splatting 渲染

✅ 渲染任务目标:

  • 输入:一个由数百万个 3D 高斯表示组成的场景

  • 输出:从某一相机视角(camera pose)渲染生成的图像

🔁 NeRF 与 3DGS 渲染方式的对比:

方法 NeRF 3D Gaussian Splatting
渲染机制 每像素沿射线进行体积采样(raymarching) 将 3D 高斯投影到 2D 平面(splatting)
效率 渲染慢,难以实时 渲染快,支持实时甚至高分辨率
应用限制 对资源要求高,难上移动端 更适用于实时系统、AR/VR

两者几乎可视为“逆过程”:NeRF 从像素回溯采样 3D,3DGS 从 3D 投影到像素。

渲染流程详解

1️⃣ 定义:3D 高斯的属性(Learned 3D Gaussian)

一个 3D 高斯是渲染中的最小单位,具备以下属性:

属性 说明
μ 中心点位置(position)
α 不透明度(opacity)
Σ 3D 空间协方差矩阵(形状/范围)
c 颜色(color),通过球谐函数(spherical harmonics)建模视角相关颜色

所有属性均可学习,并通过反向传播进行优化。


2️⃣ 视锥剔除(Frustum Culling)

  • 目的:排除那些位于相机视锥体(frustum)之外的高斯点,减少无效计算。

  • 做法:依据当前相机位姿,仅保留处于视锥内的高斯参与后续投影。


3️⃣ Splatting(投影渲染)

✅ 概念:

  • 将 3D 高斯(椭球)投影成图像平面上的 2D 高斯(椭圆)

  • 核心过程分两步:

    1. 坐标变换:将世界坐标系下的高斯转换到相机坐标系(使用相机视角变换矩阵 W)

    2. 高斯投影:使用仿射近似进行透视变换,将其从 3D 投影到 2D 图像平面

✅ 数学公式:

给定 3D 协方差矩阵 Σ 和相机变换矩阵 W,2D 投影后的协方差矩阵 Σ′ 为:

其中:

  • W:3D 到相机空间的变换矩阵

  • J:透视变换的仿射近似雅可比矩阵(Jacobian)

  • J 来自透视投影的泰勒展开前两项(参见文献 [39])

⚠️ 标准的相机内参矩阵无法直接作用于协方差 Σ,因为透视变换是非线性的。3DGS 采用一种仿射近似方法,可在数学上保持可微性和高效性。

✅ 小结:

3D Gaussian Splatting 利用“splatting”而非“raymarching”进行图像生成,大幅减少渲染计算量。其核心渲染流程包括:

  1. 表示场景为多个可学习的 3D 高斯点

  2. 剔除视野外无效高斯

  3. 投影 + 排序 + 累积实现图像生成

该流程支持高速、可微、实时渲染,是 NeRF 的一种高效替代范式。

逐像素渲染机制(Rendering by Pixels)

👉 渲染步骤:
  1. 像素与高斯距离计算
    对于图像中某一像素点 x,计算其与所有重叠高斯之间的深度距离(通过视图变换矩阵 W 得到),形成一个深度排序的高斯列表 N

  2. Alpha 混合(α-Blending)
    使用如下公式计算像素的最终颜色 C:

  • c_{n}​:第 n 个高斯的颜色

  • \alpha _{n}^{'}​:加权不透明度,结合高斯函数与可学习参数定义如下:

     
    • \alpha _{n}:可学习的不透明度

    • \mu _{n}^{'}​、x′:投影空间中的高斯中心和像素位置

    • \Sigma _{n}^{'}​:投影空间下的协方差矩阵

⚠️ 存在问题:

该方法逐像素地遍历并排序高斯点,难以并行化,效率远低于 NeRF 的统一射线采样,因此不能满足实时渲染需求。

提升策略一:图像切块(Tiles / Patches)

为突破效率瓶颈,3DGS 借鉴了**基于瓦片的光栅化(tile-based rasterization)**思想:

👉 思路:

  • 将图像划分为多个 不重叠的 tile(块),通常大小为 16×16 像素

  • 对每个 tile,判断哪些高斯投影与其发生重叠

👉 实现:

  • 高斯复制(Gaussian Replication)
    一个高斯可能同时影响多个 tile,因此需“复制”高斯,分别赋予每个副本对应 tile 的 ID,供后续并行渲染使用。

提升策略二:并行渲染(Parallel Rendering)

3DGS 接下来通过 tile ID + 深度构造一个可排序的键值结构,用于高效并行渲染。

👉 核心做法:

  • 将高斯的 tile ID 放在高位、深度值放在低位,组成一个 byte 序列

  • 使用该结构进行排序后,可直接用于 alpha compositing(即逐层叠加计算像素颜色)

👉 优点:

  • 每个 tile 可独立渲染,tile 内的像素也可并行执行

  • 每个 tile 的像素共享缓存,提升 memory 访问效率

  • 映射到 CUDA 架构中:

    • tile ↔ block

    • pixel ↔ thread

📸 多张照片
   │  
   ▼
🧠 SFM重建 → 稀疏点云 + 相机位姿
   │    
   |  (得到:几千到几万个 3D 点、每个点的位置、每个相机的位置和朝向(相机矩阵))
   |
   ▼
🌐 初始化为数万个 3D 高斯(位置+颜色+透明度+形状)
   │
   |  𝜇:3D 空间中的位置中心点
   |  Σ:3×3 的协方差矩阵,表示它的形状(椭球的方向和大小)
   |  α:不透明度,控制它“在图像中是否显著”   
   |  c:颜色,一般用球谐函数表示(支持视角相关)
   |  📌 初始时这些值是随机或规则初始化的,随后都会通过优化学习得到最优值
   ▼
🎯 优化高斯参数(训练过程)
   │  用一种 NeRF 类似的思想:从不同视角拍的真实照片中,来优化这些高斯的参数
   |  步骤:1.从某个相机视角“看向”这些高斯 → 把它们投影到 2D 图像上
   |
   |        2.使用一种叫 高斯溅射(Gaussian Splatting) 的方法进行渲染,得到一个合成图像
   |
   |        3.把合成图像和真实照片进行对比(L1 / L2 损失 + 结构损失等)
   |
   |        4.用梯度下降不断更新所有高斯的参数(位置、透明度、形状、颜色)
   |
   | 这整个过程会遍历很多张图片,优化所有高斯,直到生成图像和真实照片尽量一致。
   |
   ▼
🧃 投影到图像平面(splatting)
   │   
   |  3D Gaussian Splatting 做的事就是:把 3D 空间中的高斯点,在某个相机视角下“投影”成 2D 图像上 
   |  的“模糊光斑”(椭圆形),过程如下:
   |       1.投影 Projection:每个 3D 高斯通过相机矩阵被投影到图像平面上(变成一个 2D 高斯),协 
   |         方差矩阵也从 3D 转换为 2D,变成椭圆大小和方向
   |       2.排序 Sorting:对所有落在某个像素或 tile 上的高斯点,按深度从近到远排序
   |       3.混合 Alpha blending:使用公式把颜色和透明度混合出这个像素的最终颜色
   |                             (越近的点影响越大,越透明的点权重越小)
   |
   ▼
🎨 混合出颜色(alpha blending)
   |
   ▼
🧠 提速:tile-based 并行渲染(支持实时)
“按块算”(Tile-based rendering):整张图像被分成多个小 tile(例如 16x16),每个 tile 分配一组高斯;所有 tile 并行处理,每个 tile 内部也并行处理每个像素。这样就能完美使用 GPU 的 CUDA block/thread 架构,实现 实时渲染!
最后渲染结果:从任意角度、任意距离实时查看场景;不需要像 NeRF 那样“采样 + MLP + raymarch”,渲染速度快几十倍!保持较高画质,还能动态加载(比如 Niantic 的 SPZ 格式就是这么做的)
3D GS 的正向过程图示(参见第 3.1 节)(a) 展开步骤将 3D 高斯投影到图像空间中。(b) 3D GS 将图像划分为多个不重叠的块,即平铺。(c) 3D GS 复制覆盖多个瓦片的高斯分布,为每个副本分配一个标识符,即瓦片 ID。(d) 通过渲染排序的高斯分布,我们可以获得瓦片内的所有像素。请注意,像素和切片的计算工作流程是独立的,可以并行完成。

3.2 3D 高斯 Splatting 的优化流程

3.2.1 参数优化(Parameter Optimization)

目标: 利用可微 splatting 渲染,将合成图像与真实照片对齐,并通过梯度下降更新所有高斯参数。

损失函数:结合 L1 / L2 颜色误差 + D-SSIM 结构相似度,控制逼真效果和平滑度,可以写为:

  • 优化的参数包括

    • 每个高斯的 位置 μ\muμ、透明度 α\alphaα、

    • 颜色球谐系数 ccc(支持视角依赖)

    • 协方差矩阵 Σ\SigmaΣ

  • 协方差矩阵的稳定优化

    • 直接训练 Σ\SigmaΣ 容易让其失去正定属性,影响物理意义。

    • 解决方案:学习一个 四元数表示的旋转 qqq 和一个 3D 缩放向量 sss;
      然后通过:

来生成稳定的协方差矩阵 。

效率优化

  • 相比自动求导整个流程,通过推导公式显式计算梯度,加快优化速度 。

3.2.2 自适应密度控制(Density Control)

场景中适当的 Gaussian 数量不同,3DGS 设计了 动态增加(densification)和删减(pruning) 的迭代机制:

🟢 增加高斯密度(Point Densification)
  • 议题:场景中某些区域出现几何缺失或点过稀时,需要补点。

  • 方式

    • 寻找 视空间位置梯度大 的高斯(表示重建不足),然后:

      • 复制高斯 并沿梯度方向初始激活;

      • 分裂一个大 Gaussian 为两个更小个体,通过缩放分裂策略刷新;

  • 目的:重建细节区域,使重建更均匀丰富 arxiv.org+15arxiv.org+15arxiv.org+15

🔴 删减冗余节点(Point Pruning)
  • 动机:避免不必要的计算开销与视觉误差。

  • 策略

    • 删去 几乎透明 的 Gaussian(α 很小);

    • 去除在世界空间或视空间中显得异常巨大的 Gaussian;

    • 在训练中期时,将靠相机非常近的 Gaussian α 降为接近 0,防止摄像机附近节点过度密集 。

  • 目标:提升表示效率,控制粒子数量并保持训练稳定、表达完整。

🔁 两者交替进行 🎯

上述两个过程会在训练中交替进行

  1. 优化参数,强化节点对当前视角的视觉准确性;

  2. 根据梯度与 α 信息动态增加或删除高斯;

  3. 重复以上步骤直至画质收敛。

总结一览

模块 方法 效果 / 目的
参数优化 学习 μ、α、c、q(旋转)、s(缩放) 生成可优化的协方差,提升画质与稳定性
损失函数 L1 + D‑SSIM 保证结构与视觉一致性
协方差处理 四元数 + 缩放分解 避免 Σ 非正定
加密 / 分裂高斯 依据位置梯度克隆或分裂大高斯点 重建场景细节
删除冗余高斯 移除透明或过大节点,控制局部密度 降低计算与存储开销

4.发展方向

4.1 针对稀疏输入的 3D Gaussian Splatting

问题背景:

3D Gaussian Splatting(简称 3D GS)在可观察视角有限时(如拍摄角度少),容易在图像重建中产生几何畸变或纹理缺失的问题。

这是辐射场重建(Radiance Field Rendering)中的通病 —— 当输入图像稀疏时,模型很难还原完整的场景几何与外观。

现有解决方案可分为两类:

一类:基于正则化的方法(Regularization-based)

通过引入先验约束(如深度)来增强稀疏条件下的建模效果。

  • DNGaussian :加入深度正则项,有效缓解几何退化;

  • FSGS:设计了 Gaussian Unpooling 的初始化机制,同时引入深度约束;

  • MVSplat:构建了 cost volume 表征,用于提供几何提示。

🧨 不足:当视角数量极少(如仅有一张图)时,这类方法的性能显著下降,鲁棒性不足。


二类:基于泛化建模的方法(Generalizability-based)

通过学习先验模型,提高模型从少量视图中生成完整场景的能力。

  • 生成视图补全(View Synthesis):借助生成模型(如 NeRF-W)生成更多视图,然后并入重建流程;

    • 🧨 缺点:计算开销大,且效果依赖于生成模型的泛化能力。

  • 前馈式高斯建模(Feed-forward Gaussian Models)

    • PixelSplat :从密集概率分布中采样高斯;

    • Splatter Image:通过图像到高斯的映射网络,将 2D 图像像素转换为 3D 高斯。

🧨 问题:这些方法生成的高斯是像素对齐、均匀分布的,难以精准覆盖细节区域和光滑曲面。


🧭 当前挑战与展望:

  • 核心挑战:如何在“过拟合视图”“先验泛化”之间做平衡;

  • 未来方向:

    • 引入置信度机制:基于上下文或用户偏好动态选择建模先验;

    • 扩展到动态场景:考虑时间一致性、运动模糊等因素,是重要研究前沿。

4.2 内存高效的 3D GS(Memory-efficient 3D GS)

问题背景:

与 NeRF 相比,3D GS 不需要 MLP 网络,但需要大量高斯点(上百万个)来表达场景,导致:

  • 内存开销大(远高于存储一个小型神经网络);

  • 大规模场景(如室外城市)渲染和训练时资源瓶颈明显。

两类优化方向:


① 减少高斯数量

  • 体素掩膜裁剪(volume-based masking) [58]:

    • 删除视觉影响小的高斯点,降低数量和渲染冗余。

  • 共享属性(共享 anchor)表示

    • 邻近高斯共享颜色等属性,减少重复存储:

      • 如:局部锚点共享(local anchor)

      • 哈希网格共享(hash-grid) [62];

      • 聚类共享 [22]。


② 压缩高斯属性

  • 代码本压缩(codebook compression)

    • 如 [61] 将颜色和协方差编码进压缩表(codebook),再通过灵敏度指标进行微调。

  • 自适应量化(adaptive quantization)

    • HAC [62]:对高斯属性分布进行建模后进行可学习的量化压缩。

📌 这些策略可以组合使用,即一套系统可同时做高斯裁剪 + 属性压缩。


🧭 面临的挑战:

  • 训练过程中的内存优化尚不成熟(如量化感知训练仍在探索中);

  • 如何构建通用场景的可复用压缩字典(codebook)

  • 如何在压缩率与渲染质量之间取得更好的折中

4.3 Photorealistic 3D Gaussian Splatting(真实感提升)

背景:

当前的 3D GS 渲染流程(见第 3.1 节)虽然计算高效,但在图像质量方面仍有不足,主要问题包括:

  • 可见性算法过于简单 → 导致深度顺序切换不自然;

  • 存在混叠、反射效果差、模糊等问题;

  • 渲染真实感仍远逊于传统渲染或高质量 NeRF。

当前研究集中优化的三个视觉质量方向:

① 混叠问题(Aliasing)

  • 原因:3D GS 使用点采样(每像素视为一个点),在多分辨率/边缘区域导致锯齿或模糊。

  • 训练阶段改进

    • Multi-scale Gaussian [67]:多尺度建模,兼顾不同分辨率;

    • Mip Filter [65]:借鉴传统渲染的层级模糊滤波;

    • Logistic Function 调制 [78]:对密度函数做平滑处理。

  • 推理阶段改进

    • Scale-adaptive Filtering [80]:自动调整滤波大小以匹配分辨率变化,兼容所有框架。


② 反射效果差(Reflection)

  • 反射物体难以建模,一直是重建领域的难题。

  • 新研究:

    • 提出 可重光照高斯(relightable Gaussians) [23];

    • 建模镜面反射材质 [68][73][99];

    • 但要实现物理准确的镜面反射仍然十分困难。


③ 模糊问题(Blur)

  • 实际数据集中常出现运动模糊、失焦模糊等问题。

  • 解决方案:

    • 模糊建模:显式在训练中考虑模糊核;

    • 如:

      • Coarse-to-fine 模糊核优化 [74];

      • Photometric Bundle Adjustment [75]:多帧联合优化照片一致性。


🎯 总结思路:

  • 当前解决方案多为“一对一解决策略”:即哪个问题就解决哪个;

  • 更理想的做法应是建立自动检测问题 → 自动选择优化方式的机制;

  • 目标是构建一个全能型重建系统,或是从头重建 3D GS 渲染管线。

4.4 Improved Optimization Algorithms(优化算法改进)

🎯 背景:

3D GS 的优化过程存在以下关键问题:

  • 收敛慢;

  • 高斯点分布不均,造成有些区域重建过密、有些区域模糊或缺失

  • 正则化不足,导致结构不清晰外观失真


🔍 目前优化算法的三个方向:


① 正则化增强(Regularization)

  • 频率正则化 [84]:限制高频信息,避免过拟合;

  • 几何正则化

    • 使用 anchor 点 [22]、深度/表面约束 [100]~[102];

    • 引入高斯体积建模(Gaussian Volumes)[103],保持几何一致性。


② 优化策略增强(Optimization Procedure)

  • 原始方法(见第 3.2 节)虽有效,但还可提升:

    • 例如:GaussianPro [44] 针对大场景/光滑区域提出更稳健的 densification 策略;

    • 改进点初始化方式、避免贴图区域稀疏。


③ 约束松弛(Constraint Relaxation)

  • 当前依赖 SfM 等工具初始化,误差较大,限制性能上限;

  • 新研究探索 “COLMAP-free” 方法

    • 如基于连续流(stream continuity)的直接高斯建模;

    • 支持从互联网视频中自动学习场景


🧠 未来方向探索:

  • 多数研究集中在“从零优化高斯表示”,但忽略了更具潜力的

    • 少量样本重建(few-shot reconstruction)

    • 元表示学习(meta representation)

      • 即:融合“场景通用知识”与“场景特定信息”,进行快速适应。

4.5 Augmented 3D Gaussians:加入更多属性的3DGS

虽然3D Gaussians 最初只为 新视角合成(novel view synthesis) 设计,但研究者发现它还能通过融合更多属性信息,拓展到语义理解、语言交互、时空建模等多领域任务。

三类扩展属性与应用方向:

① 语言嵌入场景建模(Language Embedded Scene Representation)

  • 高维语言嵌入成本高,Shi 等人 [87] 提出:

    • 压缩嵌入(quantized language embedding)

    • 结合语义不确定性引导的平滑机制

    • 提升跨视角语义一致性与开放词汇查询准确度


② 语义理解与编辑(Scene Understanding & Editing)

  • Feature 3DGS [90]:从2D大模型中蒸馏语义特征;

  • 构建低维语义场 → 用小型卷积解码器上采样;

  • 应用包括:

    • 场景语义分割、

    • 文本引导编辑(text-guided editing)、

    • 快速训练与实时渲染。


③ 时空建模(Spatiotemporal Modeling)

  • Yang 等人提出 [93]:

    • 4D 高斯点(带时间维度)

    • 统一建模动态场景的时空变化;

    • 渲染支持任意旋转 + 时序变化

    • 可进行端到端训练。

4.6 Hybrid Representations:混合式表示增强任务适应性

除了直接扩展属性,另一方向是将 3D Gaussians 与结构化信息(如 MLP、网格等)融合,提升其对特定任务的适配能力。


三类典型混合表示场景:

① 表情建模(Facial Expression Modeling)

  • Gaussian Head Avatar [96]:

    • 使用可控 3D Gaussians + MLP形变场

    • 同时优化“中性面部高斯”与“动态变形”;

    • 实现稀疏视角下高保真表情建模。


② 动态建模(Spatiotemporal Modeling)

  • Yang 等人 [94]:

    • 引入形变高斯点,学习在 canonical 空间;

    • 使用 空间 MLP 表示时空动态;

    • 增加“退火平滑机制”提升时间一致性,且无额外计算开销。


③ 风格迁移(Style Transfer)

  • GS in Style [107]:

    • 利用预训练高斯点 + 多分辨率哈希网格 + 小型 MLP;

    • 实现实时场景风格化;

    • 保证多视角一致性与高渲染速度。

总结:

结构信息作为“外骨骼”填补高斯点的稀疏性与无序性短板,使其更适用于编辑、风格化、动画等任务。

4.7 新型渲染算法:从光栅化到光线追踪

虽然 3DGS 的光栅化渲染方式(基于排序 + 局部高斯加权)非常高效,但仍存在多个结构性缺陷,尤其在复杂相机/光效/几何重叠等场景下表现不足。


🔧 主要问题:

  • 难以处理:

    • 畸变相机(如鱼眼、Rolling Shutter)

    • 二次光线(反射、阴影)

    • 随机采样(如光照模拟)

  • 高斯点之间常常 重叠,仅靠中心排序会导致:

    • “图像跳跃”(popping artifacts)

    • 时序不一致(Temporal instability)


🌟 替代性方案:光线追踪(Ray Tracing)3D Gaussian 渲染


① GaussianTracer [108]

  • 首次提出“高斯光线追踪渲染管线”;

  • 为非均匀高斯分布设计高效加速策略

  • 支持不连续密度和交叉分布的快速遍历。


② EVER [109]

  • 提出物理精确的“恒定密度椭球体”表示;

  • 可以精确求解体积渲染积分,避免近似;

  • 消除跳帧与边缘模糊问题。

展望与潜能:

新能力 说明
✅ 全光照支持 反射、折射、全局光照等
✅ 复杂相机建模支持 鱼眼镜头、运动快门等
✅ 高物理精度渲染 真正支持方向性外观估计(非 tile approximation)
✅ 可用于逆向渲染与材质建模 支持物理场景理解、可重光照等

但目前仍存在计算成本高的问题,是未来研究的关键方向之一。

5.未来研究方向(Future Research Directions)

尽管 3D Gaussian Splatting(3DGS)已经在多项任务上取得显著成就,但目前仍存在大量尚未开发的潜力和研究空白,主要可归纳为以下五大研究前沿:

1️⃣ 物理与语义感知的场景表示(Physics- and Semantics-aware Scene Representation)

  • 核心观点:将物理规则与语义信息整合到3D GS中,可大幅提升几何、纹理、光照等方面的表示质量。

  • 当前现状:已有不少单独研究关注物理或语义建模,但两者的协同融合仍属空白领域。

  • 潜在价值

    • 改善建模质量(几何/表面重建等)

    • 支持动态建模、场景编辑与生成任务

    • 降低训练视角数量需求(利用先验知识)

  • 应用方向:场景理解、计算创作(computational creativity)、增强现实等。


2️⃣ 基于大规模数据学习物理先验(Learning Physical Priors from Large-scale Data)

  • 目标:从2D/3D大规模数据中提取通用物理属性,用于更好地建模现实世界。

  • 应用前景

    • 快速适配新物体和新环境(few-shot learning)

    • 提高虚拟场景的交互性与动态表现力,尤其适用于 AR/VR 领域。

  • 挑战

    • 当前从数据中提取物理知识的研究仍较稀缺。

    • 有价值的路径包括:real2simsim2real 桥接。

  • 已有探索:连续力学(continuum mechanics)方法、基于MVS的高斯表示等。


3️⃣ 建模对象内部结构(Modeling Internal Structures of Objects)

  • 现有问题

    • 当前3D GS通过点云“溅射”(splatting)构建表示,无法准确对齐物体内部结构

    • 这对需要体积建模(如CT扫描、医学影像)等应用是重大限制。

  • 已有尝试

    • Li 等使用密度控制不使用 splatting 建模体积;

    • X-Gaussian使用 splatting 但无法生成体积结构。

  • 未来方向

    • 建立适用于体积建模的 3D GS 框架;

    • 支持真实结构建模与分析。


4️⃣ 3D GS 在自动驾驶仿真等场景中的应用(3D GS for Simulation in Autonomous Driving and Beyond)

  • 问题背景

    • 自动驾驶数据获取成本高,仿真成为替代方案。

  • 关键挑战

    • 构建高质量、可控、真实感强的虚拟数据生成器。

  • 当前探索:已有初步尝试重建城市街景(如 [188]–[190]),但尚处于初级阶段。

  • 需进一步突破的点

    • 支持用户定义模型

    • 模拟物理变化(如轮胎转动)

    • 多光照、多环境模拟

  • 应用展望

    • 计算空间理解

    • Embodied AI(具身智能)

    • 世界模型(World Models)


5️⃣ 赋予3D GS更多功能与属性(Empowering 3D GS with More Possibilities)

  • 方向一:增强属性

    • 引入更多信息:语言(linguistic)、时空(spatiotemporal)属性等

  • 方向二:结构建模

    • 融入空间MLP、网格结构(如 Sec. 4.6)以提升表达能力

  • 已探索应用

    • 点云配准(Point Cloud Registration)

    • 图像表示与压缩

    • 流体合成(Fluid Synthesis)

  • 强调:鼓励跨学科深入探索,打开新的研究与应用边界。


 总结

虽然3D Gaussian Splatting已在新视图合成等领域取得显著进展,但其潜力远未完全释放。未来的研究可以围绕物理与语义感知表示从大数据中学习物理先验建模内部结构用于自动驾驶仿真以及增强功能属性与跨学科扩展等方面展开。这些方向不仅将提升模型的准确性与表达力,也将促进3D GS在计算机视觉、机器人、AR/VR、医学影像等多个领域的应用落地。


网站公告

今日签到

点亮在社区的每一天
去签到