论文地址:https://arxiv.org/pdf/2504.09048
大规模场景的重建方法不仅仅对于高空航拍数据有效,而且对于地面大中场景也有增强效果,故专门来学习一下这一方向的知识。感谢作者大佬们的great work。
Abstract
三维高斯泼溅(3DGS)技术的最新进展在新视角合成任务中展现出非凡潜力。分治策略虽已实现大规模场景重建,但在场景分区、优化与融合环节仍存在显著挑战。本文提出BlockGaussian创新框架,通过内容感知的场景分割策略和可见性感知的区块优化技术,实现高效优质的大规模场景重建。具体而言,我们的方法基于不同区域的内容复杂度差异进行动态分区,从而平衡计算负载,提升重建效率。针对区块独立优化时的监督失配问题,我们在单个区块优化过程中引入辅助点以对齐真实监督信号,显著提升重建质量。此外,伪视角几何约束有效缓解了区块融合时因空域漂浮物导致的渲染质量下降。在大规模场景上的实验表明,本方法在重建效率和渲染质量上均达到最先进水平:优化速度提升5倍,在多个基准测试中平均PSNR提高1.21 dB。值得注意的是,BlockGaussian大幅降低了计算资源需求,仅需单块24GB显存设备即可完成大规模场景重建。
1.INTRODUCTION
大规模场景的高保真实时新视角合成对自动驾驶[1]–[3]、虚拟现实[4][5]、遥感摄影测量[6][7]以及具身智能等应用至关重要。当前主流新视角合成方法主要分为两类:基于神经辐射场(NeRF)的方法[8]–[11]与基于高斯泼溅的技术[12]–[14]。神经辐射场(NeRF)[8]凭借隐式表示实现高保真渲染的能力,已被扩展至大规模场景重建任务[15]–[17]。尽管Block-NeRF[17]完成了旧金山街区的大规模重建,但以MLP网络为最小单元的场景表示缺乏灵活性且渲染速度缓慢。作为替代方案,3D高斯泼溅[12]展现出更显著潜力,其显式点云场景表示对大规模场景更具可扩展性[18]–[21],尤其是快速的渲染速度。
[18] B. Kerbl, A. Meuleman, G. Kopanas, M. Wimmer, A. Lanvin, and
G. Drettakis, “A hierarchical 3d gaussian representation for real-time
rendering of very large datasets,” ACM Transactions on Graphics (TOG),
vol. 43, no. 4, pp. 1–15, 2024.
[19] J. Lin, Z. Li, X. Tang, J. Liu, S. Liu, J. Liu, Y. Lu, X. Wu, S. Xu, Y. Yan
et al., “Vastgaussian: Vast 3d gaussians for large scene reconstruction,”
in Proceedings of the IEEE/CVF Conference on Computer Vision and
Pattern Recognition, 2024, pp. 5166–5175.
[20] Y. Liu, C. Luo, L. Fan, N. Wang, J. Peng, and Z. Zhang, “Citygaussian:
Real-time high-quality large-scale scene rendering with gaussians,” in
European Conference on Computer Vision. Springer, 2024, pp. 265–282.
[21] Y. Chen and G. H. Lee, “Dogs: Distributed-oriented gaussian splatting
for large-scale 3d reconstruction via gaussian consensus,” Advances in
Neural Information Processing Systems, vol. 37, pp. 34 487–34 512, 2025.
[15] H. Turki, D. Ramanan, and M. Satyanarayanan, “Mega-nerf: Scalable
construction of large-scale nerfs for virtual fly-throughs,” in Proceedings
of the IEEE/CVF conference on computer vision and pattern recognition,
2022, pp. 12 922–12 931.
在显存资源限制下,分治范式[15][19][20]已成为大规模场景新视角合成的主流方法。通过将场景划分为子区域,多GPU并行显著提升了重建速度。该范式包含三个关键阶段:场景分区、独立区块优化和区块重建结果融合。这些阶段存在严格的顺序依赖性——每个后续阶段的输入完全依赖于前序阶段的输出。最终重建质量取决于各阶段的有效性。现有研究方法虽已建立基线,但这些步骤仍存在挑战:区块间重建复杂度不均衡、区块优化中的监督失配以及融合结果的质量退化。以下是对这三种挑战的解读:
a)区块间重建复杂度不均衡
区块间重建复杂度不均衡源于不合理的场景划分,这会降低大规模场景重建效率(尤其在多GPU设备上)。如图2(a)所示,均匀网格划分忽略了不同区域的内容差异(有的地方建筑物密集,有的地方稀疏)。场景划分需考虑两个关键因素:区块划分的粒度与跨区块计算负载。前者需关注不同场景区域的复杂度,对高兴趣度或更复杂区域采用更细粒度;后者旨在平衡跨区块计算负载,从而减少多GPU下整体场景的训练时间。VastGaussian[19]提出渐进式数据划分策略(基于相机位姿划分场景),DOGS[21]则改进该方法,通过递归方式平衡跨区块计算负载。但基于相机位姿的划分受限于相机空间分布,难以推广至视角分布更复杂的场景。CityGaussian[20]首次训练粗粒度高斯作为场景先验,并据此进行网格划分,但该方法需预训练粗粒度高斯模型,未能完全解耦场景规模与优化过程。
b)区块优化中的监督失配
区块优化中的监督失配会导致区块内伪影,降低场景重建质量。在大规模场景重建的分治范式下,全局场景表示的缺失导致独立区块优化时出现可见性问题。如图2(b)所示,场景划分后,训练视图的内容可能分布于多个区块,单个区块仅对应图像范围的部分区域。因此在重建目标区块时,损失计算会出现渲染图像与训练视图的失配,原因包括:a)目标区块的渲染过程忽略区块间遮挡关系;b)未优化区块表示难以计算精确边界。噪声监督会干扰高斯参数在端到端优化中的梯度,导致重建结果退化。
b)说的太抽象了,没有必要,重新解释一下:
总结:
1)目标区块的渲染过程忽略区块间遮挡关系:全局场景中,数据集的某些视图中具有遮挡是一个很常见的情况,我们考虑这种情况,如果分出来的局部区块刚好就只有前面那些视图中被遮挡的对象,也就是说,该局部区块的高斯球在渲染过程中,这个被遮挡对象是完全可见无遮挡的,如果忽略,那么也就意味着全局监督信号出现了错乱:“某些视图中该区域到底该不该遮挡?”,导致伪影。
2)未优化区块表示难以计算精确边界:边界问题很重要,因为局部区块只渲染该区块可见,相当于其他区域是空的(如果训练过程中单独渲染该区块,出来的图像应该是该区域之外一片黑),因此渲染的图片中没有其他区域的信息,但是训练视图是包含所有信息的!
有的人可能会想,我给训练图像中当前分块区域之外加个mask,不计算入loss不行就行了,这个想法很自然,但是如果考虑具体实现的话,这个想法就有点简单了,因为我们划分区块是按照稀疏点云,我们如何能精准的知道图片中的mask呢?这是一个复杂低效的工程!
因此我们无法避免这个局部区域边界的问题。
c)避免质量退化的无缝场景融合
避免质量退化的无缝场景融合是另一关键挑战。独立区块优化因缺乏精确几何监督易在空域产生漂浮物,导致退化解(如图2(c)),这会显著降低区块融合后的渲染质量。因此,充分的空域监督对场景训练至关重要。VastGaussian[19]尝试通过增加训练视图并设计空域感知的可见性计算方法(基于区块边界投影多边形比例选择视角)来解决该问题,但该方法存在两局限:忽略区块间遮挡关系,且所选视角易引入区块外额外区域,造成视角选择与充分监督间的矛盾。
d)本文做法与效果
针对这些挑战,我们提出BlockGaussian框架。场景划分阶段,我们提出基于空间的内容感知场景划分方法(Content-Aware Scene Partition),根据运动恢复结构(SfM)[22]先验过程输出的稀疏点云动态精细划分场景,同时统筹多区块计算负载。为缓解独立区块重建的监督失配问题,我们重构单区块优化问题并提出可见性感知优化算法:在优化过程中引入辅助点云自适应表示训练视图的不可见区域。实验验证了辅助点云的有效性。针对空域监督,鉴于场景遮挡关系的复杂性,直接选择能为当前区块提供充分空域监督的视角具有挑战性。不同于VastGaussian[19],我们设计伪视角几何约束(Pseudo-View Geometry Constraint):扰动训练相机位姿生成伪视角,利用渲染深度图将真实图像从原始视角变形,并计算伪视角渲染图像的损失。该约束显著提升了区块融合质量(尤其对交互式渲染)。
实验表明,BlockGaussian有效解决了大规模场景重建的挑战。如图1所示,在重建质量与速度方面,本方法在多个场景中均达到最先进水平(SOTA):优化速度提升5倍,平均PSNR提高1.21 dB。可在单块24GB显存GPU上顺序执行或跨多GPU并行。此外,本方法在航拍场景与街景中均表现优异。我们的贡献可总结为:
- 提出基于空间划分范式的BlockGaussian框架,动态平衡区块划分粒度与跨区块计算负载;
- 重构单区块训练过程,通过引入辅助点云解决渲染图像与监督视角的失配问题;
- 设计伪视角几何约束监督空域,有效缓解区块融合时空域漂浮物导致的渲染质量退化。
2.RELATED WORK
大场景重建的研究现状
a)传统流程
传统场景重建流程[22][44]通常包含特征提取与匹配、相机参数估计、稠密重建、网格化及纹理贴图等串行步骤,通过多阶段协作恢复场景几何与外观。其中运动恢复结构(SfM)技术负责特征提取、匹配和相机参数估计,输出相机位姿与场景稀疏点云。基于特征点与光束法平差的SfM框架因其稳定性,至今仍是位姿估计与稀疏重建的主流方案。传统外观重建流程以相机参数为输入,通过多视图立体匹配(MVS)[45]–[49]生成稠密深度图,再经网格化[50]与纹理映射[51][52]得到基于网格的场景表示。
[22] J. L. Schonberger and J.-M. Frahm, “Structure-from-motion revisited,”
in Proceedings of the IEEE conference on computer vision and pattern
recognition, 2016, pp. 4104–4113.
[44] S. Agarwal, Y. Furukawa, N. Snavely, I. Simon, B. Curless, S. M. Seitz,
and R. Szeliski, “Building rome in a day,” Communications of the ACM,
vol. 54, no. 10, pp. 105–112, 2011.
[45] M. Bleyer, C. Rhemann, and C. Rother, “Patchmatch stereo-stereo
matching with slanted support windows.” in Bmvc, vol. 11, no. 2011,
2011, pp. 1–11.
[46] S. Galliani, K. Lasinger, and K. Schindler, “Massively parallel multiview
stereopsis by surface normal diffusion,” in Proceedings of the IEEE
international conference on computer vision, 2015, pp. 873–881.
[47] R. Chen, S. Han, J. Xu, and H. Su, “Visibility-aware point-based
multi-view stereo network,” IEEE Transactions on Pattern Analysis
and Machine Intelligence, vol. 43, no. 10, pp. 3695–3708, 2021.
[48] Z. Liang, Y. Guo, Y. Feng, W. Chen, L. Qiao, L. Zhou, J. Zhang, and
H. Liu, “Stereo matching using multi-level cost volume and multi-scale
feature constancy,” IEEE Transactions on Pattern Analysis and Machine
Intelligence, vol. 43, no. 1, pp. 300–315, 2021.
[49] Q. Xu, W. Kong, W. Tao, and M. Pollefeys, “Multi-scale geometric
consistency guided and planar prior assisted multi-view stereo,” IEEE
Transactions on Pattern Analysis and Machine Intelligence, vol. 45, no. 4,
pp. 4945–4963, 2023.
b)基于NeRF的方法
随着可微分渲染技术的发展,基于端到端优化的重建方法(如神经辐射场[8]与3D高斯泼溅[12])已超越传统分步方法。针对大规模场景,分治策略成为处理海量数据的通用方案:将场景网格化后分块优化,最终融合重建结果。
基于NeRF的方法包括:
- Block-NeRF[17]:从280万街景图像重建旧金山街区,通过改进NeRF架构处理瞬态物体与外观变化
- Mega-NeRF[15]:采用稀疏空间感知网络表示航拍场景,实现交互式渲染
- Switch-NeRF[16]:基于稀疏大尺度NeRF表示设计可学习场景分解
- Grid-NeRF[53]:将基于MLP的NeRF与特征网格结合编码局部/全局信息,但受限于NeRF固有的缓慢训练与渲染速度
c)当前基于GS的方法
基于高斯泼溅的方法凭借渲染速度优势,正成为大规模场景研究新方向::
- Hierarchy-GS[18]:提出分层表示并并行优化分块参数
- Scaffold-GS[54]:结合显隐式表示实现紧凑的高质量视图合成
- Octree-GS[55]:引入细节层次(LOD)与八叉树结构组织锚点高斯
与本文同期的工作包括VastGaussian[19]、CityGaussian[20]和DOGS[21],均采用"场景划分-视角分配-并行优化-场景融合"流程,但存在以下局限:
划分策略缺陷
VastGaussian的渐进式划分与DOGS的递归划分均依赖相机位姿分布,忽略了场景内容分布(比如城市中心地带高楼林立与边缘地带建筑物稀疏)与相机分布的非对齐性(如图3所示),导致动态地图加载等下游任务困难
CityGaussian需预训练全局粗粒度高斯模型指导划分,在有限算力下难以实施
优化与融合瓶颈
现有方法在分块优化时缺乏可见性感知机制,导致监督失配(如区块边界处渲染错误)
融合阶段因空域漂浮物(未受几何约束的高斯椭球)产生伪影
本文提出的BlockGaussian创新性体现在:
- 空间基自适应划分:基于SfM稀疏点云动态平衡区块粒度与计算负载,突破相机位姿分布限制
- 可见性感知优化:引入辅助点云建模不可见区域,解决监督失配问题(公式3推导了梯度修正项)
- 伪视角几何约束:通过相机位姿扰动生成虚拟监督信号,抑制空域漂浮物(算法1详细实现流程)
3.METHOD
0)公式设定
3D高斯泼溅利用三维空间中的离散高斯基元,每个高斯基元Gk包含以下可学习属性:
- 位置
- 旋转
- 透明度
- 缩放系数
- 球谐函数(SH)[56]系数
渲染流程
- 投影变换:每个3D高斯基元被投影至图像平面形成2D高斯分布
- 体渲染计算:通过alpha混合公式计算像素最终RGB值:
其中,C为像素颜色;为基于球谐特征
计算的RGB值;
为由2D高斯协方差与透明度
导出的透明度权重。
- 深度图生成:类似地,逐像素计算深度累积值:
其中,是相机空间中高斯基元中心点的深度值。
表示累积的透光率(transmittance),表示光线穿透前i-1个基元的概率。
优化过程
输入初始化:
- 已知视角集合
(含真实图像、相机旋转/平移参数)
- SfM生成的稀疏点云P
损失函数:最小化渲染图像与真实图像
的复合损失:
我们采用与先前研究[15][19]-[21]相似的分治范式,方法框架如图3所示。给定采集的图像集合,首先通过运动恢复结构(SfM)计算各视角的相机位姿与稀疏点云。随后通过内容感知场景划分模块(详见第IV-A节)迭代式将场景分割为区块并分配监督视图。接着在可见性感知区块优化(第IV-B节)下对各区块独立训练。第IV-C节阐述伪视角几何约束如何提供空域监督。最终通过第IV-D节的融合技术将所有区块无缝整合为统一场景表示。
A. Content-Aware Scene Partition
场景分区与视角分配是重建大规模场景的关键步骤。进行场景划分时,必须权衡区块粒度与并行优化速度之间的关系:
- 细粒度划分(多区块)能提升重建质量,但会导致速度下降
- 粗粒度划分(少区块)可加速重建过程,但会牺牲重建精度
因此,场景分区与视角分配需满足两个核心目标:
- 基于场景复杂度的自适应划分:根据空间场景结构的复杂度动态调整分区粒度,对高重要性/高复杂度区域采用更精细划分
- 计算负载均衡:确保各区块的计算负载均匀分布,这对多GPU场景重建的耗时优化至关重要
稀疏点云密度分布可作为场景内容复杂度的估计依据。基于此假设,我们采用递归方式将场景划分为多个区块:
1.地面对齐:基于曼哈顿世界假设[57]估计地面法向,并与y轴对齐
2.投影划分:将稀疏点云投影至x-z平面,手动定义边界矩形作为重建兴趣区域(RoI)
3.二叉树划分区块:
- 设定二叉树最大深度M和叶节点最多包含的点数
,那么一个节点就代表一个区块
- 以RoI为根节点递归分割:若当前节点深度d<M,且当前节点包含的点数
,则沿区块最长边二分生成子节点
- 终止条件:节点达到叶节点标准(d≥M或Nb≤Nt_b)
通过M和控制最终粒度,实现复杂区域细粒度(如街道)、简单区域粗粒度(如天空)的自适应划分
4.每个区块内的视图分配:
通过计算训练视图与区块的相关性得分实现:
- 从SfM结果(colmap结果的images.bin与points3D.bin中写入了2D图片中的特征点与3D点的对应关系)获取各训练视图的可见关键3D点数Nv
- 对每个区块统计边界内包含的3D点数Nb
- 选择满足
大于阈值(0.3)的视图作为监督视图
通过量化视图对区块的覆盖度或者贡献度(比率>0.3确保视图能有效监督区块内容),排除遮挡严重或视角倾斜的无效视图(遮挡情况下
必然在当前区块中贡献极少)。这样的灵活划分方法,就不同于之前直接一次性把整个区域均匀划分成多个块,而不管块中的对象数量。
完整流程如下图:
B.Visibility-Aware Block Optimization
1. 核心机制
2. 损失函数设计
注意,辅助高斯也是在跟着优化的,否则不会有边界正确的效果。
3. 优化稳定性增强
问题:辅助高斯因监督不足易退化
策略:
小批量优化:累积多视图梯度后再更新参数,减少随机性
选择性致密化:仅对当前区块高斯Gb进行致密化(高斯球分裂复制)(避免辅助高斯引入冗余)
C. 伪视角几何约束(Pseudo-view Geometry Constraint)
这一节的主要目的是:解决区块融合时空中的漂浮物(floaters)导致的渲染质量退化问题,而无需引入额外真实视角。伪视角几何约束以零成本(无需额外数据)实现了空域监督,是分治策略下保障场景一致性的创新方法。
1.生成伪视角
首先基于双目立体几何中的视差原理,对相机位置进行扰动,得到伪视角的相机pose。这样的做法避免了真实多视角采集的成本,同时继承了双目立体视觉的几何约束能力。
符号 | 含义 | 设计目的 |
---|---|---|
median(![]() |
参考视图深度图的中值深度 | 代表场景的典型尺度,自适应调整扰动幅度(近景扰动小,远景扰动大) |
Δp | 视差扰动超参数(单位:像素) | 控制虚拟视角与原始视角的基线距离,一般设为1~5像素(过大会导致投影失真) |
f | 相机x轴焦距(单位:像素) | 将像素级视差转换为实际位移,确保扰动与相机内参无关 |
Δt | 相机位置的扰动位移(仅水平方向) | 生成伪视角的基线,模拟真实立体视觉中的左右视角差异 |
与经典立体视觉的关联
方法 | 视差来源 | 应用目标 |
---|---|---|
双目立体匹配 | 物理相机基线 | 深度估计 |
伪视角约束 | 虚拟扰动视差 | 空域几何一致性监督 |
通过虚拟视差,该方法避免了真实多视角采集的成本,同时继承了立体视觉的几何约束能力。
对视差空间不熟悉的可以看看介绍:
立体视觉的核心技术:视差计算与图像校正详解_双目视差-CSDN博客
2.伪视图变形(Warping)到真实视图
这一步通过伪视图、伪视图深度,利用c2w得到3D的points,再利用真实视图的w2c渲染出Warp图像。
mask是为了确保正确渲染在图像尺寸W*H内,以及深度值有效,保证正常的一个渲染结果。
3.伪视图loss
接下来,就是在mask为1的区域计算loss,我们要求伪视图warp与真实值的一致性,实际上,这里的原理还是双目立体几何,通过梯度反向传播也优化了伪视图,这样,保证了去除多余的浮点。
比如,若存在漂浮物(如未锚定的高斯),其warp图像会与真实图像显著偏离,通过 L1损失抑制此类异常。
D. Scene Merging and Rendering
当所有区块优化完成后,我们将各区块重建结果融合以获取完整场景表示。得益于精心设计的区块优化流程与伪视角几何约束,在裁剪辅助高斯Ga 后可直接合并场景,因伪视角约束已抑制空域漂浮物,直接合并不会引入接缝。
渲染新视角时,BlockGaussian 沿用原始 3D 高斯泼溅框架 [12] 的可微分渲染管线:给定目标相机位姿与内参,由所有区块高斯基元构成的场景表示被投影至图像平面,随后按深度排序进行 Alpha 混合以合成新视角。
4.EXPERIMENTS
A. Experiments Setup
数据集
我们在三个基准数据集上对所提方法进行了全面评估:
- Mill19[15] 与 UrbanScene3D[60]:由真实无人机拍摄的航拍图像组成,每个场景包含数千张高分辨率图像。训练/测试集划分与Mega-NeRF保持一致。
- MatrixCity[61]:大规模城市级合成数据集。所有图像均按先前方法[19][20]进行4倍降采样以确保公平对比。
评估指标
- 渲染质量
PSNR(峰值信噪比):衡量像素级重建精度。
SSIM(结构相似性):评估图像结构保真度。
LPIPS[62](学习感知图像块相似度):基于深度学习感知的语义级相似性。
注:为消除光照差异,渲染图像采用与VastGaussian一致的色彩校正。
- 效率指标
优化耗时、显存占用(VRAM)及高斯点数量。
对比方法
类别 | 方法 | 备注 |
---|---|---|
NeRF基方法 | Mega-NeRF [15], Switch-NeRF [16] | — |
3DGS基方法 | VastGaussian [19], CityGaussian [20], DOGS [21], 改进3DGS [12] | • CityGaussian在24GB显存限制下无法完成粗阶段训练,直接引用原论文指标 • DOGS采用6倍降采样(可能带来指标优势) |
效率实验设置
- 硬件平台:8张RTX4090 GPU
- 时间统计:忽略区块数少于8的情况,报告全场景总重建耗时(因不同方法分区策略导致区块数不同)。
实现细节
- 训练策略
并行性:区块优化完全独立,支持多GPU并行或单GPU顺序执行。
迭代设置:
BlockGaussian-40K:每区块40,000次迭代
BlockGaussian-60K:每区块60,000次迭代
致密化频率:每200次迭代执行一次。
- 损失权重调度
伪视角几何约束:
从第10k次迭代开始激活
损失权重从0.1对数增长至1.0
深度正则化:权重从1.0线性衰减至0.1
B. Comparison with Other Methods
重建质量
我们在 Mill19、UrbanScene3D 和 MatrixCity 数据集上的多个场景中评估了 BlockGaussian 的平均 PSNR、SSIM 和 LPIPS 指标(见表1 和表3)。与现有方法相比:
BlockGaussian-40K(40k 次迭代训练)已达到可比性能。
BlockGaussian-60K(60k 次迭代训练)在多数场景中表现更优,尤其在 SSIM 和 LPIPS 指标上显著领先,表明其合成的新视角具有更优的感知细节。
与高斯基方法的对比
BlockGaussian 在边缘/高频区域(图 6 第 1 行)和结构重复区域(图6第 2 行)均表现更优。此外,在街景数据集 MatrixCity-Street 上,未经任何场景特定调优,BlockGaussian 仍显著领先现有方法(PSNR +3.87dB、SSIM +0.169、LPIPS -0.377,见表 3 和图 7)。
效率与资源消耗
如表2所示,我们对比了各方法的优化耗时、最终点数及显存占用:
硬件配置:
Mega-NeRF、Switch-NeRF、VastGaussian、DOGS 和 BlockGaussian 使用 8 张 RTX 4090 GPU训练。
原始 3DGS 使用 单张 RTX 4090 GPU。
BlockGaussian 的批大小(Batchsize)设为 1 以匹配其他方法。
CityGaussian 直接使用已发布的模型指标。
总结一下:
维度 | BlockGaussian 表现 | 对比基准 |
---|---|---|
重建质量 | 高频细节保留更好(SSIM↑)、伪影更少(LPIPS↓) | 模糊(NeRF)、漂浮物(3DGS) |
训练速度 | 分钟级完成优化 | NeRF 需数小时 |
显存效率 | 多 GPU 并行支持,单卡 24GB 可处理 1.5km² 场景 | CityGaussian 粗阶段训练显存不足 |
C. Ablation Study
我们通过消融实验评估所提框架中三个核心组件的独立贡献:内容感知场景划分、可见性感知区块优化和伪视角几何约束,并分析关键超参数对性能的影响。为未来改进和框架简化提供了依据。
1) 内容感知场景划分
2) 可见性感知区块优化
3) 伪视角几何约束
表 [5] 第6行显示:
该约束显著提升测试视图的几何一致性指标。
图 [9] 表明,在场景漫游时,空域漂浮物被有效抑制,交互式渲染质量大幅提高。
4) Batchsize影响
表 [7] 显示:
增大 Batchsize 可稳定提升 PSNR(25.89→26.33)和 SSIM(0.810→0.824),降低 LPIPS(0.211→0.200)。
原因:更大的批尺寸增强梯度稳定性,优化致密化过程。
代价:优化时间增加,需权衡性能与计算成本。
5) 区块数量影响
5.conclusion
本文提出BlockGaussian,一种面向大规模场景的新视角合成框架,其核心贡献包括:
- 内容感知场景划分:根据场景内容复杂度与计算负载动态分区,实现高效并行优化。
- 可见性感知区块优化:通过辅助高斯解决监督视图的不可见区域问题。
- 伪视角几何约束:有效抑制空域漂浮物,提升交互渲染质量。
技术优势:支持单GPU顺序执行或多GPU并行训练。在多个大规模场景数据集上达到SOTA渲染质量。
尽管BlockGaussian在优化速度和新视角合成质量上表现优异,但仍存在以下局限性:
- 点云数量需求较高:与原始3D高斯表示类似,BlockGaussian需大量点云描述复杂场景细节。未来可借鉴LightGaussian[38]等方案提升点云表示的紧凑性。
- 交互式渲染优化:为实现大规模场景的实时交互渲染,需结合细节层次(LoD)技术[55]与动态地图加载,以适配现有渲染管线。