当3D、VR技术在游戏、教育、医疗、文化领域遍地开花,“内容短缺”却成了制约行业爆发的关键瓶颈——传统3D/4D创作不仅耗时耗力、依赖专业技能,还难以适配消费级设备,让许多创作者望而却步。近日,由火山引擎多媒体实验室联合领域顶尖学者与产业专家,发起了“Efficient 3D Content Creation for Immersive Experiences”专题Workshop,在今年的SIGGRAPH会议上和与会学者一起展开热烈讨论,以“降低创作门槛,链接技术与产业”为核心,用前沿技术为3D、VR内容生态破局!
在SIGGRAPH上,火山引擎多媒体实验室以“ 3D内容创作”为核心,带来了三大价值:
前沿技术深度解析:从“稀疏数据快速重建3D物体、数字人、场景”、“单目视频生成4D动态内容”,到“AIG3D”,多媒体实验室的研发人员联合了领域顶尖研究者一起揭秘SoTA技术的进展,以及如何让先进3D技术适配手机、VR头显等消费级设备。
沉浸式交互体验:现场,很多参与者戴上Apple Vision Pro、Pico头显,以及通过手机终端,亲自体验火山引擎多媒体实验室提供的“体积视频”、“单目生成VR”内容,以及AI生成的3D内容进行交互--让技术不在停留在论文,而是可感知的真实体验。
产学研对话闭环:多媒体实验室的研发人员在会上带来了从VR应用、到视频直播等行业的落地案例,并连同现场学者共同探讨“降低3D内容生成成本”“3D视频标准”等关键问题,推动科研成果转化为可落地的解决方案。
体积视频
不同于传统的二维视频,立体的体积视频打破了屏幕的限制,更加沉浸式的提供了自由视角的观看体验。火山引擎多媒体实验室围绕着高保真的多模态体积视频生成展开了一系列的研究并进行了相关研究成果的分享。这些研究针对于资产高效率生成、实时交互、以及运动迁移等多方面展开算法构建,相关成果已发表于CVPR、Siggraph等国际顶级会议。
运动估计联合表征解耦的一致性体积视频建模
针对复杂运动场景中静态与动态物体的协同建模需求,多媒体实验室提出了新颖的基于高斯的体积视频表示方法,实现了稳健的人体表演跟踪与高保真渲染。该研究的核心思想是利用双高斯,以实现运动与外观的解耦与分层表示。该方法显著提升了时间一致性与跟踪精度,并支持高效的压缩策略。此外,本方法在存储效率上表现突出,每帧仅需约 350KB 存储空间。同时,该方案在渲染质量上保持高度竞争力,并在各种具有挑战性的场景中持续展现出卓越的渲染效果与时间一致性。

实验室利用紧凑数量的运动感知关节高斯来捕捉全局运动,并结合更多的外观感知皮肤高斯来进行视觉表示。为了建立双高斯之间的关系,每个皮肤高斯会锚定于多个关节高斯,从而支持位置与旋转的插值并辅助后续的序列优化。随后,在逐帧的人体表演跟踪中,实验室提出了一种新颖的由粗到细的优化策略,以同时提升时间一致性与渲染保真度。
在上述显式表达的基础上,实验室更进一步设计了相关的压缩方案,通过可持久化码本的方式,最高可达 120 倍 的压缩比。使得多个 4D 资产能够无缝集成至 VR 环境并实现实时渲染。

可驱动的沉浸式体积视频建模
面对目前的体积视频受限于传统形式的播放的问题,实验室创新性的实际了可驱动的体积视频方案,不仅实现准确的自由视角播放,还要能够在相似但全新的动作驱动下逼真地再现动态场景,与以往工作形成鲜明对比。该方案依赖于对动态高斯表示的细粒度、分层式解耦。进一步地,该研究将稠密的外观高斯解耦为结构化的位置映射与高斯属性映射,并与具备泛化能力的神经网络相结合,通过跟踪,训练,重演的三部曲,能够将形变传递方案扩展到运动高斯,在新动作下实现照片级渲染。

面向人体体积视频的拓扑感知高斯基元优化
另一个长期被忽视的关键挑战——也是本研究的核心关注点——在于对具有拓扑变化的通用动态场景的长时序跟踪与建模,例如脱下外套。这类拓扑变化以及频繁的人体-物体交互在真实世界场景中极为普遍,无法简单地归结为固定拓扑或仅限人体的假设。针对于此,火山引擎多媒体实验室提出了一种新的动态高斯表示方法,能够自适应地处理新观测的出现与过时观测的消失。该方法在保持训练高效与压缩友好的同时,支持稳健的跟踪与拓扑自适应。其核心思想是利用稀疏的拓扑感知高斯来表示底层场景运动,并在时空跟踪器与光度线索的引导下捕捉新出现的观测,并持续更新局部形变图。在其生命周期内,每个运动高斯可以派生并激活多个高斯,以建模细粒度的视觉细节。

该方案生成的拓扑感知的高斯表示,不仅能够在拓扑变化下支持高保真渲染,还能自然适配基于标准视频编解码的体积视频格式。对于全局查找表中的持久高斯,我们采用 Morton 编码将其投影到二维网格,以保持空间一致性,并提升视频编解码中的帧内预测效率;对于瞬态高斯,我们则按照激活时间排序,以契合帧间预测机制。由此,该研究提供了一种统一的、自适应的解决方案,能够在存在拓扑变化的情况下实现可扩展的体积视频表示,捕捉“动中之雅”与“静中之力”的瞬间,呈现与真实世界相融合的沉浸式体验。

三维重建
火山引擎多媒体实验室致力于研发三维重建技术,近年来积极探索传统三维重建技术与大模型技术的结合,三维重建领域产出了多项行业领先成果。
物体重建
多媒体实验室研发几何重建大模型,用于降低传统三维重建链路中的采集门槛,可以采用轻量级的采集数据实现高精度场景还原 —— 仅需通过普通相机拍摄几十张多角度照片,模型即可依托深度学习算法,精准复现物体的三维几何结构、表面材质细节与空间光影效果,真正达成从实景到数字模型的 “全真复刻”。在技术架构上,该方案采用轻量化前馈设计,通过融合大规模 3D 素材与物品数据,结合 Transformer 架构的全局建模能力,让模型在单次前向传播中同步完成相机姿态估计、几何形态计算、点云自动对齐等核心任务,大幅压缩重建流程耗时,兼顾效率与精度。目前该模型在3D多个应用领域崭露头角,在电商业务中,多媒体实验室搭建专属电商采集仓,实现 “商品图片采集 —3D 模型重建 — 商品首视频生成” 全流程链路,为商家提供一站式 3D / 视频素材解决方案,助力商家呈现更真实的交互体验效果。
商品运镜效果
商品光照效果
商品交互展示
同时,在车辆等大型物品的建模中,多媒体实验室研发算法可实现:用户使用手机环绕车辆拍摄,即可完成车辆数据采集,并可高质量高效率生成媲美专业设备采集和重建得到的3D素材,最终在客户端实现沉浸式展示。
用户环绕拍摄
3D重建
客户端3D看车
场景重建
火山引擎多媒体实验室在24年就提出了一种“高质量3D Gaussian-Splatting场景重建及低延迟重渲染技术”,用于对场景进行高质量的重建,并支持复杂的重打光及实时渲染。并已率先落地虚拟直播、XR/AR等场景。该成果被计算机图形学顶会 SIGGRAPH 2024 收录,并受邀在 NeRFs & Lighting 专场做正式报告,并在近期入选了SIGGRAPH官方Blog(https://blog.siggraph.org/2025/03/gaussian-splatting-based-rendering-for-high-quality-3d-content-creation.html/)。针对传统 3D Gaussian-Splatting 难以呈现复杂光影的问题,团队提出几何增强算法,首次为每个 3D 高斯引入法线属性,通过正则化深度/法线约束和外观嵌入,实现无需额外输入即可输出高精度深度与法线图;并设计基于高斯光栅化的延迟渲染管线,兼容 Unity/UE 全光源类型、实时阴影及 Mesh 混合渲染,可在毫秒级延迟下完成重打光与二次编辑。


目前,该技术已集成至 Unity/UE 插件,助力创作者零成本打造可实时交互的虚拟舞台,全面拓宽 3D Gaussian-Splatting 在商业内容与沉浸式体验中的应用边界。
场景重建用于虚拟直播
多媒体实验室一直致力于推动三维重建技术的VR应用,在场景重建方面,多媒体实验室与Pico团队早在2023年就共同合作“德爷闯东非”“古籍巡游记”等项目,创新性采用三维重建和VR视频相结合的技术,实现真实大场景的数字化建模,并在Pico中可体验高自由度的场景漫游。近期,多媒体实验室进一步迭代了场景重建技术,在超大规模场景(>100km²级别)应用下,可以通过融合高分辨率立体卫星数据、无人机航空数据以及地面单反相机数据,实现现实场景的1:1高精度复刻,并极大程度的降低扫描重建成本。该项技术同Pico美术团队合作,助力该团队的美术工作从“纯粹创造”转向了“智能编辑与再创作”,极大地解放了生产力,将现实场景转化为具有高度艺术表现力的VR场景,搬进PICO产品的大荧幕上。
场景重建用于Pico自由漫游VR场景
AIGC3D
火山引擎多媒体实验室推出豆包·3D生成模型- Beaver3D—— 一款聚焦 “物理真实、可泛化、可交互” 的 AIGC 3D 基础大模型,具备高质量网格布线、PBR 纹理生成、真实物理属性生成以及大尺度3D场景生成能力,推动 3D 生成从 “视觉可信” 向 “物理可用” 跨越。Beaver3D 赋能工业设计、机器人研发、游戏素材制作等领域,降低 3D 内容生产与仿真成本,为多行业提供 “可交互、可验证” 的虚拟资产解决方案,加速数字化转型。
多模态3D模型生成
Beaver3D是一款原生3D大模型,依托深度学习架构创新,支持文本、图像、点云等多模态输入,能够在 30 秒内快速输出具备复杂细节与规整拓扑结构的3D模型,为数字内容创作、数字资产构建、工业设计等场景带来 “即输即得” 的高效解决方案。其底层以 Transformer 为核心,结合自主研发的 3DVAE(3D 变分自编码器)网络,实现了细节捕捉与指令遵循的双重突破 —— 通过 3DVAE 高效编码百万级 3D 特征点,精准捕捉物体表面局部细节,解决传统 3D 生成细节模糊丢失的痛点;基于高密度3D特征空间训练,能够精准还原用户输入指令,生成具备复杂细节和规整拓扑结构的几何模型。

除了高效的3D几何生成能力,Beaver3D也支持4K高清纹理与完整 PBR 材质生成,可输出漫反射、法线、金属度、粗糙度等多类贴图,为模型提供极具真实感的渲染支持。其纹理生成框架以 UNet 为底层架构,创新扩展为多分支架构,能同时满足多种材质属性的生成需求,实现 PBR 材质属性的精准还原(如金属的磨砂质感、木材的纹理细节均能细腻呈现)。借助 AI+3D 基础模型的融合方式,Beaver3D有效的改善了传统3D素材制作流程:传统手工制作需数小时的高精细纹理与材质,现在仅需数分钟即可完成,且无需专业建模或材质编辑知识,让创作者从繁琐的技术实现中解放,更专注于创意表达。这一突破不仅大幅降低了 3D 内容制作的时间与人力成本,更让 “快速生成高真实感 3D 资产” 成为普通创作者可触及的能力,推动 3D 内容创作向 “创意优先、技术赋能” 的新阶段演进。

Beaver3D - 纹理生成框架图
物理属性生成
Beaver3D凭借突破性的图像到物理模型生成技术,实现了从2D图像到具备真实物理运动关系的3D模型的端到端生成,不仅完美还原物体的外观细节,更自动学习并赋予其符合真实世界规律的物理属性 —— 包括质量、尺度、铰链结构、材质摩擦系数、形变特性及碰撞响应等,使生成的 3D 模型具备 “可交互、可仿真、可迁移” 的核心能力,打破传统 3D 模型 “重外观、轻物理” 的局限性。此外,Beaver3D生成模型可以无缝导入物理仿真平台,比如nvidia isaac,支持机器人抓取、碰撞模拟、动态场景交互等核心仿真场景。Beaver3D不仅为3D内容创作与物理仿真之间搭建了一条高效、精准的桥梁,更赋能工业设计、机器人研发等多领域开发者,以更低成本、更高效率构建 “可交互、可验证” 的虚拟环境。

场景生成
Beaver3D针对大尺度 3D 场景生成的核心难题,创新性采用前馈式生成技术,实现从单张图像到完整三维场景的端到端合成。通过在潜在空间中同步生成相机轨迹控制下的RGBD 序列,无需额外后处理即可直接转化为稠密点云,不仅显著提升了空间精度与几何完整性,更输出了高质量、可直接部署的场景重建结果。依托这一高精度几何特性,生成的点云与三维场景无缝支持三维重建、虚拟环境搭建、沉浸式交互、机器人仿真等多场景核心任务,为图像级输入与真实空间理解构建起高效、精准的转化桥梁。

Beaver3D 功能展示
附录
火山引擎多媒体实验室的前沿探索
火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。
关于火山引擎
火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。