Paper Title: GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control
Project Website: https://github.com/nv-tlabs/GEN3C?tab=readme-ov-file
该论文发布于CVPR2025
访问该网址查看更多案例:GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control
上图展示了GEN3C模型在多种应用场景中的视频生成能力。
图中包括了几种不同的生成任务,下面是详细的解释:
应用场景:
- 单视图和稀疏视图的新视点合成(Novel View Synthesis, NVS):这种方法展示了从单一视角或少量视角生成新视角图像的能力。
- 单眼动态视频的新视点合成:GEN3C能够从单一视角的视频中生成新的视频视角,尤其适用于动态场景。
- 驾驶模拟:在此应用中,GEN3C被用来生成模拟驾驶环境下的长时间视频,用户提供相机的运动轨迹来控制视频生成。
视频生成和镜头控制:
- 精确的相机控制:GEN3C模型的一个关键特点是其能精确控制相机的运动,通过给定的相机轨迹来生成一致的、符合预期视角的视频。
- 3D缓存的渲染:为了确保视频的时空一致性,GEN3C模型使用3D缓存(一个点云表示),通过渲染这个缓存来生成视频帧,提供视觉一致性和精确的相机控制。
生成的视频质量:
- 动态效果的生成:图中的"Dolly Zoom"特效(通过改变相机的焦距来实现的视觉效果)展示了GEN3C生成具有电影感的镜头效果的能力,允许场景中的对象在视频中动态变化。
- 视频长度和一致性:图示例子展示了GEN3C如何生成长时间的视频序列,同时保持空间和时间的一致性,避免了传统视频生成模型中常见的“物体消失”或“出现不一致”的问题。
不同的视角和输入条件:
- 输入条件:图中也展示了GEN3C如何根据不同的输入条件(例如单一图像、稀疏视角、动态视频等)生成视频。无论输入条件如何,GEN3C都能够生成符合相机控制和场景一致性的视频。
- 长时间视频的生成:GEN3C通过在每一帧的基础上逐步生成下一帧视频,利用其3D缓存来处理长时间的视频生成,避免了视频生成过程中的不一致问题。
本文提出了GEN3C,一个具有精确相机控制和时间一致性的生成视频模型。
先前的视频生成模型通常利用较少的3D信息,这导致了许多不一致性问题,比如物体的出现和消失。相机控制,因为相机参数只是神经网络的输入,网络必须推断视频如何依赖于相机。
在对比之下,GEN3C是通过一个3D缓存来指导生成:该缓存是通过预测种子图像或先前生成帧的逐像素深度获得的点云。在生成下一帧时,GEN3C依赖于3D缓存的2D渲染结果,并使用用户提供的新相机轨迹作为条件。关键是,这意味着GEN3C无需记住之前生成的内容,也无需推断图像结构与相机姿态的关系。相反,模型可以将所有生成能力集中在未观察过的区域,以及将场景状态推进到下一帧。
向实际应用推广的关键挑战之一是可控性和一致性,即如何允许用户调整相机运动、场景构成和动态变化,同时保持生成视频的空间和时间一致性。
- 可控性指的是用户可以控制视频生成过程中的一些参数,比如相机运动、场景的构成和动态变化,确保生成的视频符合用户的预期。
- 一致性则意味着生成的视频在空间和时间上要保持一致,不会出现物体跳跃、位置错乱或其他不自然的效果。
现有视频生成模型在回顾已生成内容时,现有模型容易“忘记”之前生成的内容。
新视点合成(Novel View Synthesis, NVS)
1. 从一组已知姿态的图像生成新视点的图像,许多方法需要密集的输入图像,并且在从极端视角观察时可能会产生严重的伪影。
2. 一些工作提出通过使用几何先验来进行正则化,从而解决这些问题,但这些方法对估计的深度或法线的噪声非常敏感。
3. 另一些方法尝试训练前