Sparse VideoGen开源:完全无损,视频生成速度加速两倍,支持Wan 2.1、HunyuanVideo等

发布于:2025-05-27 ⋅ 阅读:(24) ⋅ 点赞:(0)

https://mp.weixin.qq.com/s/l0Zt1Nt2UqVZO5YBntBDBQ

Sparse VideoGen,是加州伯克利和 MIT 的研究者们提出的一种无需训练的视频生成加速方法。通过利用3D Full Attention中两种独特的稀疏性质,Sparse VideoGen 实现了2倍推理加速,同时保持高像素保真度 (PSNR = 29)。

更令人兴奋的是,它生成的视频与 Dense Attention 方法相比,几乎没有肉眼可见的差别。Sparse VideoGen也是第一个能够达到这种级别的像素保真度的方法。Sparse VideoGen 已被 ICLR 2025 收录!

目前,Sparse VideoGen 已经支持 CogVideoX、Wan 2.1 和 HunyuanVideo,并且所有代码均已开源!

论文名称:Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity
论文链接:https://arxiv.org/abs/2502.01776
论文代码:https://github.com/svg-project/Sparse-VideoGen

Motivation - 3D Full Attention 导致视频生成极慢

在视频生成领域,当前最好的 Video Diffusion Transformer模型都使用 3D Full Attention,以捕捉视频数据中的复杂信息。然而,这些模型的计算开销极大,导致推理时间过长,限制了实际应用。

例如,HunyuanVideo 在 1×H100 上生成 5 秒 720p 视频需要 29 分钟,其中 Attention 计算占据超过 80% 的时间。因此,我们希望探索更高效的 Attention 机制,在保持画质的同时,实现显著加速。

Key Findings - 3D Attention中的稀疏性

我们在 Video Diffusion Transformer 的 Attention Map 中发现了两种独特的稀疏模式:空间稀疏性 (Spatial sparsity)和时间稀疏性 (Temporal sparsity)。我们进一步观察到,大多数 Attention Head 都可以归类为其中之一,并相应地定义了两类 Attention Head:Spatial Head 和 Temporal Head。

Spatial Head - 关注空间邻近的 Token

Spatial Head 主要关注相同帧及相邻帧中的 Token,其 Attention Map 呈块状布局,集中于主对角线附近。这表明该 Head 主要在同一帧内或是相邻帧间建模局部像素之间的关系。这种attention方式对于空间一致性来说十分的重要。

Temporal Head - 关注不同帧中的相同 Token

Temporal Head 主要用于捕捉帧间的 Token 关系。其 Attention Map 呈斜线式布局,并具有恒定步长。这种attention方式说明,所有token会关注处于同一位置,但是位于不同帧的其余token。这种机制确保了时间一致性,即同一物体在多个帧中保持连贯。

如何实现无损像素保真度?Online Profiling Strategy

尽管Spatial Head 和 Temporal Head分别解决了空间和时间一致性问题,但真正实现无损像素保真度的关键在于最优地组合它们。

我们观察到,在不同的去噪步骤(denoising steps)以及不同的prompts下,最优的稀疏策略可能会发生显著变化。因此不能采用固定的稀疏模式,必须采用动态、自适应的策略。

为此,Sparse VideoGen 采用了一种在线稀疏模式优化方法 - Online Profiling Strategy,通过动态的决定Attention Mask,确保每个 Attention Head 在当前条件下都能保持最小的MSE。具体而言,我们的方法会采样一小部分 Query Token,并基于这些 Token 的MSE 预测对每个Attention Head而言哪种Sparsity模式是更优的。

实验表明,仅使用64 个 Query Token(占 120k 总数的 0.05%),即可准确预测最优的稀疏模式。同时,由于采样量极小,计算开销几乎可以忽略,使得该方法不仅高效,还能在推理过程中自适应调整最优的 Attention 结构,确保 PSNR > 29 dB,实现接近无损的像素保真度。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

实现理论加速 - 硬件高效的 Layout Transformation

尽管利用稀疏性提高了 Attention 的速度,但Temporal Head 的attention map的实际加速要显著的低于理论加速。我们发现原因是Temporal Head需要读取的token往往较为分散,而 GPU 在计算时更适用于连续存储访问,传统的token 排列方式导致稀疏 Attention Kernel 的加速比远低于理论值。

为了解决这个问题,我们提出了一种硬件高效的 Layout Transformation。我们会重新排列 Query,Key,Value Tensor 存储时沿着Sequence Length维度的token顺序,原先的存储方式会将处于同一帧的所有token排列在一起,我们会将其transform成处于同一个Location的token排列在一起。这样的排列方式和Temporal Head更为贴合,也带来了更好的加速效果:通过优化 Tensor Layout,Sparse VideoGen 的 Attention Kernel 能过达到理论加速的上限。


其他优化方法

在 Sparse VideoGen 中,我们让前 25% 生成步骤采用Dense Attention,因为他们对于视频的整体质量更加重要。对于后 75% 生成步骤我们应用Sparse Attention,并使用我们实现的Attention Kernel来实现加速。

我们还进一步优化了QK-Norm 和 RoPE,对这两个kernel我们实现了 7× 到 14× 额外加速

综合以上优化,Sparse VideoGen 在 HunyuanVideo 上实现了 2× 整体推理加速,并保持 >29 PSNR,完美平衡速度与画质

5月29日上午9点,青稞Talk 第52期,加州大学伯克利分校计算机科学博士生席浩诚,将直播分享《Sparse VideoGen:无需重新训练的视频扩散 Transformer 推理加速框架》。

分享嘉宾

席浩诚,加州大学伯克利分校计算机科学博士一年级学生,师从Kurt Keutzer教授,研究方向聚焦于大型语言模型(LLM)和扩散模型的高效训练与推理。本科毕业于清华大学姚班,期间师从陈键飞教授和朱军教授。席浩诚曾在英伟达担任实习研究员,与韩松教授合作,参与FP8低精度训练方法的研发。他在ICML、NeurIPS、ICLR等国际顶级会议上发表多篇论文,代表性成果包括Sparse VideoGen、COAT、Jetfire等,致力于推动大模型训练的效率和可扩展性。

主题提纲

Sparse VideoGen无需重新训练的视频扩散 Transformer 推理加速框架

1、DiTs 在视频生成中的优劣势
2、利用注意力机制时空稀疏性加速视频扩散 Transformer
- 无损像素保真度的实现
- 硬件高效的稀疏注意力计算内核 Layout Transformation
- QK-Norm 和 RoPE 的优化
3、在 Wan 2.1、HunyuanVideo 和 CogVideoX-v1.5 上的应用及评估

直播时间

5月29日上午9:00 - 10:00


网站公告

今日签到

点亮在社区的每一天
去签到