摘要:本技术报告介绍了一种经济有效的视频生成基础模型训练策略。 我们提出了一种中等规模的研究模型,大约有70亿个参数(7B),称为Seaweed-7B,使用665,000个H100 GPU小时从头开始训练。 尽管使用适度的计算资源进行训练,但与更大规模的当代视频生成模型相比,Seaweed-7B 表现出极具竞争力的性能。 在资源有限的环境中,设计选择尤为重要。 本技术报告重点介绍了提高中型扩散模型性能的关键设计决策。 根据经验,我们观察到两点:(1)Seaweed-7B的性能可与在大量GPU资源上训练的大型模型相媲美,甚至超过它们;(2)我们的模型具有很强的泛化能力,可以通过轻量级微调或继续训练,有效地适应各种下游应用。 请访问项目页面Seaweed。Huggingface链接:Paper page,论文链接:2504.08685
研究背景和目的
研究背景
随着数字娱乐、通信和现实世界模拟中视频作为主导媒介的中心地位日益凸显,视频生成模型的研究成为了一个引人注目的领域。视频生成模型的基础性研究对于提升一系列下游视频应用的性能具有重要意义,如图像动画、视频编辑和视频叙事等。近年来,视频生成模型取得了快速进展,多种训练方法被提出,如MovieGen、Cosmos和Wan-2.1等。这些方法普遍采用扩散变换器(Diffusion Transformers,DiT),并遵循着扩大模型规模和GPU资源以提高性能的趋势。然而,这种扩展策略带来了巨大的训练成本,例如MovieGen使用了6000多个NVIDIA H100 GPU。这种高昂的训练成本严重阻碍了视频生成模型的创新和发展。
在自然语言处理、视觉语言模型和音频基础模型等领域,研究人员已经发现,通过架构改进和优化训练策略,小到中型模型可以在基准测试中超越大型语言模型(LLMs)。例如,Mistral7B在多个基准测试中超过了Llama2-13B,DeepSeek v3证明了使用370亿参数的激活模型可以超越720亿和4200亿参数的密集模型,而只需一小部分GPU资源。这些成果启发我们探索视频生成领域中的类似效率提升。
研究目的
本研究旨在提出一种经济高效的视频生成基础模型训练策略。我们训练了一个中等规模的模型,称为Seaweed-7B(简称Seed Video),它包含大约70亿个参数的扩散变换器。通过使用665,000个H100 GPU小时(相当于在1000个H100 GPU上训练27.7天)进行从头开始训练,我们旨在展示在资源有限的环境下,通过精心设计的数据处理、模型架构和训练策略,中型模型也能实现与大型模型相媲美甚至超越的性能。此外,我们还希望验证Seaweed-7B作为视频生成基础模型的潜力,即其能否支持广泛的下游应用。
研究方法
数据处理
在资源受限的计算环境中,数据质量和多样性比数量更为重要。我们构建了一个可扩展的基础设施来大规模处理视频数据,并使用各种数据处理器来有效扫描高质量视频数据。我们的数据管道从多种来源收集视频数据,并通过时间分割、空间裁剪、质量过滤、多方面数据平衡、视频去重和视频标注等步骤来转化为高质量的训练数据。特别是,我们通过混合分辨率训练来提高模型对高分辨率和长持续时间视频的重建质量。
模型架构
Seaweed-7B由变分自编码器(VAE)和潜在扩散变换器(DiT)组成。我们采用了具有因果3D卷积编码器和解码器的VAE架构,该架构能够统一图像和视频编码,并支持任意长视频的编码和解码。在DiT方面,我们采用了双流结构,并通过使用SwiGLU激活函数、AdaSingle时步调制和共享更深层FFN参数来优化参数效率和减少内存成本。此外,我们还探索了不同的注意力机制,包括全注意力、空间全注意力和窗口注意力,以平衡训练可扩展性和计算成本。
训练策略
我们采用了从低分辨率到高分辨率的多阶段训练策略。在预训练阶段,我们首先使用低分辨率图像进行训练,以建立文本提示与常见视觉概念之间的对齐。然后,我们启动联合图像和视频训练,其中图像和视频令牌在每个批次中以固定比例混合。在后训练阶段,我们应用监督微调(SFT)和来自人类反馈的强化学习(RLHF)来进一步提高输出视频的美学质量、运动一致性和结构连贯性。
优化技术
为了提高训练效率,我们采用了多种优化技术,包括并行性策略、运行时平衡策略、多级激活检查点(MLAC)和融合CUDA内核。这些技术共同作用,使得Seaweed-7B在分布式训练中的模型浮点运算利用率(MFU)达到38%。
研究结果
定量分析
我们在文本到视频和图像到视频生成任务上评估了Seaweed-7B的性能。通过使用MagicArena平台的人类评估,我们发现Seaweed-7B在图像到视频任务中的Elo评分排名第二,仅次于Kling1.6(HD),但超越了包括Sora、Wan-2.1和HunyuanVideo在内的多个大型模型。在文本到视频任务中,Seaweed-7B也位列前2-3名,性能与Veo 2.0相当,并优于Wan-2.1和Kling1.6(HD)。这些结果表明,尽管使用有限的计算资源进行训练,Seaweed-7B仍然表现出与大型模型相媲美甚至超越的性能。
定性分析
我们还对Seaweed-7B在各种下游应用中的表现进行了定性分析,包括图像到视频生成、人类视频生成、主题一致的视频生成、视频音频联合生成、长视频生成和叙事、实时生成、超分辨率生成和相机控制生成等。结果表明,Seaweed-7B能够支持广泛的下游应用,并通过轻量级微调或继续训练有效适应这些应用。
推理效率
与Wan-2.1模型相比,我们的模型在推理效率方面表现出色。在单个H100 GPU上,Seaweed-7B的推理时间仅为29.6秒,而Wan-2.1则需要1837.9秒。这表明我们的模型不仅在生成质量上具有竞争力,而且在推理速度上也具有显著优势。
VAE重建质量
我们的VAE模型在重建质量方面也表现出色。与最先进的VAE模型相比,我们的模型在rFVD、LPIPS、PSNR和SSIM等指标上均取得了优异的成绩。特别是对于高分辨率和长持续时间的真实世界视频,我们的模型实现了最低的LPIPS值。
研究局限
尽管Seaweed-7B在多个方面表现出色,但其仍存在一些局限性。首先,与大型模型相比,Seaweed-7B在生成精细细节(如小面孔或精细图案)方面仍有提升空间。这可能是由于计算资源有限导致的。其次,尽管我们采取了多种措施来提高模型的安全性和公平性,但确保负责任的视频生成仍然是一个重要的研究领域。未来需要更多努力来增强视频生成中的安全性、公平性和伦理考虑。
未来研究方向
提升模型性能
未来的研究可以进一步探索如何通过改进模型架构、训练策略和优化技术来提升Seaweed-7B的性能。特别是,可以尝试引入更先进的注意力机制和生成对抗网络(GAN)技术来提高生成视频的质量和多样性。
扩展应用场景
随着视频生成技术的不断发展,我们可以期待Seaweed-7B在更多应用场景中发挥重要作用。例如,在虚拟现实(VR)和增强现实(AR)领域,Seaweed-7B可以生成逼真的虚拟环境和交互内容;在电影和游戏制作中,它可以用于快速生成场景和角色动画;在社交媒体和短视频平台中,它可以用于自动生成高质量的视频内容。
增强安全性和公平性
为了确保视频生成技术的负责任使用,未来的研究应重点关注如何增强模型的安全性和公平性。这包括开发更先进的过滤和检测技术来识别和移除有害内容、探索如何确保生成内容的多样性和包容性以及制定相关政策和法规来规范视频生成技术的使用。
降低训练成本
尽管本研究已经展示了一种经济高效的视频生成基础模型训练策略,但未来的研究仍可以进一步探索如何降低训练成本。例如,可以尝试使用更高效的计算硬件和分布式训练技术来减少训练时间和成本;同时,也可以探索如何通过知识蒸馏和迁移学习等方法来利用预训练模型的知识来加速新模型的训练过程。
综上所述,本研究提出了一种经济高效的视频生成基础模型训练策略,并展示了Seaweed-7B模型在多个方面的出色表现。尽管存在一些局限性,但本研究为视频生成领域的发展提供了新的思路和方法,并为未来的研究指明了方向。