颠覆传统!复旦微软联合研发MagicMotion,重新定义图生视频可能性

发布于:2025-04-11 ⋅ 阅读:(34) ⋅ 点赞:(0)

导读简介:

        尽管基于DiT的模型在生成高质量和长视频方面表现出色,但许多文本到视频的方法在精确控制物体运动和相机运动等属性方面存在不足。因此,细粒度轨迹可控的视频生成技术应运而生,这对于在现实场景中生成可控视频至关重要。

近年来,视频生成技术取得了显著进展,视觉质量和时间连贯性都有了大幅提高。在此基础上,轨迹可控的视频生成技术应运而生,它可以通过明确的空间路径实现对物体运动的精确控制。然而,现有方法在处理复杂物体运动和多物体运动控制时面临诸多挑战,导致轨迹跟踪不精确、物体一致性差以及视觉质量受损。此外,这些方法仅支持单一格式的轨迹控制,限制了它们在不同场景中的适用性。目前,还没有专门针对轨迹可控视频生成的公开可用数据集或基准,这阻碍了模型的稳健训练和系统评估。

为了解决这些挑战,我们提出了魔法运动(MagicMotion),这是一种新颖的图像到视频生成框架,它通过从密集到稀疏的三个级别的条件(掩码、边界框和稀疏边界框)实现轨迹控制。给定输入图像和轨迹,魔法运动可以使物体沿着定义的轨迹无缝动画化,同时保持物体的一致性和视觉质量。此外,我们还推出了魔法数据(MagicData),这是一个大规模的轨迹控制视频数据集,以及一个用于标注和过滤的自动化流程。我们还引入了魔法基准(MagicBench),这是一个全面的基准,用于评估不同数量物体的视频质量和轨迹控制精度。大量实验表明,魔法运动在各种指标上都优于以往的方法。

论文名:MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance

论文链接:https://arxiv.org/pdf/2503.16421

开源代码:https://quanhaol.github.io/magicmotion-site/

方法与模型:

1.  概述

2. 模型架构

基于CogVideoX模型的图像到视频(I2V)生成流程,并且引入了轨迹控制网络(Trajectory ControlNet)来确保生成的视频遵循特定的运动模式。

3. 从密集到稀疏:渐进式训练策略

密集轨迹条件(如分割掩码)能够提供更精确的控制,但对用户来说不太友好。为了解决这个问题,MagicMotion 采用了一种渐进式训练过程,其中每个阶段都使用前一阶段的权重来初始化其模型。这种策略使得模型能够实现从密集到稀疏的三种类型的轨迹控制,并且我们发现,与直接从头开始训练相比,这种渐进式训练策略有助于模型取得更好的性能。

具体训练流程

在各个阶段,我们采用了以下轨迹条件:

  1. 阶段 1:分割掩码
    使用分割掩码作为轨迹条件,提供最精细的控制。

  2. 阶段 2:边界框
    使用边界框作为轨迹条件,相较于分割掩码,边界框提供了更稀疏的控制。

  3. 阶段 3:稀疏边界框
    使用稀疏边界框作为轨迹条件,其中少于 10 帧有边界框标注,进一步降低轨迹条件的密度。

此外,我们在每个阶段始终将轨迹条件的第一帧设置为分割掩码,以明确指定应该移动的前景对象。

4. 隐分割损失

1. 隐分割损失的引入

基于边界框的轨迹能够控制物体的位置和大小,但缺乏对物体细粒度形状的感知能力。为了解决这个问题,我们提出了隐分割损失(Latent Segmentation Loss) 。该损失在模型训练过程中引入了分割掩码信息,增强了模型对物体细粒度形状的感知能力。

以往的工作 [2, 61, 70, 79] 利用扩散生成模型进行感知任务,表明扩散模型提取的特征包含丰富的语义信息。然而,这些模型通常在像素空间中运行,这导致计算时间长且需要大量的 GPU 内存。

为了在合理的计算成本范围内融入密集轨迹信息,我们建议使用轻量级分割头直接在隐空间中预测分割掩码,从而无需进行解码操作。

5. 数据管道

轨迹可控的视频生成需要一个带有轨迹标注的视频数据集。然而,现有的大规模视频数据集[1, 7, 25]仅提供文本标注,缺乏轨迹数据。此外,几乎所有以往的工作[17, 31, 59, 75, 78]都使用私有整理的数据集,这些数据集并未公开。

为了解决这个问题,我们提出了一个全面且通用的数据管道,用于生成同时具有密集(掩码)和稀疏(边界框)标注的高质量视频数据。该管道由两个主要阶段组成:整理管道和过滤管道。整理管道负责从视频-文本数据集中构建轨迹信息,而过滤管道确保在训练前去除不合适的视频。

 数据筛选与过滤流程
1. 数据集来源与初步筛选
我们的数据集筛选过程始于 **Pexels [24]**,这是一个大规模的视频-文本数据集,包含大量带有文本注释的视频片段。这些视频涵盖了不同主题、多样场景以及广泛动作的内容。为了提取视频中的前景移动物体,我们使用了 **Llama3.1 [53]** 这一强大的语言模型。

具体步骤如下:
- 将每个视频的标题输入到 Llama3.1 中,并提示模型识别句子中提到的主要前景物体。
- 如果模型确定句子中不包含任何前景物体,它将返回“空”,此类视频将被直接过滤掉。

通过这一过程,我们初步筛选出含有明确前景物体描述的视频,为后续处理奠定了基础。

2. 前景物体分割与边界框提取


接下来,我们利用 **Grounded-SAM2 [44, 46]**,这是一种基于文本的分割模型,能够根据视频及其主要物体生成分割掩码。具体步骤如下:
- 将视频及其主要物体作为输入,Grounded-SAM2 为每个主要物体生成分割掩码。
- 每个分割掩码对应一个唯一的颜色,用于一致地标注物体。
- 使用左上角和右下角的坐标从分割掩码中提取边界框,绘制相应的矩形框。
- 每个物体的边界框颜色与其分割掩码保持一致,确保标注的一致性和可解释性。

通过这一阶段,我们成功为视频中的前景物体生成了精确的分割掩码和边界框,为后续的运动分析和轨迹控制提供了关键信息。

3. 运动强度筛选:光流分数过滤


许多视频仅包含静态场景,这对训练轨迹可控的视频生成模型帮助有限。为了解决这个问题,我们引入了 **UniMatch [69]** 来提取帧之间的光流图,并计算光流图的平均绝对值作为 **光流分数**,以衡量视频的运动强度。

然而,单纯依赖整体光流分数可能会误判背景运动较多但前景静态的视频。因此,我们进一步结合分割掩码和边界框,使用 UniMatch 提取 **前景物体的光流分数**,并根据以下规则进行过滤:
- 过滤掉前景光流分数较低的视频,确保 MagicData 中的视频均包含显著的前景运动。
- 通过这种方式,我们有效剔除了背景运动强但前景静态的视频,保证了数据集的质量。

 4. 轨迹注释的细化与约束


筛选流程生成的轨迹注释需要进一步细化,以满足轨迹可控视频生成的需求。具体而言,一些视频可能存在以下问题:
- 前景物体数量过多或过少;
- 注释区域尺寸过大或过小;
- 视频内容不符合预期的动态特征。

为了解决这些问题,我们基于大量人工评估经验,设置了以下约束条件:
- **光流分数阈值**:设置为 2.0,低于此阈值的视频将被过滤掉。
- **前景物体数量限制**:每个视频的前景物体数量限制在 1 到 3 之间,避免过于复杂的场景。
- **注释区域比例范围**:将注释区域的比例限制在 0.008 到 0.83 之间,确保物体大小适中且具有实际意义。

通过上述约束,我们进一步优化了数据集的质量,确保每条轨迹注释都符合轨迹可控视频生成的要求。

---

5. 最终数据集构建


经过以上筛选和过滤流程,我们成功构建了 **MagicData**,这是一个高质量的数据集,专为轨迹可控视频生成任务设计。MagicData 包含多个视频,每个视频都配有密集和稀疏的轨迹注释,能够支持从精细到粗略的不同级别控制。

整个数据筛选和过滤流程不仅提升了数据集的质量,还确保了其多样性与实用性,为后续模型训练提供了坚实的基础。

6. MagicBench

之前的研究[17, 31, 36, 50, 58, 64, 78]在轨迹控制视频生成方面主要在DAVIS(数据集规模相对较小)、VIPSeg(每个视频的标注帧不足)或自行构建的测试集上进行了验证。因此,迫切需要一个大规模且公开可用的基准,以便在该领域的不同模型之间进行公平的比较。为了解决这一问题,我们利用第3.5节中提到的数据管道构建了MagicBench,这是一个大规模的开放基准,包含600个带有相应轨迹标注的视频。MagicBench不仅评估视频质量和轨迹准确性,还将受控对象的数量作为一个关键评估因素。具体来说,它根据受控对象的数量分为6组,从1到5个对象以及超过5个对象,每个类别包含100个高质量视频。

换一种说法:

先前关于轨迹控制视频生成的研究[17, 31, 36, 50, 58, 64, 78]主要在DAVIS(数据集规模较小)、VIPSeg(每个视频的标注帧数量有限)或私有构建的测试集上进行了评估。因此,迫切需要一个大规模且公开可用的基准,以便在该领域的不同模型之间进行公平的比较。为了填补这一空白,我们利用第3.5节中提到的数据管道构建了MagicBench,这是一个大规模的开放基准,由600个带有相应轨迹标注的视频组成。MagicBench不仅评估视频质量和轨迹准确性,还将受控对象的数量作为一个关键评估因素。具体来说,它根据受控对象的数量分为6组,从1到5个对象以及超过5个对象,每个类别包含100个高质量视频。

为了评估视频质量,我们采用了文献[17, 55, 59, 64]中提到的FVD(Fréchet Video Distance)指标。同时,为了评估图像质量,我们使用了FID(Fréchet Inception Distance)。为了量化运动控制的准确性,我们使用了掩码交并比(Mask_IoU)和边界框交并比(Box_IoU),这两个指标分别衡量掩码和边界框的准确性。

 

实验与结果 

1. 实验设置

 1. 1模型实现细节

我们采用 **CogVideoX-5B [73]** 作为基础图像到视频生成模型。该模型经过训练后,能够生成分辨率为 $ 480 \times 720 $ 的 49 帧视频。

MagicMotion-- 的训练过程分为三个阶段,每个阶段都在 **MagicData** 数据集上进行一轮次的训练。具体步骤如下:

1. 阶段 1:轨迹控制网络(Trajectory ControlNet)训练  
   在这一阶段,从零开始训练轨迹控制网络(Trajectory ControlNet),使其学习如何根据输入轨迹条件生成对应的视频特征。

2. 阶段 2:分割头(Segment Head)引入与优化
   在这一阶段:
   - 使用阶段 1 中训练得到的权重进一步优化轨迹控制网络(Trajectory ControlNet)。
   - 同时,从零开始训练分割头(Segment Head),用于在隐空间中预测分割掩码,增强模型对物体形状的感知能力。

3. 阶段 3:联合优化  
   在这一阶段:
   - 轨迹控制网络(Trajectory ControlNet)和分割头(Segment Head)都使用阶段 2 的权重继续训练,以实现更精细的轨迹可控性。

所有训练实验均在 4 块 NVIDIA A100-80G GPU 上进行。我们采用 **AdamW [33]** 作为优化器,设置初始学习率为 $ 1e^{-5} $,每块 GPU 的批量大小为 1。在推理过程中,我们将步数设置为 50,引导尺度(Guidance Scale)设置为 6,并将轨迹控制网络(Trajectory ControlNet)的权重设置为 1.0。

---

 2. 数据集与训练流程

在训练过程中,我们使用 **MagicData** 作为训练集。MagicData 是通过第 3.5 节中描述的数据筛选流程构建的,包含从密集到稀疏的轨迹信息。它总共包含 51,000 个 `<视频,文本,轨迹>` 三元组。

在训练过程中:
- 每个视频被调整为 $ 480 \times 720 $ 的分辨率;
- 从每个视频片段中采样出 49 帧,用于生成目标视频。

为了评估模型性能,我们在第 3.6 节中说明的基准测试框架 **MagicBench** 和 **DAVIS [39]** 上对所有方法进行了全面评估。

---

通过采用 CogVideoX-5B 作为基础模型,并结合多阶段训练策略,MagicMotion 实现了从图像到视频的可控生成。同时,借助 MagicData 这一高质量数据集,以及合理的训练配置和评估指标,我们的模型在轨迹可控视频生成任务中展现出优异的性能。

2. 与其他方法的比较

为了进行全面和公平的比较,我们将我们的方法与 7 种公开的轨迹可控图像到视频(I2V)方法进行了对比。下面展示了定量比较和定性比较的结果。

定量比较

为了将 **MagicMotion** 与以往的工作进行对比,我们使用了 **DAVIS** 和 **MagicBench** 中每个视频的前 49 帧作为真实视频。由于部分方法 [31, 36, 50, 55, 64, 75, 78] 不支持生成长达 49 帧的视频,我们从这 49 帧中均匀采样 $ N $ 帧进行评估,其中 $ N $ 表示每种方法支持的视频长度。

基于掩码或边界框的方法:  


  我们利用这些选定帧的掩码和边界框注释作为输入,用于生成轨迹条件。

基于点或光流的方法:

 
  对于基于点或光流的方法,我们提取每一帧掩码的中心点作为输入 [31, 50, 55, 64, 75, 78]。

通过这种方式,我们确保了所有方法在相同的条件下进行公平比较,并能够全面评估它们在轨迹可控视频生成任务中的性能表现。

定性比较。定性比较结果如图5所示,同时提供了输入图像、提示和轨迹。如图5所示,Tora [78]能够准确控制运动轨迹,但难以保持对象的形状。而DragAnything [64]、ImageConductor [31]和MotionI2V [50]难以保持原始主体的一致性,导致后续帧出现大幅变形。同时,Drag - NUWA [75]、LeviTor [55]和SG - I2V [36]在精细细节上经常产生伪影和不一致性。相比之下,MagicMotion允许移动物体在保持高视频质量的同时,平滑地遵循指定轨迹。

3. 消融实验

为了评估 MagicData 的作用,我们构建了一个对比用的消融数据集,由两个公开视频目标分割(VOS)数据集 MeViS [9] MOSE [10] 组合而成。实验设置如下:

  1. 使用 MagicData 或消融数据集分别训练 MagicMotion 的第二阶段,且两者均使用相同的第一阶段权重初始化。
  2. MagicBench DAVIS 数据集上评估模型性能,比较不同训练数据对结果的影响。

通过这一实验,我们验证了 MagicData 在提升轨迹可控视频生成任务中的独特优势。

实验结果表明:

  • 渐进式训练 帮助模型逐步适应从密集到稀疏的轨迹条件,显著提升了稀疏控制下的表现。
  • 潜在分割损失 通过引入分割掩码信息,增强了模型对物体形状的精确理解,提高了轨迹控制的准确性

 

渐进式训练过程消融实验。渐进式训练过程允许模型利用前一阶段学到的权重,在稀疏轨迹条件下训练时融入密集轨迹控制信息。为了验证这种方法的有效性,我们以边界框作为轨迹条件,从头开始对模型进行一个轮次的训练。然后,我们将其性能与MagicMotion的第二阶段进行比较。

潜在片段损失的消融实验。潜在片段损失使模型在使用稀疏轨迹进行训练时能够预测密集的分割掩码,增强了其在稀疏条件下感知细粒度物体形状的能力。为了评估该技术的有效性,我们从阶段1开始使用边界框作为轨迹条件对模型进行一个周期的训练,并将其性能与MagicMotion阶段2进行比较。表3显示,缺少潜在片段损失会降低模型对物体形状的处理能力,导致轨迹控制不够精确。图8中的定性比较进一步凸显了这种影响。没有潜在片段损失时,生成视频中女性的手臂看起来不完整。 

 如表3所示,排除渐进式训练过程(Progressive Training Procedure)会削弱模型感知物体形状的能力,最终降低轨迹控制的准确性。图7中的定性比较进一步说明了这些影响,其中未采用渐进式训练过程(Progressive Training Procedure)训练的模型将女性的头部完全变成了头发。

 

图8. 潜在片段损失的消融实验。没有潜在片段损失,生成的手臂部分缺失。

在本文中,我们重磅推出了 **MagicMotion** —— 一种革命性的轨迹控制图像到视频生成方法!通过采用类似 ControlNet 的架构,MagicMotion 精妙地将轨迹信息无缝融入扩散变压器中,实现了对视频生成过程的精准操控。  

为了赋予模型更强的适应能力,我们创新性地引入了 **渐进式训练策略**,使 MagicMotion 能够灵活支持三种不同级别的轨迹控制:从精细的密集掩码,到简洁的边界框,再到稀疏的轨迹框,完美覆盖了从高精度到低密度的多样化需求。此外,我们还精心设计了 **潜在分割损失**,显著提升了模型在仅提供稀疏轨迹条件时感知细粒度物体形状的能力,确保即使在有限的信息输入下,也能生成高质量的动态效果。

与此同时,我们打造了一个堪称行业标杆的高质量数据集——**MagicData**。这一数据集通过强大的数据管道构建而成,专为轨迹控制视频生成任务量身定制,为模型训练提供了坚实的基础。不仅如此,我们还推出了一个全新的大规模基准测试平台——**MagicBench**。MagicBench 不仅全面评估视频质量和轨迹准确性,还深入考察了受控物体的数量,为领域研究设立了更高的标准。

经过在 **MagicBench** 和 **DAVIS** 上的大量实验验证,MagicMotion 的卓越性能得到了充分证明,其表现远超以往的工作,展现了我们在轨迹可控视频生成领域的领先地位!

---

核心亮点总结:
- MagicMotion:轨迹控制图像到视频生成的新范式,融合 ControlNet 架构与扩散模型。
- 渐进式训练:支持密集掩码、边界框和稀疏框三种轨迹控制级别。
- 潜在分割损失:提升稀疏轨迹条件下对细粒度物体形状的感知能力。
- MagicData:高质量标注数据集,助力模型训练。
- MagicBench:全新大规模基准,全面评估视频质量、轨迹准确性和受控物体数量。
- 实验结果:在 MagicBench 和 DAVIS 上的表现显著优于以往方法,彰显技术优势。