【论文阅读】When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding-EW帮帮网

论文阅读：

paper:https://arxiv.org/pdf/2408.08093
code:未开源

摘要：

现有的视频编码器主要通过消除内在冗余性来创建紧凑的表示以实现压缩。然而，多模态大语言模型（MLLMs）的强大外部先验尚未在视频压缩中被明确探索。在本文中，我们引入了一种跨模态视频编码（CMVC）的统一范式，这是首次尝试在视频编码中探索多模态表示和视频生成模型。具体来说，在编码器端，我们将视频分解为空间内容和运动组件，随后将这些组件转换为不同的模态，以利用MLLMs实现极为紧凑的表示。在解码时，使用之前编码的组件和视频生成模型创建多种编码-解码模式，以优化针对特定解码需求的视频重建质量，包括确保高质量语义信息的“文本-文本到视频”（TT2V）模式和实现卓越感知一致性的“图像-文本到视频”（IT2V）模式。此外，我们通过低秩适应（LoRA）调优提出了一种高效的帧插值模型，用于IT2V模式，以保证感知质量，使生成的运动提示表现得更加平滑。在基准实验中，TT2V实现了有效的语义重建，而IT2V展示了具有竞争力的感知一致性。该研究结果为未来视频编码研究提供了潜在的方向。

引言:

视频压缩的目标是消除冗余，从而在保持相同质量水平的情况下减少视频数据的总体量。近年来，传统和深度学习视频编解码器主要专注于保持信号级别的质量。然而，现有的编解码器在高压缩比下往往难以保留关键信息语义，导致视频重建质量较差。幸运的是，多模态大语言模型（MLLMs）的快速发展为超低比特率（ULB）和极低比特率（ELB）压缩带来了新的可能性。

论文提出了一种新的跨模态视频编码（CMVC）范式，结合了多模态大语言模型（MLLMs）和视频生成模型，优化视频的内容和运动表示以实现高效压缩。论文的核心思想是通过将视频内容和运动信息转化为文本或图像等多模态表示，利用MLLMs的强大能力来压缩视频。研究提出了两种主要的编码-解码模式：TT2V（文本-文本到视频）模式，用于在超低比特率下实现高质量的语义重建；以及IT2V（图像-文本到视频）模式，用于在极低比特率下确保感知一致性。在TT2V模式下，首先通过我们的选择策略提取代表性文本，有效编码视频内容和运动。然后，利用视频生成模型根据文本输入重建相应的视频。该策略的逻辑在于，编码器生成的紧凑但有效的文本表示能够封装语义细节，使解码器能够进行高质量的语义重建。而在IT2V模式下，输入与 TT2V 模式类似的文本表示，再结合编码器中选择的关键帧来实现更阿红的感知重建。为了确保连续帧之间的感知平滑性，我们提出了一种基于低秩适应（LoRA）调优的高效帧插值模型，能够充分利用文本和关键帧中的语义和视觉信息，以实现视频重建的高质量感知一致性。

主要贡献如下：

我们引入了一种统一的 CMVC 范式。据我们所知，这是首个将基础的 MLLMs 和视频生成模型应用于视频编码的研究。
我们详细阐述了多种编码-解码模式，以在特定解码需求下实现视频重建质量的权衡，包括确保高质量语义信息的 TT2V 模式和实现卓越感知一致性的 IT2V 模式。
广泛的实验表明，我们提出的 CMVC 流程在 HEVC Class B、C、D、E、UVG 和 MCL-JCV 基准上取得了具有竞争力的视频重建效果，同时保持了较高的压缩率。

方法：

在这里插入图片描述

CMVC 总体方案概述
我们提出了一种跨模态视频压缩的统一范式，称为CMVC，其框架如图1所示。首先，通过关键帧选择策略将视频分割为多个切片，并将每个切片分解为关键帧内容和运动成分。接着，利用多模态大模型（MLLMs）为这些组件创建多模态表示。例如，关键帧和运动可以使用 V2T 模型转换为文本格式。这些关键帧和运动的表示随后被压缩并传输到解码器。我们基于关键帧和运动的模态设计了两种不同的模式：TT2V 模式和 IT2V 模式。在 TT2V 模式中，关键帧和运动均表示为文本，以在超低比特率下生成语义一致性较高的视频。在 IT2V 模式中，关键帧表示为图像，运动通过文本描述，以实现感知一致性较高的视频生成。总体而言，该范式在保持高压缩比下提供了集成多种SOTA模型和模式转换的灵活性，同时确保了语义和感知质量。

CMVC 编码器

关键帧选择策略

关键帧用于将完整的视频序列划分为多个剪辑。设n为关键帧的数量，我们可以从视频中提取n-1个剪辑，其中首帧和末帧初始指定为关键帧。使用CLIP编码器对首帧进行编码，以提取包含简洁语义信息的高层特征向量 $\mathbf{v_k}$ 。我们计算首帧与后续帧之间的余弦相似度距离：
$D_v = \frac{\mathbf{v_k} \cdot \mathbf{v_{k+i}}}{\|\mathbf{v_k}\| \cdot \|\mathbf{v_{k+i}}\|} = \frac{\sum_{j=1}^m v_{k,j} \cdot v_{k+i,j}}{\sqrt{\sum_{j=1}^m (v_{k,j})^2} \cdot \sqrt{\sum_{j=1}^m (v_{k+i,j})^2}}$

其中 $\mathbf{v_{k+i}}$ 为后续帧提取的特征向量， $m$ 为向量 $\mathbf{v_k}$ 和 $\mathbf{v_{k+i}}$ 的分量数量。在均匀间隔内，选择与前一关键帧相似度最小的帧，以形成能更好展示显著运动的关键帧集。随后， $\mathbf{v_k}$ 被下一关键帧特征取代，起到动态机制的作用。此迭代过程对后续剪辑重复，系统地识别出具有代表性的关键帧。我们在图2中展示了关键帧选择策略的结果。
在这里插入图片描述

多模态表示
在我们提出的方案中，我们重点高效地表示视频的空间和时间信息，通过关键帧和运动来实现。设 $V$ 表示原始视频，关键帧表示为 ${k_1, k_2, \dots, k_n}$ ，其中每个 $k_i$ 为一个关键帧。关键帧之间的运动信息 $m_j$ 表示为 ${m_1, m_2, \dots, m_{n-1}}$ 。关键帧和运动通过以下方式转换为多模态表示： $T_{k,i} = f(k_i)$ 和 $T_{m,j} = g(m_j)$ ，其中 $f ()$ 和 $g ()$ 表示关键帧和运动的跨模态表示过程。如图1所示，关键帧可以转换为文本和视觉图像表示，而运动可以通过文本描述和光流来表示。因此，总比特率表示为：
$R_{total} = \sum_{i=1}^n R_k(T_{k,i}) + \sum_{j=1}^{n-1} R_m(T_{m,j})$
其中 $R_k$ 和 $R_m$ 为关键帧和运动的熵编码模块。比特率可以通过 $n$ 以及关键帧和运动的压缩比来调整。

CMVC 解码器

在解码器中，我们利用解码后的关键帧 $\hat{K}$ 和运动 $\hat{M}$ 进行视频生成，如下所示：
$\hat{V} = G(\hat{K}, \hat{M})$

其中 $G (*)$ 是视频生成模型， $\hat{V}$ 为重构后的视频。根据关键帧和运动的不同模态表示，我们设计了两种模式，包括 TT2V 模式和 IT2V 模式。

在 TT2V 模式中，我们采用 SOTA 视频生成模型，如 Open-Sora、VideoCrafter2、AnimateDiff 等，根据解码后的关键帧和运动描述生成视频。利用这些模型的进展，我们可以采用多种技术来实现最佳的语义重建。我们的研究发现，描述越详细对应的比特率越高，从而生成视频的语义质量越好。而在 IT2V 模式中，我们将关键帧图像与运动描述相结合，以提高生成视频的感知质量。除了采用现有的 IT2V 模型外，我们还提出了一种高效的生成模型，利用 LoRA 调优来确保极低比特率下的高质量感知一致性。
在这里插入图片描述

IT2V 生成模型
IT2V 模式旨在根据关键帧图像和运动描述获得重建后的视频。我们提出了一种 IT2V 生成模型，根据两个关键帧图像（ $I_0$ 和 $I_1$ ）以及该视频片段的运动描述来生成视频片段。具体来说，我们采用了一个稳定扩散（SD）模型，并结合低秩自适应（LoRA），通过训练低秩残差成分 $\Delta\theta$ 来微调模型参数 $\theta$ 。这一残差可以被分解为低秩矩阵的乘积。LoRA 在不同潜在噪声遍历之间保持一致的语义标识的同时，展示了生成各种样本的显著效率。所提出的 IT2V 模型的流程如图3所示。我们首先在 SD UNet $\epsilon_{\theta}$ 上训练两个 LoRA 模块（ $\Delta\theta_0$ 和 $\Delta\theta_1$ ），分别用于图像 $I_0$ 和 $I_1$ 。 $\Delta\theta_i(i=0,1)$ 的学习目标为：
$(\Delta\theta_i) = \mathbb{E}_{\epsilon, t} \left[ \|\epsilon - \epsilon_{\theta + \Delta\theta_i} (z_{t,i}, t, c_i)\|^2 \right]$

其中 $z_{t,i} = \sqrt{\bar{\alpha_t}} z_i + \sqrt{1 - \bar{\alpha_t}} \epsilon$ 为扩散步骤 $t$ 下的噪声潜在嵌入， $z_i$ 为 $i$ 图像 $I_i$ 的 VAE 编码的潜在变量， $\epsilon \sim \mathcal{N} (0, I)$ 为随机采样的高斯噪声， $c_i$ 为从运动提示中编码的运动嵌入。 $\epsilon_{\theta + \Delta\theta_i}$ 表示集成 LoRA 的 UNet。 $\Delta\theta_0$ 和 $\Delta\theta_1$ 分别通过梯度下降独立优化。
帧和模型插值
为了生成中间帧 $I'_w$ ，我们首先进行关键帧插值：
$I'_w = w_i \times I_0 + (1 - w_i) \times I_1$

基于 DiffMorpher 方法，我们进一步根据 $\Delta\theta_0$ 和 $\Delta\theta_1$ 对模型权重 $\Delta\theta_l$ 进行插值：
$\Delta\theta_l = w_l \times \Delta\theta_0 + (1 - w_l) \times \Delta\theta_1$
$\Delta\theta_l$ 是 LoRA 参数，被集成到 UNet $\epsilon_{\theta + \Delta\theta_l}$ 中。统一的线性插值可能会导致不均匀的过渡。因此，我们在编码器端对 $w_i$ 和 $w_l$ 进行在线训练，以约束 $D(I_w, \hat{I}_w)$ ，其中 $D (*)$ 是 $L 2$ 损失。我们只更新 $w_i$ 和 $w_l$ ，具体如下：
$w_{i}^{t+1} = w_{i}^{t} - \alpha \nabla D(w_{i}^{t})$
$w_{l}^{t+1} = w_{l}^{t} - \alpha \nabla D(w_{l}^{t})$
其中 $w_{i}^{t}$ 和 $w_{l}^{t}$ 为训练步骤 $t$ 下的参数， $\alpha$ 为学习率，设为 0.001， $\nabla D(*)$ 表示损失函数相对于训练步骤 $t$ 参数的梯度。在获得最优的 $w_i^{t}$ 和 $w_l^{t}$ 后，我们将它们压缩并传输到解码器中。随后，VAE 解码器将去噪潜在表示重构为第 $w$ 帧，得到 $\hat{I}_w$ 。

实验：

有多种最先进的基础模型可用于视频理解。我们选择了两个主要模型，即 VideoLLaVA 和 VideoLLaMA，用于从视频中提取语义信息。该过程与图1中所示的 V2T 阶段一致，所选择的模型在提取关键帧和运动的语义描述方面起到了重要作用。
在 TT2V 模式中，有许多视频生成模型可供使用。在此背景下，我们采用了先进的视频生成模型，包括 Open-Sora、VideoCrafter1、VideoCrafter2 和 AnimateDiff，以基于文本输入生成视频。
结果：
对比实验：
在这里插入图片描述

TT2V 模式的对比 我们对两个最先进的 V2T 模型 VideoLLaVA 和 VideoLLaMA 进行了对比分析，随后将对比扩展到五个视频生成模型：VideoCrafter1、VideoCrafter2、ModelScope、OpenSora 和 AnimateDiff。此外，我们还将这些模型与传统的视频编解码器 VVC 在 QP=63 下进行比较，这种设置下的比特率高于我们提出的方案。我们的评估主要集中在五个方面：主体一致性、背景一致性、时间闪烁、运动流畅性和帧质量。结果如图4所示，TT2V 生成模型在帧质量、背景和主体表示的一致性方面均优于 VVC。这些结果反映了所有测试数据集的平均表现，详细的对比结果可以在补充材料中找到。图4 中的视觉质量对比表明，VVC 存在显著的块状伪影，这严重影响了视频语义信息的有效传达。
在这里插入图片描述

IT2V 模式的对比我们将所提出的模型与传统编解码器（如 x264、x265 和 VVC）以及深度视频编解码器（如 DCVC 和 DCVC-DC）进行了比较。如图6 所示，我们使用 DISTS 评估感知质量。使用其他评估指标（如 LPIPS、FID 和 PSNR）的对比结果在补充材料中提供。然而，深度视频编解码器提供的预训练模型在实现极低比特率编码方面存在限制。此外，我们还将所提出的模型与多种视频生成模型进行比较，包括 RIFE、AMT 和 DiffMorpher，详细信息见表1。通过调整关键帧的数量和质量，我们可以有效地控制比特率。对于我们的比较，我们选择了最佳设置用于比较，具体设置可以在补充材料中找到。我们的模型在大多数数据集上表现优越，相比于其他视频生成模型展现出更大的稳定性。在相似的比特率下，我们评估了视觉质量，如图5和图7所示。所提出的模型在空间和时间维度上均展现了优越的感知质量。此外，我们还展示了通过 TT2V 和 IT2V 模式解码生成的视频帧。TT2V 模式有效保留了与原始视频的语义一致性，而 IT2V 模式则进一步保证了感知一致性。
消融实验：
在这里插入图片描述

关键帧我们进行了关于关键帧的消融实验，重点研究了关键帧选择方法、关键帧图像的质量以及关键帧图像的数量。在关键帧选择过程中，我们评估了各种采样策略，包括均匀采样和随机采样。由于这些技术不依赖于距离函数，我们还将该采样策略与均方误差（MSE）距离及我们采用的余弦相似度（CS）距离进行了比较。对于关键帧图像的质量，我们改变了质量等级，包括低、中、高质量，分别对应于压缩因子 64、128 和 256。结果如表 2 所示，解码图像质量越高，比特率消耗也会增加，因此更高的质量不一定会带来更好的 BD-Rate。通过根据视频的帧数调整关键帧的数量，我们发现较少的关键帧数量能够在质量与比特率消耗之间保持平衡。
在这里插入图片描述

IT2V 生成模型我们还对 IT2V 模式的不同设置进行了消融实验，主要研究了运动描述的影响、不同编解码器的效果、更新策略、训练步数以及采样步数。在运动描述方面，我们对比了没有运动描述和包含运动描述的模型，结果如表 3 所示，包含运动描述显著提高了视频重建质量。此外，我们还探索了用于关键帧图像的多种编解码器，例如 Hyperprior、NIC 和 NTVP。在这些编解码器中，NTVP 通过更低的编码率展现了更好的重建质量。我们的模型需要根据输入更新 $w_i$ 和 $w_l$ ，因此我们进一步评估了不同的更新策略的有效性，如表 3 所示。为了评估这些更新策略的有效性，我们在表 3 中提供了进一步的评估。此外，我们还研究了不同训练步数和采样步数的影响。增加采样步数与改进的结果呈正相关。为了在性能和计算效率之间取得平衡，我们选择了 100 个训练步数和 50 个采样步数作为最终的实现配置。

结论：

提出了一种跨模态视频压缩（CMVC）范式，这代表了视频编码技术的一个有前景的进步。该框架有效地解决了在超低比特率（ULB）和极低比特率（ELB）下保持语义完整性和感知一致性的问题。通过利用多模态大模型（MLLMs）和跨模态表示技术，所提出的 CMVC 框架将视频分解为内容和运动成分，并将其转换为不同模态，以实现高效的压缩和重建。通过 TT2V 和 IT2V 模式，CMVC 实现了在语义信息和感知质量之间的平衡，提供了一种在高压缩比下的全面解决方案。

CMVC 包含 TT2V 和 IT2V 模式，但未来可以进一步探索更多的模式。例如，运动表示可以通过光流或轨迹来实现。通过集成关键帧和运动的多种模态，我们可以满足不同的重建需求。此外，未来的研究应着重在更高比特率下改进 CMVC，通过整合更多的控制信息来促进原始视频的重建。该方法旨在实现与传统编解码器相比，在所有比特率和维度下更优的性能。

【论文阅读】When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding

论文阅读：

摘要：

引言:

方法：

CMVC 编码器

CMVC 解码器

实验：

结论：

Note：

网站公告

今日签到

热门文章

最新发布