Learning from Temporal Gradient for Semi-supervised Action Recognition-EW帮帮网

半监督视频动作识别倾向于使深度神经网络即使在非常有限的标记数据下也能达到显著的性能。然而，现有的方法主要是从当前的基于图像的方法（如FixMatch）中迁移过来的。由于它们没有专门利用时间动态和固有的多模态属性，其结果可能是次优的。为了更好地利用视频中编码的时间信息，本文引入了时间梯度作为另一种模态，以便在特征提取中更加关注。具体来说，我们的方法明确地从时间梯度（TG）中提取精细的运动表示，并在不同的模态（即RGB和TG）之间施加一致性。在推理过程中，无需额外的计算或参数，半监督动作识别的性能得到了显著提高。我们的方法在几个典型的半监督设置（即不同比例的标记数据）下，在三个视频动作识别基准测试（即Kinetics-400、UCF-101和HMDB-51）上均达到了最先进的性能。代码已公开可用，地址为：https://github.com/lambert-x/video-semisup。

1. 简介

视频动作识别作为视频理解的一项基础任务，已经引起了社区和行业的广泛关注[5, 9, 45, 47]。与图像相关的任务不同，由于任务的复杂性，与视频相关的网络通常更容易过拟合[23, 45, 46]。常见的做法是先在大规模数据集（例如，最多包含650,000个视频片段的Kinetics[4]）上预训练网络，然后在下游的小型数据集上进行微调以获得更好的性能[9, 15, 32, 33]。

然而，由于标注大规模视频数据集既耗时又昂贵，在完全标注的大型数据集上训练模型受到了阻碍。为了以可接受的成本利用大规模数据集，一些研究人员转向设计半监督学习模型，这些模型在有限的标注下具有良好的泛化能力[21, 37, 55, 58]。基于伪标签的方法（例如，FixMatch[38]和MixMatch[2]）已经在半监督图像分类中显示出了出色的性能，因此大多数先前的基于视频的方法都严重依赖于它们来利用未标记的数据。尽管这些初步尝试已经取得了可接受的结果，但大多数方法[21, 58]只是简单地将视频片段视为3D中的“图像”，而没有进一步考虑视频的特性。

视频与图像存在显著差异，关键在于多帧中的时间信息跨度和固有的多模态属性。时间信息指的是帧之间的运动信号，通常来自同一视频的连续帧的特征变化是平滑的。多模态一致性期望从相同视频片段中提取的特征是一致的，因为它们编码了相同的内容。没有专门针对时间信息和多模态一致性进行特殊设计，半监督动作识别的潜力就没有得到充分发挥。

一些先前的研究[51, 57]将时间梯度作为一种额外的模态来更好地利用视频中编码的时间信息，因为它富含运动信号。时间梯度可以表示为： $TG = x_{t}^{RGB} - x_{t+n}^{RG{B}}$ ，其中x代表一个视频，t表示帧索引，n表示计算时间梯度的间隔。

受到这些研究的启发，我们在半监督设置下尝试了时间梯度，并发现当将RGB中的输入帧替换为时间梯度时，可以产生更好的性能。如图1所示，在UCF-101数据集上，当仅使用20%的标记数据进行训练时，时间梯度的Top-1准确率比使用RGB作为输入高出约25%。

图1. 上方：一个描述不同模态（即RGB、慢速和快速时间梯度（TG））形成的示意图。下方：以FixMatch[38]作为半监督学习方法基线的Top-1准确率对比图。该图表比较了不同输入模态（即RGB、慢速TG和快速TG）的性能。时间梯度的出色表现激发我们寻找一种方法来有效地利用这一有益的模态。通过将时间梯度的知识蒸馏到RGB中，我们的模型能够显著超越仅使用时间梯度或RGB帧作为输入的模型。

为什么在时间梯度下，当训练数据有限时，它的表现比RGB帧要好得多呢？我们假设关键在于时间梯度中编码的详细且精细的运动信号。沿着时间维度的梯度是颜色不变的，并明确编码了视频中动作的代表性运动信息。当标签极为有限时，这有助于模型更容易地泛化。因此，在本文中，我们提出训练一个基于RGB的半监督动作识别模型，以模仿时间梯度中的精细和高层次特征。

我们从FixMatch[38]开始，这是一个典型的基于伪标签的半监督模型，作为基线框架。然而，在特征层面没有任何进一步约束的情况下，基于伪标签的方法在标签非常有限的情况下表现不佳，因为许多生成的伪标签不准确。因此，我们提出了两种约束，以帮助模型从多个模态的视频中提取时间信息，并提高多模态表示之间的一致性。为了利用时间梯度中详细且精细的运动信号，我们提出了一种基于块级密集对齐的知识蒸馏策略，这有助于学生RGB模型从教师时间梯度模型中高效且有效地学习。为了进一步改善不同模态之间的高级表示空间，我们对来自RGB和时间梯度序列的特征进行对比学习，以强制实施高阶相似性。鉴于在特征层面的两种约束，我们提出的模型能够实现更好的性能。

与现有方法不同，我们的模型有两个独特的优势。首先，我们的模型在推理时不需要额外的计算或参数。在训练时，我们将时间梯度的知识蒸馏到基于RGB的网络中；在测试时，仅需要RGB模型。其次，我们的模型简单而有效。我们在多个公共动作识别基准测试集上进行了实验，包括UCF-101、HMDB-51和Kinetics-400。我们提出的方法在性能上大幅超越了所有现有最先进的方法。

2.相关工作

图像中的半监督学习。半监督图像分类任务已经得到了广泛的研究，并提出了许多方法，包括Pseudo-Label [26]、S4L [56]、MeanTeacher [42]、MixMatch [2]、UDA [54]、FixMatch [38]、UPS [34]等。Pseudo-Label [26]是一个早期的方法，它使用未标记数据的置信度（softmax概率）作为标签，并与一小部分标记数据和大量未标记数据一起训练网络。已经提出了许多Pseudo-Label的改进版本，而关键在于提高标签的质量[34, 38]。跟随图像分类中的一种先进方法——FixMatch [38]，许多类似FixMatch的方法在许多其他任务上（包括检测[49]、分割[59]等）都取得了最先进的性能。尽管这些方法在基于图像的任务上取得了显著的性能，但最近的一些研究表明，当直接将这些方法应用于视频半监督任务时，性能并不令人满意[21, 37]。

视频中的半监督学习。尽管已经提出了一些半监督视频动作识别方法[21, 37, 55, 58]，但大多数方法都是直接将基于图像的方法应用于视频，而对视频的时序动态性关注较少。VideoSSL[21]首次尝试通过使用ImageNet预训练模型训练网络来为视频半监督学习任务建立基准，这明确引导模型学习每个视频中的外观信息。它还显示，现有的基于图像的方法（如Pseudo-Label[26]、Mean-Teacher[42]）在视频半监督基准上的性能较差。TCL[37]是一种最近提出的方法，它通过采用自监督辅助任务和组对比学习来共同优化网络。通过利用多模态数据，MvPL[55]通过共享具有不同输入模态（RGB、时间梯度和光流）的相同模型并利用多模态的“置信度”生成伪标签，达到了最先进的性能。与这些方法相比，我们的方法特别关注于通过我们提出的约束从时间梯度中学习时序信息，并在多个公共基准测试中显著优于现有最先进的方法。

多模态视频特征学习。视频可以从不同的模态进行查看，而每个模态都从独特的角度编码信息。例如，一般的RGB视频同时包含空间和时间信息，时间梯度是颜色不变的，主要编码帧之间的差异，而光流则明确地为每个像素编码运动信息。来自不同模态的特征通常是互补的，因此通常会进行特征融合以获得更好的性能。先驱工作是Two-Stream[11,36]模型，它融合了来自RGB视频片段和光流片段的特征。由于来自不同模态的互补信息，多模态网络能够取得更好的性能[1, 11, 36, 50, 52]。然而，在推理过程中会增加额外的计算和延迟。与常规的多模态特征融合模型不同，我们的模型从时间梯度中提取与运动相关的表示，并将其提炼到基础RGB模型中，从而在推理阶段仅需要基础模型和RGB帧。此外，我们的模型在推理时仅使用RGB作为输入就超过了教师模型的性能。

对比学习。对比学习方法在下游图像分类任务上取得了显著的性能[3, 6, 13, 16, 28, 44]。其关键思想是通过最小化正对（同一数据样本的两个视图）的特征距离并最大化负对（两个不同的数据样本）的特征距离来学习表示。最近，许多研究人员提出了使用时间对比学习进行视频自监督学习[10,15,19,32,33]。在本文中，为了更好地利用未标记数据进行半监督动作识别，我们提出了使用跨模态对比损失来加强RGB片段和时间梯度片段的特征一致性。我们展示了跨模态对比学习方法对于所提出的半监督学习非常有效。

3. 方法

我们方法的目标是通过引入和利用视频的一个有效视角——时间梯度（Temporal Gradient），来提高半监督动作识别任务的性能。我们提出的框架概述如图2所示，该框架包含三个主要组件：(1) 使用弱-强增强策略的FixMatch框架，为未标记数据生成更好的伪标签；(2) RGB片段和TG片段之间的跨模态密集特征对齐，使网络能够学习精细的运动信号；(3) 跨模态对比学习，以学习RGB和TG片段之间的高级一致性特征。以下各小节将介绍每个组件的公式化表达。

图 2. 我们提出的框架的概述。我们的方法由两个并行模型组成，它们具有不同的视频片段输入模态（即，RGB 和 TG）。整个框架通过以下三个步骤联合优化：(1) 两个带有伪标签的并行 FixMatch 框架，(2) 跨模态密集特征对齐，以及 (3) 跨模态对比学习。

3.1. FixMatch

考虑一个多分类问题，我们定义 $\mathcal{X} = \{(x_{i},y_{i})\}_{i=1}^{N_{l}}$ 为有标签的训练集，其中 xi ∈ RT×H×W×3 是第 i 个采样的视频片段，yi 是对应的独热编码的真实标签，Nl 是有标签集中的数据点数量。类似地，我们定义 $\mathcal{U} = \{x_{j}\}_{j=1}^{N_{u}}$ 为无标签集，其中 Nu 是无标签集中的数据点数量。我们用 fθ 表示一个带有可训练参数 θ 的分类模型。我们用 α(·) 来表示弱（标准）增强（例如，在视频动作识别中的随机水平翻转、随机缩放和随机裁剪），用 A(·) 来表示强的数据增强策略（例如，Randaugment [8]）。

网络 fθ 是通过每个包含 T 帧的视频片段 xi 进行优化的。对于一小批有标签数据 $\{(x_i,y_i)\}_{i=1}^{B_l}$ ，网络通过最小化交叉熵损失 Ll 来优化，即
$\mathcal{L}_l=-\frac{1}{B_l}\sum_{i=1}^{B_l}y_i\log f_\theta(\alpha(x_i)),\text{(1)}$
其中 Bl 是一个批次中有标签样本的数量。

对于一小批无标签数据 $\{x_{j}\}_{j=1}^{B_{u}}$ ，FixMatch 强制模型对同一无标签数据样本在不同程度的增强（强增强和弱增强）下产生一致的预测。具体来说，无标签数据的伪标签 ˆy 通常通过置信度阈值生成，即：
$\mathcal C=\{x_j|\max f_\theta(\alpha(x_j))\geq\gamma\},\quad(2)$
其中 γ 是一个预定义的阈值，C 是一个小批次中的置信样本集。集合 C 中的置信预测 fθ(α(xj)) 然后通过取 argmax 操作转换为独热标签 ˆyj。接着，在 C 中的样本和生成的独热标签上优化交叉熵损失 Lu，即：

$\mathcal{L}_{u}=-\frac{1}{B_{u}}\sum_{x_{j}\in\mathcal{C}}\hat{y}_{j}\log f_{\theta}(\mathcal{A}(x_{j})),\quad(3)$

其中，Bu为批中未标记样品的数量。

FixMatch 允许模型从未标记的数据中学习，通过由有标签的数据优化得到的分类网络fθ对弱增强的无标签进行分类得到伪标签，同时使用强增强策略 A(·) 来增强这些未标记的数据，同时确保与弱增强策略 α(·) 下的预测伪标签保持一致。

带标签的数据用来优化分类网络fθ；

对于不代标签的数据：

1.弱增强的数据通过fθ用来生成伪标签；

2.强增强的数据和伪标签进行交叉熵损失，来优化伪标签的生成能力。

考虑到标记和未标记数据的损失，整个FixMatch的目标函数为:

$\mathcal{L}_{fm}=\mathcal{L}_l+\mathcal{L}_u.\quad(4)$

3.2. 并行时间梯度框架

时间梯度（TG）（∂V/∂t）在视频中的两个RGB帧之间编码了外观变化，并且对应着动态变化的时间信息。因此，运动物体的响应被加强了，特别是边界部分。FixMatch[38]最初是为图像分类任务设计的，并且很少关注视频的时间信息，因此，我们将其扩展到与RGB和TG一起训练，以更明确地关注捕获时间信息。为了避免在处理未见视频模型推理时计算时间梯度的额外计算和延迟，我们提出从TG中提炼出精细的运动信号到RGB中，而不引入额外的输入或参数用于推理。

RGB和时间梯度信息是互补的。RGB以一般方式编码空间和时间信息，而时间梯度则专注于运动信号，如图1所示。因此，对于每个视频片段，来自RGB网络和TG网络的预测都被平均，然后用于生成伪标签。通过这种方式，融合伪标签的生成被重新表述为：

$\mathcal{C}=\{x_j|\max(\frac{f_{\theta_R}(\alpha(x_j^{RGB}))+f_{\theta_T}(\alpha(x_j^{TG}))}{2})\geq\gamma\}.\quad(5)$

通过同时访问RGB和TG的特征，融合伪标签的质量比仅从每个模型得到的预测更为准确，并在第4.5节中提供了更详细的消融研究。这些融合的伪标签将与无标签数据一起用于训练TG和RGB模型。对于时间梯度模型，训练目标也是方程（1）和方程（3）的和，适用于TG。

$\mathcal{L}_{fm}^{TG}=\mathcal{L}_{l}^{TG}+\lambda_{u}\mathcal{L}_{u}^{TG}.\quad(6)$

3.3. 跨模态密集特征对齐

为了从时间梯度中学习详细的细粒度运动，我们提出将时间梯度模型的知识蒸馏到RGB模型中。通过跨模型密集特征对齐模块，最小化来自时间梯度和RGB片段的特征之间的相似性，如下所示：

$\min\left[\mathcal{D}\left(\mathcal{F}_i^{RGB},\mathcal{F}_i^{TG}\right)\right],\quad(7)$

其中， $\mathcal{F}_i^{RGB},\mathcal{F}_i^{TG} \in \mathbb{R}^{C_i\times T_i\times H_i\times W_i}$ 表示RGB和TG模型中第i个块的输出特征，D表示评估表示差异的成对函数。D有许多选择，我们在实验中尝试了三种不同的函数：L1、L2和余弦相似度损失（如方程（8）所示，其中∥⋅∥1 和 ∥⋅∥2 是ℓ1/ℓ2范数）。第4.5节将进行更详细的讨论。

$\begin{aligned} &\mathcal{D}_{L1}\left(\mathcal{F}_{1},\mathcal{F}_{2}\right) =\left\|\mathcal{F}_{1}-\mathcal{F}_{2}\right\|_{1}, \\ &\mathcal{D}_{L2}\left(\mathcal{F}_{1},\mathcal{F}_{2}\right) =\left\|\mathcal{F}_{1}-\mathcal{F}_{2}\right\|_{2},\quad(8) \\ &\mathcal{D}_{cos}\left(\mathcal{F}_{1},\mathcal{F}_{2}\right) =-\frac{\mathcal{F}_{1}}{\left\|\mathcal{F}_{1}\right\|_{2}}\cdot\frac{\mathcal{F}_{2}}{\left\|\mathcal{F}_{2}\right\|_{2}}. \end{aligned}$

我们在线知识蒸馏方法中的一个关键设置是在时间梯度侧使用停止梯度（stopgrad）操作，这意味着教师模型不会从对齐损失中接收任何梯度。这有助于TG模型避免因与RGB学生模型对齐而退化。如方程（9）所示，学习细粒度运动特征的对齐损失项是：

$\mathcal{L}_{kd}=\left[\mathcal{D}\left(\mathcal{F}_i^{RGB},stopgrad(\mathcal{F}_i^{TG})\right)\right].\quad(9)$

最小化来自时间梯度和RGB片段的特征之间的相似性：

通过优化过程使得时间梯度模型（TG模型、教师模型）和RGB模型（学生模型）在对应层的特征表示尽可能相似或接近，努力使RGB模型产生的特征表示更接近于时间梯度模型产生的特征表示，从而使学生模型能够继承教师模型在捕获细粒度运动方面的能力。

3.4. 跨模态对比学习

密集特征对齐明确地使RGB网络能够模仿来自时间梯度的细粒度运动信号。我们假设不同模态之间的全局高级表示同样具有价值和重要性。因此，我们采用了跨模态对比学习作为另一个模块，来发现同时存在于TG和RGB片段中的共同信息。遵循SimCLR [6] 和CMC [44] 的原理，我们通过正样本对和负样本对来形成对比学习。具体来说，我们将同一视频片段的两种模态视为一个正样本对{k+}，而将不同视频片段的两种模态视为负样本对{k-}。学习目标是最大化正样本对的相似性，并最小化负样本对的相似性。我们采用InfoNCE损失[31]作为从RGB和TG提取的特征的目标函数：

$\mathcal{L}_{clr}=-\log\frac{\sum_{k\in\{k^+\}}\exp{(sim(q,k)/\tau)}}{\sum_{k\in\{k^+,k^-\}}\exp{(sim(q,k)/\tau)}},\quad(10)$

其中τ是一个用于缩放的温度超参数。所有嵌入特征都被ℓ2归一化，并使用点积（余弦）相似度 $sim(q, k) =q^\top k/\|q\|\|k\|$ 来进行比较。

值得注意的是，这种跨模态对比学习直接在FixMatch中的两种模态的所有弱增强样本（ $\alpha(x_i^{RGB/TG})$ ，因为带标签的数据只进行了弱增强）上使用，包括标记数据（不使用标签）和未标记数据。因此，在数据加载和预处理方面没有额外的计算成本。

总损失：我们的整个模型基于有标签数据的交叉熵损失、带有伪标签的无标签数据的交叉熵损失、在有标签和无标签数据上的密集对齐损失，以及在有标签和无标签数据上的跨模态对比损失进行联合训练。总的来说，我们方法的最终目标函数是：

$\mathcal{L}_{total}=w_{fm}(\mathcal{L}_{fm}^{RGB}+\mathcal{L}_{fm}^{TG})+w_{kd}\mathcal{L}_{kd}+w_{clr}\mathcal{L}_{clr}.\quad(11)$

有标签数据的交叉熵损失是用来训练分类网络的，带有伪标签的无标签数据的交叉熵损失是用来更好的生成伪标签的，在有标签和无标签数据上的密集对齐损失是用来将时间梯度信息蒸馏到rgb模型中的（局部特征对齐），在有标签和无标签数据上的跨模态对比损失是用来学习不同模态之间的全局高级特征。

4. 实验结果

4.1. 数据集和评估

数据集：我们遵循先前最先进的半监督视频动作识别方法[21, 55, 58]，在我们的方法上评估了三个公开的动作识别基准数据集：UCF-101 [39]、HMDB-51 [25] 和 Kinetics400 [24]。UCF-101 是一个广泛使用的数据集，包含 13,320 个视频，属于 101 个类别。HMDB-51 是一个较小的数据集，包含 6,766 个视频，共有 51 个类别。对于 UCF-101 和 HMDB-51，我们遵循 VideoSSL [21] 发布的数据划分。Kinetics-400 数据集是一个大规模数据集，包含约 235k 个训练视频和约 20k 个验证视频，属于 400 个类别。对于 Kinetics-400，我们遵循最近最先进的方法 MvPL [55]，通过为每个类别随机采样 6 个和 60 个视频来形成两个平衡的有标签子集，分别对应 1% 和 10% 的设置。

评估：我们在主要比较中报告了 Top-1 准确率，并在一些消融研究中报告了 Top-5 准确率。

4.2. 实现细节

网络架构：为了与最先进的方法[21, 55]进行公平比较，我们采用了FixMatch[38]框架作为骨干模型，同时采用3D ResNet-18[17, 47]作为RGB和TG（时间梯度，见第3.2节）两种模态的特征提取器。对于每个特征提取器，我们都添加了两个具有3层非线性MLP架构的对比头，用于跨模态对比学习（见第3.4节）。

视频增强：有两种类型的数据增强：弱增强和强增强。对于弱增强，我们采用随机水平翻转、随机缩放和随机裁剪，遵循[58]中的方法。具体来说，给定一个视频片段，我们首先将视频调整为短边为256，然后执行随机大小裁剪操作。裁剪后的片段随后被调整为224×224像素，并以50%的概率进行水平翻转。对于强增强，我们选择了RandAugment[8]，它从一个大的增强池（例如旋转、颜色反转、平移、对比度调整等）中为每个样本随机选择一小部分变换，然后对这些样本执行所选的数据增强。值得注意的是，教师（TG）和学生（RGB）都使用相同的弱增强（即，输入在相同的区域内进行裁剪，并都进行翻转或不翻转）。这为第3.2节中的密集对齐提供了直接的位置信息匹配，起到了关键作用。

4.3. 跨模态密集对齐和对比学习的有效性

我们首先进行直接比较来检验我们的假设：在局部和全局特征上施加的多模态约束可以作为现有半监督方法（以FixMatch[38]为基准）的两个互补扩展。为此，我们设计了密集对齐（第3.3节）来规范局部特征，并开发了对比损失（第3.4节）来区分全局特征。为了公平比较，我们取消了四种实验设置（详见表1）：（1）无，（2）仅对齐，（3）仅对比，（4）两者都有。我们使用了不同标记数据比率（即1%，10%，20%，和50%）的Kinetics-400、UCF-101和HMDB-51数据集，以确保以下观察结果的一般性。首先，FixMatch（无）的表现虽然可以接受但比其三个对照设置差，这表明仅使用伪标签在标记数据非常有限时是不够的。其次，密集对齐显著提高了性能（比仅对比更多），表明跨多模态的精细运动信号在半监督动作识别中起着关键作用。第三，在RGB和TG模态之间引入对比损失提高了Top-1/Top-5准确率，揭示了不同模态之间的全局一致性是有益的。最后，密集对齐和对比损失从互补的角度强化了模型学习，因为在FixMatch基础上同时实现两者时，性能超过了单独使用其中任何一个。我们希望我们在多模态约束方面的发现能为视频分析中的半监督动作识别带来新的启示。

过拟合现象得到了缓解。表6（补充材料）展示了训练集和测试集之间显著的准确率差距，这表明FixMatch严重地过拟合了训练集。我们的方法通过在以RGB为输入的模型上施加额外的正则化，有效地缩小了这一差距。

4.4. 与最先进方法的比较

为了展示我们提出的方法的能力和潜力，我们在公共数据集Kinetics-400、UCF-101和HMDB-51上与最新的半监督动作识别任务的最先进方法进行了比较。如表2所示，我们主要与两类方法进行了比较，包括最初为图像分类设计然后简单应用于视频任务的基于图像的方法[26, 42, 56]，以及专门为视频动作识别任务设计的基于视频的方法[21, 37, 55, 58]。

与基于图像的方法的比较：表2的前三行显示了基于图像的方法的结果，包括Pseudo-Label[26]、MeanTeacher[42]和S4L[56]。总体而言，这三种基于图像的方法在三个数据集上所有不同标记百分比下的结果都远低于所有基于视频的方法的结果。这证实了有必要提出专门针对视频的时序和多模态属性设计的方法。

与基于视频的方法的比较：基于视频的方法的整体性能要高得多。VideoSSL通过使用ImageNet预训练模型来指导学习而超越了所有基于图像的方法，而TCL[37]使用自监督学习任务作为辅助任务，并为视频半监督学习采用组对比。ActorCutMix[58]和MvPL[55]都是从FixMatch[38]改编而来的。得益于我们提出的跨模态密集对齐和跨模态对比损失，我们的方法在所有实验设置（不同的标签比例）下，在三个数据集上都显著优于这些方法。

4.5. 消融研究

为了了解我们方法中每个设计部分的影响，我们在UCF-101数据集上，使用20%标记设置进行了广泛的消融研究。

快速时间梯度更有效。时间梯度（TG）是通过比较两个RGB帧之间的差异来计算的，这两个帧之间的步长可以小也可以大，以生成快速或慢速TG。为了深入研究不同步长的影响，我们使用快速TG（计算步长=1）和慢速TG（计算步长=7）进行了实验，结果如表3a所示。第一组比较了使用不同模态数据作为输入的基线FixMatch框架的性能。结果证实，无论是慢速TG还是快速TG，其性能都远优于仅使用RGB（高出25%以上），并且也展示了在半监督设置中，快速TG优于慢速TG。表3a的第二组比较了使用不同时间梯度的模型的最终性能。当使用快速TG生成伪标签时，模型性能大幅度超过使用慢速TG的性能（74.1% vs. 68.2%）。为了找出快速TG性能远高于慢速TG的原因，我们对三个视频片段的两种时间梯度进行了可视化，如图3所示。比较表明，当摄像头有明显移动时，慢速TG包含更多的噪声背景信息，而快速时间梯度信息则更关注于快速移动物体（例如，人、球）的边界。定量和定性结果都验证了快速TG在半监督动作识别中优于慢速TG。

对齐函数的选择：正如在3.3节中讨论的，对齐损失函数有很多可能的选择，只要它能有效地加强两个特征之间的相似性。我们研究了三种不同的对齐函数，包括L1、L2和余弦相似度损失。如表3(b)所示，虽然这三种对齐损失函数都取得了高性能，但余弦相似度（74.6%）的表现优于其他两种函数（74.0% & 74.4%）。一个可能的解释是，L1和L2对两个表示的尺度有更严格的约束，而余弦相似度损失则更关注向量的方向（例如，向量v1=(10,10,10)和v2=(1,1,1)的L1和L2损失很大，但余弦相似度损失为0）。尽管在训练过程中将时间梯度（TG）归一化到0-255的范围，但RGB和TG的表示之间在尺度上仍然存在差异。像L1或L2这样的严格约束会对模型学习运动特征产生负面影响。

知识蒸馏中的停止梯度：在3.3节中提到的在TG端进行的停止梯度操作是成功进行密集对齐知识蒸馏的关键之一。然而，由于学生RGB模型包含了很多TG所没有的外观信息，如果直接使用密集对齐策略进行训练，会导致教师TG模型大大退化，难以专注于提取细粒度的运动特征。停止梯度操作避免了TG模型中的细粒度运动相关表示受到RGB模型的干扰。如表3c所示，当去掉停止梯度时，Top-1准确率下降了14.6%（60.0% vs. 74.6%）。

如何生成伪标签？由于我们的模型接收两种输入模态，因此有多种生成伪标签的方式。我们比较了四种设置的性能：

使用RGB模型的预测作为伪标签，
使用TG（时间梯度或其他相关模型）模型的预测作为伪标签，
每个模型使用其自身模态的概率，
将RGB和TG的结果融合作为伪标签。

表3d显示，融合的伪标签更为可靠，并且由于结合了RGB和TG的全面信息而达到了最佳性能。

块级密集对齐。关于我们的知识蒸馏框架的一个直观问题是应该密集对齐哪些块或哪些块的组合。因此，我们进行了这项消融研究，通过将密集对齐添加到不同的位置（即，块）来观察结果，如表3e所示。由于之前的知识蒸馏方法[18, 41, 43]的普遍做法是对最后一层的高级特征进行对齐，因此我们首先在最后一个块（第4个块，即ResNet的基本块）的特征上添加了密集对齐模块，然后尝试对更多块进行对齐。当更多的块被密集对齐时，它们的性能一致提高，并且当所有块都对齐时，实现了最高的Top-1准确率。与基准模型相比，我们的块级密集对齐策略获得了显著的20.5%的提升（从54.1%到74.6%），这表明细粒度的运动信号在半监督模型泛化中表现更好。

关键的训练技巧。通过广泛的实验，我们确定了几个对实现高性能至关重要的训练技巧。表3f展示了学习率预热[12]、监督预热[55]和PreciseBN[53]的影响。这三个技巧都能带来可观的提升，其中监督预热（在前几个周期中仅使用标记数据进行训练）是最有效的，带来了2.7%的提升（从71.9%到74.6%）。这表明监督预热可以缓解因低质量伪标签在开始时产生而导致的冷启动问题。半监督学习模型的性能很容易产生较大的变化[30, 37, 49]。这三个技巧可以稳固地提升性能，同时使训练过程更加稳定。

对比温度。在对比学习中，适当的温度对于良好的性能至关重要[6]，我们对等式（10）中的对比损失温度进行了消融实验。如表3g所示，一个适中的温度（例如，0.2或0.5）可以帮助所提出的跨模态对比学习更好地工作，而一个较大（1.0）或较小（0.1）的温度则不是最优的。

5. 结论

本文介绍了一种新颖的半监督学习方法，该方法引入了时间梯度以获取丰富的运动相关信息，并在多个模态之间实现了额外的表示一致性。我们提出的方法采用了块级密集对齐策略和跨模态对比学习。在推理过程中，我们的方法无需额外的计算或延迟，就显著优于所有先前的方法，并在所有实验设置（不同的标记比率）下，在UCF-101、HMDB-51和Kinetics-400数据集上均达到了最先进的性能。未来，我们计划研究时间梯度在其他基于视频的任务上的有效性，并自动搜索或生成强大的模态。

读后总结

出发点：现有的半监督视频动作识别没有专门利用时间动态和固有的多模态属性。

基本点：采用FixMatch作为骨干网络，使用带标签的数据通过损失函数训练分类网络，将弱增强的无标签数据通过分类网络得到伪标签，再将强增强的无标签数据通过损失函数训练伪标签的生成能力；时间梯度（TG）是通过比较两个RGB帧之间的差异来计算的，这两个帧之间的步长可以小也可以大，以生成快速或慢速TG。

创新点1：提出并行时间梯度框架，在骨干网络的基础上增加对视频数据的时间梯度特征的处理（即时间梯度模型），来补充rgb数据的时间动态信息。

创新点2：提出跨模态密集特征对齐策略，通过让时间梯度模型和rgb模型在对应层的特征表示尽可能地相似，来实现将时间梯度模型的特征信息蒸馏到rgb模型中。

创新点3：在训练过程中，对时间梯度模型使用停止梯度操作，防止相似性操作使得rgb模型的外观等特征影响到时间梯度模型提取细粒度的运动特征的能力。

创新点4：提出跨模态对比学习，通过增加同一个视频数据的不同模态（rgb，时间梯度）的全局特征的相似度，从而学习到不同模态的全局高级特征。

Learning from Temporal Gradient for Semi-supervised Action Recognition

摘要