《Revisiting Generative Replay for Class Incremental Object Detection》阅读笔记

发布于:2025-07-11 ⋅ 阅读:(15) ⋅ 点赞:(0)

摘要Abstract部分

原文

Generative replay has gained significant attention in class-incremental learning; however, its application to Class Incremental Object Detection (CIOD) remains limited due to the challenges in generating complex images with precise spatial arrangements. In this study, motivated by the observation that the forgetting ofprior knowledge is predominantly present in the classification sub-task as opposed to the localization sub-task, we revisit the generative replay method for class incremental object detection. Our method utilize a standard Stable Diffusion model to generate image-level replay data for all old and new tasks. Accordingly, the old detector and a stage-wise detector are conducted on the synthetic images respectively to determine the bounding box positions through pseudo-labeling. Furthermore, we propose to use a Similarity-based Cross Sampling mechanism to select valuable confusing data between old and new tasks to more effectively mitigate catastrophic forgetting and reduce the false alarm rate for the new task. Finally, all synthetic and real data are integrated for current-stage detector training, where the images generated for previous tasks are highly beneficial in minimizing the forgetting ofexisting knowledge, while those synthesized for the new task can help bridge the domain gap between real and synthetic images. We conducted extensive experiments on PASCAL VOC 2007 and MS COCO benchmark datasets in multiple settings to showcase the efficacy of our proposed approach, which achieves state-of-the-art results. The code is available at https://github.com/qiangzailv/RGR-IOD.

翻译

生成重放类增量学习中得到了广泛的关注,但由于其在生成具有精确空间排列的复杂图像方面的挑战,其在类增量对象检测(CIOD)中的应用仍然受到限制。在本研究中,我们观察到先验知识的遗忘主要出现在分类子任务中,而不是定位子任务中,因此我们重新审视了类增量目标检测的生成重放方法。我们的方法利用标准的稳定扩散模型来为所有旧的和新的任务生成图像级重放数据。因此,分别对合成图像进行旧检测器和阶段式检测器,以通过伪标记来确定边界框位置。此外,本文提出了一种基于相似度的交叉采样机制来选择新老任务之间有价值的混淆数据,以更有效地缓解灾难性遗忘,降低新任务的虚警率。最后,将所有合成数据和真实的数据集成用于当前阶段的检测器训练,其中为先前任务生成的图像在最小化对现有知识的遗忘方面是非常有益的,而为新任务合成的图像可以帮助弥合真实的图像和合成图像之间的领域差距。为了验证新算法的有效性,分别在PASCAL VOC 20 0 7和MS COCO 3个基准数据库上进行了大量的实验。该代码在qiangzai-lv/RGR-IOD:我们的 CVPR 2025 论文“重新审视类增量对象检测的生成重放”的官方 PyTorch 实现。
【ps:翻译来自小绿鲸】

名词学习

生成重放(Generative replay)

生成重放(Generative Replay)是一种用于解决增量学习中灾难性遗忘问题的方法,其核心思想是利用生成模型合成旧任务的数据,与新任务数据结合进行训练,从而在学习新任务的同时保留旧任务的知识。

基本概念与目标

  • 核心目标:在增量学习(尤其是类别增量目标检测 CIOD)中,模型需持续学习新类别,同时避免对旧类别的检测能力大幅下降(即 “灾难性遗忘”)。生成重放通过合成旧任务数据辅助训练,缓解这一问题。
  • 与传统重放的区别:传统重放需存储旧任务的真实数据,存在存储成本高、隐私风险等问题;生成重放通过生成模型(如 Stable Diffusion)合成数据,无需存储真实样本,更高效且灵活。

增量学习(Incremental Learning)

增量学习(Incremental Learning),又称持续学习(Continual Learning),是机器学习领域的重要研究方向,旨在让模型能够在连续接收新数据的过程中不断学习新知识,同时不会显著遗忘之前所学的内容。

  • 核心目标:构建一个能够适应数据流的动态模型,使其在学习新任务时,对旧任务的性能保持稳定,避免 “灾难性遗忘”(Catastrophic Forgetting)—— 即模型在学习新信息后,对旧知识的记忆大幅衰退的现象。

类增量学习(Class-Incremental Learning)

类增量学习(Class-Incremental Learning,简称 CIL)是增量学习(Incremental Learning)的一个重要分支,其核心目标是让模型在逐步学习新类别的过程中,既能有效掌握新类别知识,又不会显著遗忘之前学过的旧类别知识。

  • 核心设定
    • 类别按顺序逐步引入,模型每次仅接收当前新类别的数据,无法访问旧类别的原始训练数据。
    • 要求模型在学习新类别后,对所有已学过的类别(包括旧类别和新类别)均保持良好的检测或分类性能。
  • 与其他增量学习的区别
    • 区别于任务增量学习(Task-Incremental Learning),类增量学习更聚焦于 “类别” 的扩展,而非任务类型的变化(如从图像分类转向目标检测)。
    • 实际应用中更贴近现实场景,例如图像识别系统需持续添加新物体类别,而无需重新训练整个模型。

类增量目标检测(Class-Incremental Object Detection,CIOD)

类增量目标检测(Class-Incremental Object Detection,CIOD)是增量学习在目标检测领域的具体应用,其核心是让模型在逐步学习新类别的过程中,既能准确检测新增目标类别,又不会显著遗忘之前学过的类别,同时处理复杂场景中的多目标定位与分类问题。

  • 基本设定
    • 类别渐进式学习:模型按顺序依次学习新类别(如先学 “猫”“狗”,再学 “鸟”),每次仅获取当前新类别的标注数据,无法访问旧类别的原始训练数据。
    • 双重任务需求:需同时完成 “目标定位”(预测边界框)和 “类别分类”,且要保证新旧类别检测性能的稳定性。
  • 与传统目标检测的区别
    • 传统目标检测基于固定类别集合训练,而 CIOD 需动态扩展类别,解决 “灾难性遗忘” 问题(如学习 “鸟” 后,对 “猫” 的检测准确率大幅下降)。

标准的稳定扩散模型(Stable Diffusion,SD)

标准的稳定扩散模型(Stable Diffusion,SD)是一种基于潜变量的扩散模型,能够从文本提示生成高质量的图像。
1. 扩散模型的基本原理
稳定扩散模型基于扩散模型的双阶段框架:

  • 前向扩散阶段:通过逐步添加高斯噪声,将原始图像转化为随机噪声。
  • 反向去噪阶段:通过神经网络(通常是 U-Net)逐步去除噪声,重建原始图像。
    2. 关键架构组件
  • 潜变量空间(Latent Space)
    使用变分自编码器(VAE)将高分辨率图像压缩到低维潜空间,降低计算复杂度。例如,将 512×512 的图像编码为 64×64 的潜变量,再进行扩散过程。
  • U-Net 神经网络
    采用对称的编码器 - 解码器结构,结合跳跃连接(Skip Connections),在去噪过程中保留图像细节。
  • 文本编码器
    通常使用 CLIP 模型的文本编码器,将文本提示(如 “a realistic clear photo of cat”)转换为语义嵌入向量,通过交叉注意力(Cross-Attention)机制指导图像生成。
  • 调度器(Scheduler)
    控制去噪过程中噪声的衰减速率,常见算法包括 DDIM、PNDM 等。

扩散模型(Diffusion Models)

扩散模型(Diffusion Models)是一种基于概率生成的深度学习模型,通过模拟数据在噪声中的扩散与去噪过程来生成高质量样本。
在这里插入图片描述

U-Net 神经网络(上采样、下采样)

U-Net 神经网络是一种常用于图像分割和生成任务的卷积神经网络架构,其独特的对称编码器 - 解码器结构和跳跃连接设计使其在保留图像细节方面表现出色。
学习视频【经典论文速读:U-Net讲了什么?为什么现在还在用?】


引言Introduction部分

完整翻译

持续学习,又称增量学习,致力于构建一个能够适应连续数据流的统一模型,在整合新信息的同时保留从先前任务中获取的知识。为了解决持续学习中的主要挑战——灾难性遗忘,人们精心设计了许多算法。基于正则化的方法[17,18,24,32]通过对参数优化施加约束来解决遗忘问题。相反,基于重放的方法[9,15,25]提出将新数据与从先前任务中保留的数据结合起来训练模型。值得注意的是,基于重放的策略特别简单有效,因为它们要么保留过去任务的部分数据,要么利用强大的生成模型生成与先前任务相关的图像数据。 随着生成模型的快速发展,稳定扩散(SD)方法[29]在大规模图像-文本对数据集上训练后,凭借其从上下文丰富的文本提示生成高质量图像的能力而备受关注[33]。基于SD模型的生成重放持续学习技术在图像分类任务中已取得显著进展[9,25],这些任务通常以图像中描绘单个对象为特征。在现实场景中,类别增量目标检测(CIOD)对于分析涉及具有不同标签的多个实例的复杂场景至关重要。 为了将生成方法的适用性扩展到目标检测,特别是在CIOD中,已经引入了一些开创性的工作[6,15,37,47],这些工作将布局、边界框坐标或其他几何约束集成到扩散模型中,以完成用于目标检测的实例级可控复杂场景图像生成,从而提高检测性能。此外,[15]提出了一种利用训练好的检测器迭代优化预训练SD模型的方法,以便持续使其适应先前遇到的任务的生成。 在本研究中,我们观察到在CIOD学习过程中,知识退化对分类子任务的影响比对定位子任务(特别是边界框回归子任务)的影响更为显著,如图所示。
在这里插入图片描述

我们重新审视了CIOD中生成重放的使用,采用标准SD模型,无需使其适应任何特定领域数据集或引入额外的几何约束。我们对生成重放的重新审视被称为RGR【Our revisit of generative replay, termed as RGR】,包括以下三个特点:

  1. 针对所有先前和新任务的图像级生成重放。SD模型直接生成图像级重放数据,主要以每张图像单个对象为特征,使用诸如“[cls]的逼真清晰照片”的文本提示,其中[cls]表示类别名称。为旧任务生成的图像有助于维持已获取的知识,而为新任务生成的图像则用于弥合真实图像与合成图像之间的域差距。
  2. 对所有合成图像进行伪标记。为了确定检测器训练所需的边界框位置,采用了伪标记方法:旧检测器Mt−1处理为旧任务生成的图像,而仅用当前阶段数据训练的阶段检测器Mst处理为新任务生成的图像。具有高置信度分数伪标签的合成图像被认为与真实图像的分布更相似,因此更有可能被选择。
  3. 基于相似度的交叉采样(SCS)【Similarity-based Cross Sampling (SCS)】机制,用于选择有价值的数据。我们实施了SCS技术,以过滤和识别新旧任务之间更具挑战性的样本,从而显著降低新任务的误报率,同时更好地保留先前学习的知识。具体而言,Mt−1用于新任务图像数据,Mst用于旧任务图像数据,更有可能选择能够产生高置信度输出的图像。
    此外,为了解决CIOD中仅标记当前任务类别的实例这一注释缺失问题,将先前的检测器Mt−1应用于当前任务的真实数据以生成伪标签。最终,将先前和当前任务的合成图像与当前任务的真实图像合并,以优化检测器。我们在PASCAL VOC[7]和MS COCO[19]数据集上进行了全面的实验,以评估该方法在多种设置下的有效性。结果表明,我们提出的方法大幅优于其他最先进的方法。 我们的贡献可总结如下:
  • 我们提出使用现有的SD模型对所有任务进行图像级生成重放,而不是为CIOD中的复杂场景和多类实例开发成本高昂的生成模型,从而保留知识并弥合生成图像与真实图像之间的差距。 - 我们提出采用SCS方法来筛选和确定新旧任务之间更困难的样本。这种方法大幅降低了新任务的误报率,同时有效保留了先前获取的知识。
  • 我们在PASCAL VOC和MS COCO数据集的各种设置下进行了广泛的实验,并且我们提出的方法与其他当前方法相比取得了最先进的结果。
    【ps:帮大忙了豆包】
    在这里插入图片描述

名词学习

正则化方法(防止过拟合、增量学习中保护旧特征)

正则化方法是解决机器学习中过拟合问题、提高模型泛化能力的重要技术,通过对模型参数或训练过程施加约束,避免模型过度拟合训练数据。

  • 本质目标:通过添加额外约束项(正则化项)到损失函数中,限制模型复杂度,防止参数过度拟合训练数据的噪声或特定模式。
  • 数学表达
    标准损失函数: L = L d a t a \mathcal{L} = \mathcal{L}_{data} L=Ldata
    正则化损失函数: L = L d a t a + λ Ω ( θ ) \mathcal{L} = \mathcal{L}_{data} + \lambda\Omega(\theta) L=Ldata+λΩ(θ)其中 L d a t a \mathcal{L}_{data} Ldata为数据损失, Ω ( θ ) \Omega(\theta) Ω(θ)为正则化项, λ \lambda λ为超参数控制约束强度。

在这里插入图片描述

学习视频【“L1和L2正则化”直观理解(之一),从拉格朗日乘数法角度进行理解】

增量学习中的应用:
1、在模型设计方面,通过正则化约束旧参数的变化,比如权重上限是1,旧参数已经达到了0.9,再怎么增加也不会偏离太多
2、在生成方面,通过正则化约束根据旧数据生成新数据的偏差范围,比如能给猫猫加点毛发,加点阴影,但是不能把猫变成狗

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

重放方法

![[Pasted image 20250708202159.png]]

检测器迭代优化

在这里插入图片描述

核心内容总结

正则化方法可以通过优化损失函数实现对旧数据特征保留的同时关注新数据的特征提取
重放方法简单得多,即是将旧数据重新放进新数据中,从而实现对旧数据特征的保留
稳定扩散(SD)方法重放能根据旧数据生成相对新的数据,再将这新生成的数据放入下一个要训练的训练样本中继续下一次的训练,这就实现了相对保留旧数据
【基于 SD 模型的生成重放持续学习技术在图像分类任务中已取得显著进展,要将生成方法的适用性扩展到目标检测

论文贡献总结如下:

  • 我们提出使用现有的SD模型对所有任务进行图像级生成重放,而不是为CIOD中的复杂场景和多类实例开发成本高昂的生成模型,从而保留知识并弥合生成图像与真实图像之间的差距。
  • 我们提出采用SCS方法来筛选和确定新旧任务之间更困难的样本。这种方法大幅降低了新任务的误报率,同时有效保留了先前获取的知识。
  • 我们在PASCAL VOC和MS COCO数据集的各种设置下进行了广泛的实验,并且我们提出的方法与其他当前方法相比取得了最先进的结果。

人话:别搞那么复杂的生成模型了,直接用SD模型就好了,这篇论文给出了一个方法SCS,这个方法的目的是挑选出在上次识别中没有正确识别出的数据样本,再将这个数据样本进行生成重放,从而保证下一回训练的样本都是高质量的【新数据样本以及未识别出的旧样本(旧样本通过SD优化又可以看作是新样本)】

相关工作Related works部分

完整翻译

2.1 分类任务的持续学习

持续学习是人工智能领域一个活跃的研究方向,旨在通过序贯学习来获取、更新、积累和运用知识,同时不遗忘先前学到的信息。持续学习的大部分重要研究都集中在分类任务上。该领域的方法可分为基于正则化的方法、基于结构的方法和基于重放的方法。

一些基于正则化的方法侧重于维持输出层(logits)的稳定性 [18] 或中间表示的稳定性 [34] 以保留已学信息,而另一些则对模型权重 [17] 或优化过程中的梯度 [1,23,35] 施加约束。

基于结构的方法专注于为不同任务学习特定参数,其架构包括动态扩展 [31] 或在静态模型中使用分组参数 [8]。

基于重放的技术可进一步分为经验重放 [4,20,48] 和生成重放方法 [14,44],这取决于重放数据是从实际经验中采样存储的,还是使用合成模型生成的。

最近,利用基础模型进行持续学习引起了广泛关注。诸如 L2P [38]、O-LoRA [36] 和 VPT NSP²[24] 等技术,致力于基于参数高效迁移学习方法实现持续学习,并取得了令人瞩目的成果。

2.2 目标检测的持续学习

类别增量目标检测(CIOD)在持续学习领域引入了更多复杂性。与专注于具有独立任务的分类的标准持续学习不同,CIOD 需要处理当前任务中可能出现的来自过去或未来任务的实例。这些实例可能被错误地识别为背景,从而导致学习中出现可避免的不一致性。关于 CIOD 的既往研究通常分为两种主要方法。第一种涉及知识蒸馏技术 [5,26]。例如,BPF [26] 连接不同阶段的模型,确保它们朝着一致的方向优化。MMA [5] 将背景与所有先前的类别合并为一个整体,以减少过去和当前任务在优化目标上的冲突。第二种方法涉及通过重放先前的数据来保留知识,使用存储的图像 [22]、实例 [21,41] 或特征 [2]。CLDETR [22] 引入了一种选择在统计上与训练分布对齐的示例进行重放的策略。ABR [21] 重放在缓冲区中保存的早期任务的前景对象,以强化已获取的知识。RODEO [2] 重放在固定容量内存中保存的压缩表示,从而能够以流的方式进行增量目标检测。

2.3 持续学习中的生成重放

在持续学习中,基于重放的策略中,生成重放是一种很有前景的突出技术。这包括训练一个辅助生成模型,如生成对抗网络(GAN)[39,44,45] 和变分自编码器(VAE)[3,14],来重放合成生成的数据。著名的例子包括像 LVAEGAN [43] 这样的模型,它结合了 GAN 和 VAE 来提高生成质量和推理准确性。在目标检测中,一些研究专注于使用扩散模型 [29] 来生成具有精确生成控制的检测数据,例如 InstanceDiffusion [37],它能够实现局部的、实例级的数据控制,以及 SDDGR [15],它将稳定扩散整合到 CIOD 任务中以生成定制的受控样本。

基于发现 CIOD 通常会因边界框误分类而遭受遗忘这一情况,本研究引入了为先前获取的任务生成图像级数据的方法。此外,提出了 SCS(基于相似度的交叉采样),通过选择定位正确但分类错误的实例,从先前任务和当前任务中识别具有挑战性的示例,旨在大幅降低新任务的误报率,同时有效保留先前获取的知识。

名词学习

基于结构方法的持续学习

基于结构的方法 基于结构的方法是持续学习中的一类重要技术,其核心是为不同任务学习特定参数,通过调整模型架构或参数组织方式来缓解灾难性遗忘。具体而言,这类方法主要包括两种策略:

  1. 动态扩展模型架构:随着新任务的加入,动态增加模型的神经元或网络层,为新任务分配独立的参数空间,避免对旧任务参数的覆盖。例如,通过新增神经元专门处理新类别特征,使新旧任务的知识在结构上分离。
  2. 静态模型中的参数分组:在固定的模型架构内,将参数按任务分组管理,不同任务对应不同的参数子集,确保任务间的参数干扰最小化。例如,为旧任务和新任务分别分配独立的卷积核或权重矩阵,实现知识的隔离存储。 这类方法通过结构化的参数管理,既能适应新任务的学习需求,又能有效保留旧任务的知识,在分类和目标检测等持续学习场景中均有应用。

参数高效迁移学习

基于参数高效迁移学习方法实现持续学习,是指在持续学习过程中,借助参数高效的迁移学习技术(如提示学习、低秩适配等),在不显著增加模型参数或过度修改预训练模型的前提下,使模型能够逐步学习新任务并保留旧任务知识。

提示学习、低秩适配

提示学习和低秩适配是两种不同但都与模型优化和任务适配相关的技术。在持续学习的研究中,它们被用于基于参数高效迁移学习方法实现持续学习。

  • 提示学习(Prompt Learning):是一种利用预训练语言模型来完成特定任务的方法。核心思想是设计特定的提示,将任务转化为预训练模型能够理解的形式,直接利用模型已有的知识,避免额外的微调。例如在情感分析任务中,设计“这部电影是 (MASK) 的”这样的提示模板,让模型预测(MASK)应被替换成的词,再将其映射到任务所需标签。该方法无需额外参数,直接利用预训练模型能力;更高效,节省计算资源;且更灵活,通过设计不同提示模板可适应多种任务 。
  • 低秩适配(Low-Rank Adaptation,LoRA ):是一种参数高效微调方法,用于适配预训练模型到特定任务,无需修改模型全部参数。核心思想是在预训练模型权重矩阵上添加低秩分解的更新矩阵实现微调,仅训练低秩矩阵参数,冻结原始模型参数。如假设预训练权重矩阵为 W W W,权重更新 Δ W ΔW ΔW可表示为两个低秩矩阵 A A A B B B的乘积,即 Δ W = A ⋅ B ΔW = A ⋅ B ΔW=AB 。该方法显著降低计算和存储成本,在许多任务上性能接近全参数微调 。

变分自编码器(VAE)

在这里插入图片描述

学习博客 变分自编码器 VAE 超详解,从简单公式推导到模型结构到模型理解_vae模型-CSDN博客
学习视频VAE变分自编码器原理解析_哔哩哔哩_bilibili
【数学推导还是一头雾水,留到后面水平上来再回头看】

先验分布/后验分布/似然估计

学习博客一个例子搞清楚(先验分布/后验分布/似然估计)-CSDN博客

  • 先验分布
    这个情景中隔壁小哥的交通工具选择与花费时间不再相关。因为我们是在结果发生前就开始猜的,根据历史规律确定原因 (交通方式)的概率分布即 先验概率
  • 后验分布
    这种预先已知结果(路上花的时间),然后根据结果估计(猜)原因(交通方式)的概率分布即 后验概率
  • 似然估计
    这种先定下来原因根据原因来估计结果的概率分布即 似然估计。根据原因来统计各种可能结果的概率即似然函数

贝叶斯估计

学习博客贝叶斯估计浅析 - xueliangliu - 博客园
在这里插入图片描述

学习视频「一个模型」教你搞定贝叶斯和全概率公式_哔哩哔哩_bilibili

香农熵,交叉熵和KL散度

在这里插入图片描述
在这里插入图片描述
学习视频【10分钟】了解香农熵,交叉熵和KL散度_哔哩哔哩_bilibili

核心内容总结

持续学习的大部分重要研究都集中在分类任务,以前你们提出的方法有用,但不是那么有用,而现在分类任务中流行利用基础模型进行持续学习

而类别增量目标检测(CIOD) 的问题是在增加新的检测分类后,对于旧的分类目标会直接当背景处理,这很不好,现在有两种处理方法,第一种涉及知识蒸馏技术,通过对旧任务和新任务进行区分实现多分类的检测。第二种方法涉及通过重放先前的数据来保留知识,新旧全部混一起,一遍遍训练,力求全部学会

论文关注第二种方法通过重放先前的数据来保留知识,而在重放中又以生成重放为重点来完成,提出的SCS方法关键是通过选择上次分类检测中的定位正确但分类错误的数据样本,这就说明了这个数据样本的识别难度很大,需要反复识别,因此,SCS会将其挑出来进行下一回的生成重放,通过一遍遍的学习就是为了大幅降低新任务的误报率

方法Method部分

完整翻译

3.1 预备知识

类别增量目标检测(CIOD)的问题定义:在序贯类别增量目标检测中,任务以有序方式呈现,记为 T = { T 1 , T 2 , . . . , T t , . . . , T n } T=\{T_1, T_2, ..., T_t, ..., T_n\} T={T1,T2,...,Tt,...,Tn}。对于每个任务 T t T_t Tt,数据集表示为 D t = { X t , Y t } D_t=\{X_t, Y_t\} Dt={Xt,Yt},其中 X t X_t Xt为图像, Y t Y_t Yt为对应标签。每个后续任务会引入新的类别集合 C = { C 1 , C 2 , . . . , C t , . . . , C n } C=\{C_1, C_2, ..., C_t, ..., C_n\} C={C1,C2,...,Ct,...,Cn},且任意两个不同任务的类别集合互不相交(即 C i ∩ C j = ∅ , i ≠ j C_i \cap C_j = \emptyset,i \neq j CiCj=i=j),训练当前任务时无法访问先前任务的数据。CIOD 的目标是在有效检测当前任务类别 C t C_t Ct中目标的同时,最大限度减少对已见类别 C 1 : t − 1 C_{1:t-1} C1:t1检测性能的退化。

在实际应用中, X t X_t Xt中的图像可能仍包含来自过去任务的目标,但只有属于当前任务类别 C t C_t Ct的实例会被标注为前景对象,这导致了 CIOD 中的标注缺失问题。因此,可利用模型 M t − 1 M_{t-1} Mt1 X t X_t Xt进行预测,生成伪标签以缓解遗忘问题。然而,当前任务中可能不存在 C 1 : t − 1 C_{1:t-1} C1:t1类别的前景对象,这使得许多依赖这些对象的方法失效。本文通过生成包含早期任务前景元素的重放图像并为其分配伪标签来解决这一问题,该策略不仅缓解了伪标签缺失的挑战,还有助于改善从 M t − 1 M_{t-1} Mt1 M t M_t Mt的知识迁移与保留

两阶段目标检测器:本文聚焦于两阶段检测器的分析,重点是 RCNN 系列,尤其是 Faster R-CNN [28]。该检测器通常包含特征提取器、区域提议网络(RPN)以及感兴趣区域头(RoI Head),其中 RoI Head 包括类别级分类网络和边界框回归网络。检测器可表示为 M = { f b , f r p n , f r o i − c l s , f r o i − b o x } M=\{f_b, f_{rpn}, f_{roi-cls}, f_{roi-box}\} M={fb,frpn,froicls,froibox},总损失为 L = L r p n + L r o i − c l s + L r o i − b o x L=L_{rpn}+L_{roi-cls}+L_{roi-box} L=Lrpn+Lroicls+Lroibox。值得注意的是, f r p n f_{rpn} frpn f r o i − b o x f_{roi-box} froibox是类别无关的网络。

稳定扩散模型(SD 模型):扩散模型是一种强大的生成框架,通过两阶段方法生成高分辨率图像:(i)在初始前向扩散阶段向数据中引入高斯噪声;(ii)随后消除噪声以重建原始图像。稳定扩散(SD)模型通过利用变分自编码器(VAE)[16] 编码到潜在空间,并结合 U-Net [30] 架构进行扩散过程,对这一方法进行了改进。SD 模型采用交叉注意力条件机制,结合 CLIP 文本编码器强大的嵌入能力,能从文本提示 T T T高效生成高分辨率图像,这一特性对于创建过去任务的重放数据尤为宝贵。然而,在需要精确空间布局的场景中(例如目标检测中对象的精确定位),SD 模型的生成能力仍面临挑战。

3.2 整体框架

本文方法旨在利用稳定扩散模型的能力,为新旧任务生成最有价值的数据,以应对 CIOD 的挑战,缓解对已有知识的遗忘并缩小真实图像与合成图像之间的域差距。如图 2 所示,该方法包含两个关键模块:图像级生成重放(IGR)和基于相似度的交叉采样(SCS)。研究发现,在 CIOD 中,主要挑战在于分类知识的遗忘,而非目标定位能力的丧失(如图 1 所示)。因此,本文不追求在实例级精确控制以生成复杂场景图像,而是采用常规 SD 模型生成图像级数据,并实施基于置信度的采样,这已被证明能有效防止对已学任务的遗忘。SCS 方法通过基于相似度的交叉采样增强这一过程,根据类间相似度选择有价值的数据,帮助模型捕捉跨类别的关键判别特征。SCS 方法着重选择易被误分类但能被准确定位的图像,这些跨任务的难样本可帮助检测器识别不同类别间的关键区分特征。最终,早期任务和当前任务的生成图像(记为 D g e n − ( 1 : t ) D_{gen-(1:t)} Dgen(1:t))与真实图像数据 D t D_t Dt合并,该数据集经先前检测器进行伪标记后,成为用于更新 M t − 1 M_{t-1} Mt1的训练集
在这里插入图片描述

3.3 图像级生成重放

如图 1 所示,CIOD 的主要挑战是分类知识的显著遗忘,而非目标定位能力的丧失。此外,先前研究表明,使用稳定扩散模型生成复杂场景的实例级图像仍无法充分替代真实数据 [37]。因此,本文选择图像级生成(即图像中主要包含单个对象),结合伪标记作为重放旧任务图像的简单有效方法。

在图像级生成重放(IGR)方法中,本文设计文本提示以生成与先前任务 T 1 : t − 1 T_{1:t-1} T1:t1数据相似的合成图像。文本提示遵循模板:“A realistic clear photo of c l s j cls_j clsj”,其中 c l s j ∈ C 1 : t − 1 cls_j \in C_{1:t-1} clsjC1:t1。为确保生成图像的质量,使用目标检测器 M t − 1 M_{t-1} Mt1为每张生成图像生成伪标签,并最终选择具有高置信度伪标签的图像。

每张合成图像都经过 M t − 1 M_{t-1} Mt1处理,对其输出的评估如下:设 N N N M t − 1 M_{t-1} Mt1输出中检测到的 c l s j cls_j clsj类实例数量, b k b_k bk c l s j cls_j clsj类的第 k k k个边界框。 N ≥ 1 N \geq 1 N1且满足以下条件,图像将被保留,否则将被丢弃

min ⁡ k ∈ { 1 , . . . , N } C o n f ( b k ) ≥ τ \min_{k \in \{1, ..., N\}} Conf(b_k) \geq \tau mink{1,...,N}Conf(bk)τ

其中 τ \tau τ为指定的置信度阈值。图 3 展示了一些合成图像示例。IGR 的输出将构成先前任务的生成图像集 D g e n − ( 1 : t − 1 ) D_{gen-(1:t-1)} Dgen(1:t1)
在这里插入图片描述

3.4 基于相似度的交叉采样

此外,基于类间相似度,本文提出基于相似度的交叉采样(SCS)方法,以选择包含易被误分类但能被准确定位的实例的有价值数据。这些跨任务的难样本可帮助检测器识别不同类别间的关键区分特征。

如图 4 所示,SCS 主要包括两个方面。一方面,对于先前任务的生成样本 D g e n − ( 1 : t − 1 ) D_{gen-(1:t-1)} Dgen(1:t1),使用仅通过当前任务数据集 D t D_t Dt训练的检测器 M s t M_{s_t} Mst(该检测器应能检测当前任务中的新类别)评估新旧任务之间的类间相似度。对于 D g e n − ( 1 : t − 1 ) D_{gen-(1:t-1)} Dgen(1:t1)中的每张图像,使用 M s t M_{s_t} Mst进行预测,仅保留置信度分数超过阈值 τ \tau τ的检测框【定位正确,也识别了出来,只不过识别错了】
在这里插入图片描述

B p r e d = { b k ∣ c o n f ( b k ) ≥ τ } , ( 2 ) B_{pred} = \{b_k | conf(b_k) \geq \tau\}, \quad (2) Bpred={bkconf(bk)τ},(2)

其中 c o n f ( b k ) conf(b_k) conf(bk)表示边界框 b k b_k bk的置信度分数。

然后,将 M t − 1 M_{t-1} Mt1生成的伪标签定义为:

B p s e u d o = { b j p s e u d o } ( 3 ) B_{pseudo} = \{b_j^{pseudo}\} \quad (3) Bpseudo={bjpseudo}(3)

接着,计算两个集合 B p s e u d o B_{pseudo} Bpseudo B p r e d B_{pred} Bpred中所有标签之间的最小交并比(IoU):

I o U m i n = min ⁡ b j p s e u d o ∈ B p s e u d o , b k ∈ B p r e d I o U ( b j p s e u d o , b k ) . ( 4 ) IoU_{min} = \min_{b_j^{pseudo} \in B_{pseudo}, b_k \in B_{pred}} IoU(b_j^{pseudo}, b_k). \quad (4) IoUmin=minbjpseudoBpseudo,bkBpredIoU(bjpseudo,bk).(4)

I o U m i n IoU_{min} IoUmin大于阈值 η \eta η,则认为该图像包含新旧任务间具有显著相似度的场景。这类图像被优先选为重放数据,以有效降低新任务的假阳性率,因为难样本可显著扩大易混淆类别的决策边界。

另一方面,为进一步缩小合成图像与真实图像之间的域差距,与通常专注于单一真实图像域的传统 CIOD 训练不同,本文的 CIOD 框架在每个增量阶段 T t T_t Tt采用混合域方法。具体而言,不仅合成并重放 D g e n − ( 1 : t − 1 ) D_{gen-(1:t-1)} Dgen(1:t1)的数据,还合成部分 D g e n − t D_{gen-t} Dgent的数据【新分类的样本在旧分类模型中识别失败的样本】,并将它们与 D t D_t Dt结合以更新检测器。由于旧任务数据以合成数据为主,而新任务数据主要是真实图像,模型容易受域信息的影响,而非各类别之间的语义差异。为改善多域适应能力,整合合成数据和真实数据有助于模型区分每个域的独特特征,确保跨增量任务的知识稳健迁移。

3.5 当前阶段训练

D t D_t Dt上的伪标记在 CIOD 设置中,仅对当前任务的类别进行标注,因此使用旧检测器 M t − 1 M_{t-1} Mt1对当前任务图像数据 D t D_t Dt进行伪标记对于解决标注缺失问题至关重要。研究表明,旧检测器 M t − 1 M_{t-1} Mt1在生成伪标签时,往往能正确定位对象,但会对其进行错误分类。错误的伪标签会阻碍新类别的学习,并加速对已学知识的遗忘。为解决这一问题,本文通过基于新任务的真实标签过滤这些误分类的伪标签,增强了标准伪标记方法。具体而言,对于先前模型 M t − 1 M_{t-1} Mt1生成的每个伪标记边界框 b p s e u d o b_{pseudo} bpseudo,计算其与图像中所有真实标签框 B G T B_{GT} BGT的最大 IoU【评估伪标签真实性】

I o U m a x ( b p s e u d o , B G T ) = max ⁡ b g t ∈ B G T I o U ( b p s e u d o , b g t ) ( 5 ) IoU_{max}(b_{pseudo}, B_{GT}) = \max_{b_{gt} \in B_{GT}} IoU(b_{pseudo}, b_{gt}) \quad (5) IoUmax(bpseudo,BGT)=maxbgtBGTIoU(bpseudo,bgt)(5)

I o U m a x ( b p s e u d o , B G T ) > γ IoU_{max}(b_{pseudo}, B_{GT}) > \gamma IoUmax(bpseudo,BGT)>γ(其中 γ \gamma γ为超参数,通常设为 0.5),则丢弃 b p s e u d o b_{pseudo} bpseudo。这一过滤步骤有助于减少错误伪标签对新类别学习的负面影响。

训练数据与损失函数:旧任务和新任务的合成图像数据 D g e n − ( 1 : t − 1 ) D_{gen-(1:t-1)} Dgen(1:t1) D g e n − t D_{gen-t} Dgent与当前任务的真实图像数据 D t D_t Dt合并,作为当前阶段学习的训练数据。尽管如此,合成数据提供的知识可能不够准确,因此在模型训练过程中还需调整合成图像产生的损失。总损失 L \mathcal{L} L计算为合成数据损失与真实数据损失的加权和:

L = L s y n t h + L r e a l ( 6 ) \mathcal{L} = \mathcal{L}_{synth} + \mathcal{L}_{real} \quad (6) L=Lsynth+Lreal(6)

** L s y n t h = λ r p n L r p n s y n t h + λ c l s L c l s s y n t h + λ r e g L r e g s y n t h \mathcal{L}_{synth} = \lambda_{rpn} \mathcal{L}_{rpn}^{synth} + \lambda_{cls} \mathcal{L}_{cls}^{synth} + \lambda_{reg} \mathcal{L}_{reg}^{synth} Lsynth=λrpnLrpnsynth+λclsLclssynth+λregLregsynth

其中 λ \lambda λ是调整合成数据在损失函数中重要性的超参数( λ ∈ [ 0 , 1 ] \lambda \in [0,1] λ[0,1])。由于合成数据通常由简单的单实例图像组成,可能无法提供足够的回归知识,且如图 1 所示,定位能力不会被严重遗忘,因此真实图像数据足以逐步提升定位能力。因此,在损失计算中为分类损失 λ c l s \lambda_{cls} λcls分配了相对更大的权重。

名词学习

序贯类别增量目标检测

序贯类别增量目标检测是类别增量目标检测(CIOD)的一种任务形式,指任务以有序方式依次引入,每个后续任务会带来新的类别集合,且这些新类别与先前任务的类别互不相交,在训练当前任务时无法访问先前任务的数据。其目标是在有效检测当前任务类别中的目标同时,最大限度减少对已见过的旧类别检测性能的退化。

在实际应用中,当前任务的图像可能仍包含来自过去任务的目标,但只有属于当前任务类别的实例会被标注为前景对象,这会导致标注缺失问题。为应对该问题,可利用先前训练的模型对当前任务的真实数据生成伪标签,同时通过生成包含旧任务前景元素的重放图像并分配伪标签,缓解伪标签缺失挑战,促进知识从旧模型向新模型的迁移与保留。

伪标签

伪标签是指通过检测器对图像进行处理后生成的标签,用于替代真实标签来辅助模型训练

两阶段检测器

两阶段检测器是指目标检测领域中分为两个主要阶段完成检测任务的模型,本文重点分析的是RCNN系列(尤其是Faster R-CNN)。其核心结构包括:

  1. 第一阶段(区域提议):通过特征提取器提取图像特征,再由区域提议网络(RPN)生成可能包含目标的候选区域(边界框),该阶段不涉及具体类别判断,属于类别无关的处理。
  2. 第二阶段(精确检测):利用感兴趣区域头(RoI Head)对候选区域进行处理,包括两个子任务:一是通过类别级分类网络判断候选区域内目标的具体类别二是通过边界框回归网络优化候选区域的位置和大小,使边界框更精准。 整体而言,两阶段检测器的总损失由RPN损失( ( L r p n (L_{rpn} (Lrpn)、分类损失( L r o i − c l s L_{roi-cls} Lroicls)和边界框回归损失( L r o i − b o x L_{roi-box} Lroibox)构成,其中RPN和边界框回归网络均为类别无关的模块。这种结构通过分阶段处理,在检测精度上具有优势,因此成为本文研究类别增量目标检测的基础框架。

核心内容总结

对于旧数据,通过SCS进行判断旧分类和新分类是否易混淆【相互之间识别错误,比如猫的图片在新模型中(识别狗)中,把猫识别为了狗,那这张猫的图片就要挑出来;同理,狗的图片在旧模型(识别猫)中,把狗识别为了猫,那这张狗的图片也要挑出来】,将易混淆的图片挑出来后经过SD模型进行生成重放

对于新数据,通过旧模型进行伪标签标注,在新模型的训练中进行重新学习旧知识(会判断伪标签是否准确,不准确的伪标签会被重新覆盖【判断方法是:通过真实标签进行相应过滤】)

以上通过处理的数据(生成重放的旧数据,伪标签标注好的新数据)将进行新一轮的模型训练
在这里插入图片描述

实验Experiments部分

完整翻译

4.1 实验设置

数据集:为评估所提出的方法,我们使用了 MS COCO 2017 数据集 [19] 和 PASCAL VOC 2007 数据集 [7],遵循先前研究 [5, 21, 26, 40, 42, 49] 中确立的实验协议。每个训练任务仅包含与特定任务类别相关的图像,而非相关类别的标注被排除在外。这种配置既符合实际情况,又能适应任务间可能存在的图像重复。PASCAL VOC 2007 数据集包含 20 个目标类别,共 9963 张图像,训练集和验证集各占 50%,测试集也占 50%。相反,更复杂的 MS COCO 2017 数据集包含 80 个目标类别,提供 11.8 万张训练图像和 5000 张验证图像。

评估指标:在 PASCAL VOC 2007 数据集上,我们使用 0.5 IoU 阈值下的平均精度(mAP) 来评估所提方法。同时,在 MS COCO 2017 数据集上,我们采用标准的COCO 指标,包括在 0.5 至 0.95 的多个 IoU 阈值上的性能评估(mAP [50:95]),以及在 0.5 IoU(mAP [50])和 0.75 IoU(mAP [75])上的特定评估。

实现细节:与先前研究 [21, 26] 中概述的实验流程一致,我们的方法基于 Faster R-CNN [28] 框架扩展,使用在 ImageNet 上预训练的 ResNet-50 [11] 作为骨干网络。检测器采用 SGD 优化器进行训练,批大小为 8。基础任务的初始学习率设为 0.01,增量任务的初始学习率设为 0.005。 我们在 PASCAL VOC 2007 基准上基于 0.5 IoU 阈值下的平均精度评估各方法。所使用的扩散模型 Stable Diffusion 1.5 在 VOC 数据集的实验中在 COCO 数据集上进行了微调,在 COCO 数据集的实验中在 VOC 数据集上进行了微调,以更好地匹配真实图像风格。

4.2 与最先进方法的比较

为确保与先前研究的公平比较,我们在单步和多步增量设置下评估所提方法的性能。我们将我们的方法与两种基线方法进行比较:微调(在不进行正则化或数据重放的情况下对模型进行增量训练)和联合训练(在所有标注均可访问的完整数据集上训练模型)。结果在最终任务训练完成后呈现。

4.2.1 在 PASCAL VOC 2007 上的结果

我们的实验遵循先前研究的协议,采用一致的类别增量配置,如 19-1、15-5、10-10 和 5-15 设置,在两个增量阶段为 PASCAL VOC 2007 设定了预定的类别序列。在多步增量设置中,我们评估了 10-5、5-5、10-2 和 15-1 的配置,每步依次添加 5、5、2 和 1 个类别,最终涵盖所有 20 个类别。

两阶段增量设置:表 1 显示,我们的方法(记为 RGR)在各种增量设置下始终优于最先进的 BPF 方法 [26] 和其他对比方法。特别是,RGR 在平均精度(mAP)上比 BPF 有显著提升,在 19-1、15-5、10-10 和 5-15 设置中分别提高了 1.3%、1.3%、2.9% 和 2.3%。重要的是,RGR 在旧类别和新类别上都保持了较高的性能,突显了其在有效缓解灾难性遗忘的同时确保新类别良好学习的能力。
在这里插入图片描述

多阶段增量设置:长期类别增量目标检测的挑战显著,因为随着任务的积累,维持模型稳定性和适应性之间的平衡变得越来越困难。根据 PASCAL VOC 2007 的表 2,我们提出的 RGR 在所有多步配置中都具有明显优势。特别是,RGR 在 10+5、5+5、10+2 和 15+1 设置下的 mAP 分别提高了 3.1%、6.1%、3.1% 和 1.7%,始终优于其他方法。传统方法在多阶段增量过程中面临遗忘加剧的问题,通常通过降低学习率或应用强正则化来缓解遗忘。虽然这种策略有助于保留现有知识,但限制了新类别信息的获取,使得这些类别在后续阶段更容易被遗忘,最终阻碍了所有任务的泛化。随着任务的增加,泛化性能会出现显著下降。相反,我们的 RGR 方法使模型在有效学习新类别的同时保持其灵活性。如表 2 所示,在 10+5、5+5、10+2 和 15+1 设置中添加新类别时,RGR 的 mAP 分别提高了 3.5%、8.0%、6.4% 和 5.0%。
在这里插入图片描述

4.2.2 在 MS COCO 2017 上的结果

使用 MS COCO 2017 数据集,我们展示了先前研究 [15, 26] 中记录的 40-40 和 70-10 增量配置的性能结果。表 3 显示,我们的方法(RGR)在 AP 上比当前最佳的 BPF 方法高出 1.2%,在 AP50 上高出 1.7%,在 AP75 上高出 0.9%。此外,在 70+10 配置中,我们的方法在 AP 上比 BPF 高出 0.4%,在 AP75 上高出 0.7%。这些结果也证明了我们方法的优越性。
在这里插入图片描述

4.3 消融研究

主要组件:我们在 PASCAL VOC 2007 数据集上的 10-10、5-15 和 10-5 增量设置下评估了所提方法中每个组件的有效性。基线模型仅使用伪标记方法(遵循 BPF),我们依次添加所提方法的组件。如表 4 所示,添加 IGR 组件后,所有类别的 mAP 都有显著提高,在 10-10、15-5 和 10-5 设置中分别提升了 1.4%、6.5% 和 10.8%。当我们进一步添加 SCS 组件时,性能进一步提升,在 10-10、15-5 和 10-5 设置中所有类别的 mAP 分别额外提升了 0.7%、0.2% 和 0.6%。值得注意的是,SCS 组件不仅能有效缓解遗忘,还能提高模型的可塑性,增强其在不损失旧任务性能的情况下学习新任务的能力。在图 5 中,我们还展示了 5-5(4 个任务)设置下每个类别的 mAP。可以观察到,SCS 有效缓解了某些相似类别的遗忘(例如 “狗” 和 “猫”、“公交车” 和 “火车” 等)。这些结果验证了每个组件在减轻遗忘和提高新任务性能方面的作用,突显了我们方法的整体有效性。
在这里插入图片描述

超参数 τ 和 η 的影响:式(1)中的超参数 τ 被引入作为采样 Stable Diffusion 生成图像的阈值,以确保用于训练的生成图像质量较高。如表 5 所示,随着 τ 的增加,模型性能有所提升,在 τ=0.90 时达到最佳结果。参数 η 表示交叉采样的 IoU 阈值,用于衡量任务间图像的相似度。如第 6 表所示,重放具有中等相似度的图像时可获得最佳性能
在这里插入图片描述

结论Conclusions部分

完整翻译

5. 结论​

在本文中,我们建议重新审视生成重放方法,在类别增量目标检测中使用现有的稳定扩散模型,而非改进生成模型以精确控制多类别实例的复杂场景生成,或利用先前任务的图像进行迭代优化。我们的方法在图像级别合成重放数据,主要聚焦于每个图像中的单个对象,涵盖过去和当前的任务,旨在保留已获取的知识并缩小生成图像与真实图像之间的域差距。​

我们提出采用基于相似度的交叉采样方法来筛选和定位新旧任务中更具难度的样本,这显著降低了新任务的误报率,同时有效保留了先前获取的知识。在 PASCAL VOC 和 MS COCO 数据集上的多种设置下进行的大量实验表明,与其他方法相比,我们提出的方法取得了最先进的结果。​


网站公告

今日签到

点亮在社区的每一天
去签到