【论文笔记-TPAMI 2024】FreqFusion:用于密集图像预测的频率感知特征融合

发布于:2025-02-27 ⋅ 阅读:(13) ⋅ 点赞:(0)

Frequency-aware Feature Fusion for Dense Image Prediction

用于密集图像预测的频率感知特征融合

Abstract:密集图像预测任务要求具有强类别信息和高分辨率精确空间边界细节的特征。为了实现这一点,现代分层模型通常利用特征融合,直接添加来自深层的上采样粗特征和来自较低层次的高分辨率特征。在本文中,我们观察到融合特征值在对象内的快速变化,由于高频特征的干扰导致类别内不一致。此外,融合特征中模糊的边界缺乏准确的高频,导致边界位移。基于这些观察结果,我们提出了频率感知特征融合(FreqFusion),集成了自适应低通滤波器(ALPF)发生器,偏移发生器和自适应高通滤波器(AHPF)发生器。ALPF生成器预测空间变化的低通滤波器,以衰减对象内的高频组件,减少上采样期间的类内不一致。偏移量发生器通过重采样将不一致的特征替换为更一致的特征来细化大的不一致特征和细边界,而AHPF发生器增强了下采样过程中丢失的高频详细边界信息。综合可视化和定量分析表明,FreqFusion有效地提高了特征一致性和清晰的目标边界。在各种密集预测任务中进行的大量实验证实了其有效性。该代码可在https://github.com/ying-fu/FreqFusion上公开获取

关键词:特征融合、特征上采样、密集预测、语义分割、目标检测、实例分割、全景分割

在本文中,我们观察到对象内部特征值存在快速变化或变化,即特征中的高频扰动导致类别内相似度[11]较低,从而导致类别内不一致。此外,模糊的边界缺乏准确的高频,导致边界位移,如图1所示。

基于这些观察结果,我们提出了频率感知特征融合(FreqFusion),一种在特征融合过程中增强特征的方法。FreqFusion由三个关键组件组成:自适应低通滤波器(ALPF)发生器,偏移发生器和自适应高通滤波器(AHPF)发生器。ALPF生成器预测空间变化的低通滤波器,旨在通过衰减对象内的高频成分和平滑上采样期间的特征来减少类内不一致性。偏移量生成器预测偏移量以重新采样特征像素,并用附近具有高类别内相似性的特征替换低类别内相似性的特征,从而精炼内部和边界。AHPF发生器从下采样后无法恢复的低层特征中提取高频细节,从而更准确地描绘边界。这三个组件协同工作,以恢复具有一致类别信息和明确边界的融合特征。

具体来说,ALPF生成器使用低通滤波器平滑和上采样粗的高级特征,从而减少像素值之间的差异,最大限度地减少特征不一致。为了防止边界模糊,受[26]的启发,它为每个上采样特征坐标预测空间变化的低通滤波器,而不是使用传统插值[27]中的固定核。通过特征相似性分析,我们发现使用空间变化低通滤波器的平滑特征可以很大程度上减少整体特征的不一致性。它增加了类内相似度,导致了更高的相似裕度,从而增强了特征的一致性和区别性。因此,它有利于密集的预测任务。

虽然ALPF生成器使用光滑特征增加了整体的类别内相似性,但它可能不擅长校正大面积的不一致特征或精细边界。

扩大低通滤波器的尺寸有利于处理大面积不一致的特征,但可能不利于薄区域和边界区域。相反,减小低通滤波器的尺寸有利于薄区域和边界区域,但阻碍了具有不一致特征的大面积的校正。为了解决这一矛盾,我们引入了偏移发生器。其动机是观察到低类别内相似度的特征往往有高类别内相似度的邻居,如图1所示。偏移量生成器首先计算局部相似度,然后预测高相似度方向的偏移量用于重采样。该方法允许重新采样具有高类别内相似度的特征,以取代具有低类别内相似度的特征。因此,偏移发生器可以在大面积和薄边界区域中校正不一致的特征。

虽然ALPF生成器和偏移量生成器可以有效地恢复上采样的高级特征,具有较高的类内一致性和精细的边界,但下采样过程中丢失的低级特征的详细边界信息不能完全恢复到高级特征中。根据奈奎斯特-香农采样定理[28],[29],在下采样过程中,高于奈奎斯特频率的频率(相当于采样率的一半)会永久丢失。例如,在2倍下采样操作期间,高于1/4的频率会发生混叠(例如,步长为2的1×1卷积层的采样率为12)。为了解决这一限制,我们引入了AHPF生成器,它通过预测和应用空间变化的高通滤波器来提取详细的边界信息,从而增强奈奎斯特频率以上的高频功率并锐化边界。频率分析证明了高频功率的改进,导致更精细的可视化密集预测结果。

文章主要贡献

  1. 我们确定了广泛使用的标准特征融合技术中存在的两个重要问题:类别内不一致和边界位移。我们还引入了特征相似度分析来定量测量这些问题,这不仅有助于新的特征融合方法的发展,而且有可能激发相关领域乃至其他领域的进步。
  2. 我们提出了FreqFusion,它通过使用空间变化的低通滤波器自适应平滑高级特征,重新采样附近的类别一致特征以取代高级特征中的不一致特征,并增强低级特征的高频来解决类别不一致和边界位移问题。
  3. 定性和定量结果表明,FreqFusion增加了类别内的相似性和相似性边际,从而在各种任务(包括语义分割、对象检测、实例分割和全景分割)中取得了一致和相当大的改进

频率感知特征融合

在本节中,我们将介绍FreqFusion,如图3所示。

它由三个基本组件组成:自适应低通滤波器(ALPF)发生器、偏移量发生器和自适应高通滤波器(AHPF)发生器,如图4所示。

FreqFusion经过两个主要阶段,即初始融合和最终融合。在最后的融合步骤之前,有必要压缩和融合低级和高级特征,作为三个生成器的输入,以确保最后融合阶段的效率。我们首先介绍如何增强初始融合,阐明其在FreqFusion框架中的意义。

随后,我们详细介绍了三个发电机的功能,从而全面了解了它们在聚变过程中的作用。

4.1 FreqFusion概述

我们首先介绍了广泛使用的标准特征融合方法,然后概述了FreqFusion的设计。

标准特征融合。一般来说,常见的特征融合方式可以表示为:

请添加图片描述

式中,Xl∈R C×2H×2W, Yl+1∈R C×H×W分别代表骨架生成的第l个特征和第l层融合特征。我们假设它们有相同数量的频道;如果不是,一个简单的投影函数,如1 × 1卷积,可以确保这个[16],我们省略了它。F UP表示上采样,例如2倍最近邻或双线性插值[16],[17]。

虽然被广泛使用,但这种直接的特征融合方法存在两个不利影响密集预测的问题,即类别内不一致和边界位移。标准的融合不足以纠正这些不一致的特征,而简单的插值甚至可能通过将单个不一致的特征升级到多个不一致的像素而使问题恶化。此外,正如之前的各种工作[2],[22],[65]所观察到的那样,简单插值的输出往往倾向于过度平滑,导致边界位移。此外,底层特征的详细边界信息没有得到充分利用。

FreqFusion的设计。如图3所示,提出的FreqFusion可以正式表示为:

请添加图片描述

式中,F LP表示ALPF生成器预测的低通滤波器,(u, v)表示偏移生成器预测的对(i, j)处特征坐标的偏移值,F HP分别表示AHPF生成器预测的高通滤波器。

他们通过使用空间变化的低通滤波器自适应平滑高级特征,重新采样附近的类别一致特征以取代高级特征中的不一致特征,并增强低级特征的高频边界细节来解决类别不一致和边界位移问题。

为了有效地生成低通滤波器F LP,偏移值(u, v)和高通滤波器F HP,有必要首先压缩Xl和Yl+1并将它们融合到三个生成器中,我们将此过程称为初始融合。简单初始融合[19],[23],[68]可以正式表示为:

请添加图片描述

式中,zl∈R C/r×2H×2W表示融合压缩特征,R为降低三台发电机后续计算成本的信道缩减率。利用1 × 1卷积层进行信道压缩。接下来,我们继续解释如何增强初始融合,然后描述三个生成器的细节

4.2增强初始融合

三个生成器依赖于最初融合的压缩特征zl来预测自适应滤波器和重采样偏移。然而,公式(6)所示的简单初始融合存在两个次优方面,这可能会对随后的三个发电机产生不利影响.首先,它采用简单的插值对压缩特征进行上采样,导致边界模糊[22],[71]。其次,频率分析表明,ALPF发生器严重依赖于融合压缩特征中的高频信息。然而,传统的卷积层只能捕获固定的高频模式。因此,我们建议进一步增强初始融合过程。

**初始融合的上采样。**一些开创性的著作[19],[22],[23]强调了上采样的重要性,强调了简单的插值技术,如最近邻或双线性插值,可以引入光滑和不准确的边界。尽管意识到这一点,为了生成初始上采样的中间特征,他们[19],[23]仍然使用简单的插值,不可避免地导致中间特征中出现类似的问题。因此,这将导致后续阶段的次优上采样结果。

为了解决这个问题,如图3所示,我们利用ALPF生成器将压缩的低级特征作为输入,并生成一个初始的低通滤波器来对压缩的高级特征进行上采样。利用低电平中存在的高分辨率结构可以有利于上采样粗的高电平特征[23]。ALPF发生器的细节在4.3节中描述。通过采用这种方法,我们绕过了简单插值的使用,产生了更精细的初始融合结果,并有利于后续生成器。

请添加图片描述

**高频增强用于初始融合。**如图5所示,频率分析突出了ALPF发生器对融合压缩特征中的高频信息的明显依赖。值得注意的是,这种依赖源于卷积层的固有性质,它被限制于捕获高频的固定模式。

请添加图片描述

基于这一见解,我们建议采用AHPF发生器作为战略增强。AHPF生成器的细节在第4.5节中描述。作为我们框架中的动态组件,AHPF生成器被精心设计用于从特征映射中提取高频成分,从而克服了标准卷积层带来的限制。与具有固定学习权值的卷积不同,AHPF生成器使用的空间可变高通滤波器展示了捕获高频模式的自适应能力。

因此,AHPF生成器通过精细调谐的高频细节丰富了特征表示,从而促进了更有效的下游处理。如图6所示,增强的初始融合使后续生成器能够更好地适应特征内容,从而产生更精细的最终融合结果。表1中的定量特征相似性分析也证明了ALPF和AHPF生成器在提高特征一致性和边界清晰度方面的好处。

请添加图片描述

4.3自适应低通滤波器发生器

自适应低通滤波器(ALPF)发生器设计用于预测动态低通滤波器,旨在有效平滑高级特征以减轻特征不一致[11],随后对高级特征进行上采样。为了实现高质量的自适应低通滤波器,利用高级和低级特性[23]的优势是至关重要的。因此,ALPF发生器将最初融合的z1作为输入,并预测空间变化的低通滤波器。它由一个3 × 3的卷积层和一个softmax层组成,表示为:

请添加图片描述

式中,V¯l∈R¯K2×2H×2W表示随空间变化的滤波器权值,其中¯K表示低通滤波器的核大小。

重塑后,V¯l包含¯K × K¯过滤器的每个位置。

这里,Ω表示¯K × K¯的大小。通过一个基于核的softmax来约束过滤器都是正的并且总和为1,结果是¯W∈R¯K2×2H×2W[26]中的平滑低通过滤器。

请添加图片描述

接下来,我们使用亚像素上采样技术对Yl+1∈R C×H×W进行高档化[62]。具体来说,我们以像素无序的方式重塑W¯l[62],将高度和宽度减少一半,并将通道扩展4倍。然后我们将通道分为4组,每组都有一个空间变化的低通滤波器,表示为W¯l,g∈R¯K2×H×W,其中g∈{1,2,3,4}表示组。因此,我们得到4组低通滤波特征,表示为Y ~ l+1,g∈R C×H×W,然后将其重新排列形成2倍上采样特征Y ~ l+1∈R C×2H×2W:

请添加图片描述

如图6所示,ALPF生成器根据特征内容自适应地预测空间变化的低通滤波器来平滑和增强功能一致性。为了提供更深入的了解,图7显示了可视化的结果。图7(a)所示的结果表明,标准特征融合中常用的双线性上采样特征表现出明显的类别内不一致和边界位移。

例如,该车的内饰显示出较低的类别内相似性,边界模糊,表明严重的位移。
请添加图片描述

请添加图片描述

相比之下,图7(b)展示了改进的特征,其特征是增强了内部一致性,这可以归因于引入了ALPF发生器。该组件有效地减轻了类别内的不一致性,从而产生了更有凝聚力的特性。此外,在边界清晰度有明显的改善。

如表1所示的定量分析证实了这些观察结果。标准的特征融合技术表现出相对较低的类别内相似性、相似性边际和相似性精度,从而增加了误分类的风险。

然而,在FreqFusion框架内合并ALPF生成器产生了显著的改进。具体而言,总体类别内相似度(0.727→0.799)、相似度边际(0.245→0.297)和相似度精度(0.918→0.941)均有大幅提高。综上所述,ALPF生成器在增强特征一致性方面起着关键作用,从而提高了FreqFusion方法的有效性。

4.4偏移发生器

虽然ALPF生成器平滑特征以增强整体的类别内相似性,但在校正大量不一致的特征或细化薄区和边界区域时可能会有所不足。

增加低通滤波器的尺寸被证明有利于处理大的不一致区域,但会对薄区和边界区产生不利影响。相反,减小滤波器尺寸有助于保留薄区域和边界区域,但可能阻碍具有不一致特征的大面积区域的校正。

为了解决这个难题,我们提出了偏移发生器。

请添加图片描述

由于观察到低类别内相似度的邻近特征往往表现出高类别内相似度的特征。偏移生成器通过计算局部余弦相似度开始这个过程:

请添加图片描述

其中S∈R 8×H×W包含每个像素与其8个相邻像素之间的余弦相似度,这鼓励偏移生成器向具有高类别内相似度的特征进行采样,从而减少边界或类别内不一致区域的模糊性,如图8和图9所示。

具体来说,偏移量发生器将zl和S作为输入并预测偏移量。它由两个3 × 3的卷积层组成,用于预测偏移方向和偏移规模,表示为

请添加图片描述

其中Dl∈R 2G×H×W表示偏移量的方向,Al∈R 2G×H×W控制偏移量的大小,Ol∈R 2G×H×W表示高级特征每个像素的最终预测偏移量。G为偏移组数;我们策略性地将特征划分为不同的组,为更细粒度的重采样分配独特的空间偏移量。

该方法允许重新采样具有高类别内相似度的特征,以取代具有低类别内相似度的特征。这样,偏移量生成器可以处理大面积的不一致特征并细化边界。

如图9所示,在公共汽车和汽车的内部边界,我们的偏移量生成器策略性地将偏移量定向到特征具有更高一致性和清晰度的内部位置。相反,在外部边界,我们观察到偏移量被战略性地指向相反的方向,丰富了边界区域,增强了清晰度。这种在偏移方向上的故意发散有助于突出对象的边界。因此,如图7©所示,偏移量生成器有助于实现更一致的特征和更准确的边界描绘。从表1的定量分析可以看出,它提高了类内相似度(0.760→0.799),提高了整体相似度(0.925→0.941)和边界相似度(0.720→0.728)。这表明,偏移生成器在解决类别内不一致和边界位移问题方面提供了好处。

4.5自适应高通滤波器发生器

虽然ALPF生成器和偏移量生成器可以有效地恢复上采样的高级特征,具有较高的类内一致性和精细的边界,但下采样过程中丢失的低级特征中的详细边界信息不能完全恢复到高级特征中。

根据奈奎斯特-香农采样定理[28],[29],在下采样过程中,高于奈奎斯特频率的频率(相当于采样率的一半)会永久丢失。例如,当高阶特征与待融合的低阶特征相比,以2倍的倍数进行下采样时(例如,使用步长为2的1×1卷积层进行下采样,导致采样率为12),在此过程中,高于1/4的频率会发生混叠。

为了详细说明,我们使用离散傅立叶变换(DFT)将特征映射X∈R C×H×W变换到频域,记为XF = F(X),表示为:

请添加图片描述

其中XF∈R C×H×W表示DFT输出的复数数组。H和W表示其高度和宽度。

h, w表示特征映射x的坐标。高度和宽度维度的归一化频率分别由|u|和|v|给出。因此,大于奈奎斯特频率H+ = {(u, v) | |k| > 1 4或| 1 | > 1 4}的高频集在下采样的高阶特征中被混叠并永久丢失。

为了解决这一限制,我们使用AHPF生成器来增强下采样过程中丢失的详细边界信息。

请添加图片描述

具体来说,AHPF发生器将初始融合的z1作为输入,并预测空间变化的高通滤波器。它由一个3 × 3的卷积层、一个softmax层和一个滤波反演运算组成,表示为:

请添加图片描述

其中V l∈R R K2×H×W包含每个位置(i, j)的初始核。

K表示高通滤波器的内核大小。为了确保最终生成的核W * l是高通的,我们按照[83],首先用逐核的softmax获得低通核,然后从单位核E中减去这些核,当* K = 3时,单位核E的权值为[[0,0,0],[0,1,0],[0,0,0]]。

通过高通滤波和残差相加,得到增强结果,表示为:

请添加图片描述

在图10中,AHPF生成器在增强详细边界信息方面的有效性是显而易见的。例如,最初的特征在描绘公共汽车的轮廓和人物头部的细节方面缺乏清晰度。然而,随着AHPF生成器的加入,这些边界细节得到了实质性的改进,从而产生了更精细、更精细的底层特征。

请添加图片描述

AHPF生成器引入的增强功能突出了其捕获和保存复杂细节和边界的能力,这对于需要高分辨率和准确特征表示的任务至关重要。这些可视化结果与图11所示的定量频率分析相一致,图11显示AHPF发生器增强了Nyquist频率以上的高频功率。

请添加图片描述

表1的定量分析表明,它增强了边界相似裕度(0.228→0.239)和边界相似精度(0.718→0.728)。这表明AHPF生成器在解决边界位移问题方面提供了好处。