今天看论文 Context and Spatial Feature Calibration for Real-Time Semantic Segmentation
介绍创新点的时候原文说
我们观察到,上下文不匹配主要来自于上下文建模中的不加区别的处理。 具体来说,用于聚合上下文的常用方法[4]、[5]、[6]为每个像素引入了非自适应上下文,忽略了它们在上下文需求方面的固有差异。 如图 2(a) 所示,对于像素 A 和 B,先前的方法在预定义区域内为它们建模与空间相关的上下文。 然而,激活的上下文区域可能太大或太小,这些不匹配的上下文将带来意想不到的不相关信息或无法提供足够的语义线索。 另一方面,特征错位主要是由重复下采样引起的,这会导致输出(例如特征或预测)和输入图像之间的空间错位。 这个问题在无参数上采样中会加剧,并引入更多的预测误差(特别是在边界处),如图2(b)所示。
百科了一下非自适应上下文:
1 非自适应的上下文处理:
- 非自适应 意味着无论像素处于图像的哪个位置,或者它属于什么内容(例如,物体、背景、边缘等),这些方法都会使用相同的策略来聚合上下文信息。例如,某些方法可能会在固定的窗口大小或区域内聚合所有像素的上下文信息。
- 这种处理方式没有根据每个像素的具体需求,动态选择和调整应该从哪些位置或区域获取上下文信息。
2 不同像素对上下文的需求不同:
- 图像中的不同像素可能有不同的上下文需求。例如:
- 边缘像素 可能需要从与其相邻的像素获取更精确的局部信息,因为它们通常属于物体的边界,需要保持清晰的边缘。
- 物体内部的像素 可能需要从更大范围的区域获取上下文信息,因为它们需要反映整个物体或区域的语义信息。
- 背景像素 可能需要从更广泛的区域获取信息,因为背景通常涵盖更大范围的场景
- 因此,每个像素根据其位置和内容的不同,可能需要从不同的区域或采用不同的方式聚合上下文信息
举个例子
假设我们在做语义分割任务,图像中有一个“人”和一个“天空”区域。对于“人”的像素,可能最相关的是周围像素所表达的人体结构信息(如手臂、腿等),所以聚合上下文时需要关注局部信息。而对于“天空”的像素,可能需要从更大范围甚至整个图像的天空区域来获取信息,因为天空的纹理和颜色往往变化不大且覆盖较大区域。
非自适应方法的问题
如果对所有像素都采用同样的上下文区域或策略,就会导致:
- 对于需要局部信息的像素(如边缘像素),上下文区域可能过大,导致引入了不相关或噪声信息,从而降低了模型的精度。
- 对于需要全局信息的像素(如背景像素),上下文区域可能过小,无法提供足够的语义信息,导致分割或识别的效果不好。