自适应旋转卷积 (ARC)是否可以换成可变形卷积
研究背景
指向性遥感图像分割(RRSIS):旨在根据文本描述实现遥感图像中目标对象的像素级定位
像素级定位:像素级定位指的是在图像中对目标对象的每个像素进行准确的定位和标记。这意味着不仅要识别图像中的目标,还要精确地确定目标的边界,并为每个像素分配相应的类别标签。
感受野(Receptive Field)指的是神经网络中某一层神经元对输入数据的感知范围。在卷积神经网络(CNN)中,每一层的神经元只关注输入数据的一个局部区域,而这个局部区域的大小就是该神经元的感受野。
不同的感受野指的是在神经网络的不同层中,神经元感知输入数据的范围大小不同。通常,网络中的前几层对局部特征有较小的感受野,而随着网络层次的加深,感受野逐渐增大,能够捕捉更大范围的特征。
动机
航空图像具体复杂的空间尺度和方向
在航空图像中,"空间尺度"通常指的是图像中不同物体或特征的大小和比例关系,这些物体或特征可能具有不同的尺寸。空间尺度关注的是图像中物体的相对大小和分布。
遥感影像中的空间尺度主要指的是影像上能够详细区分的最小单元的尺寸或大小,通常用像元大小、像解率或视场角来表示。例如,如果遥感影像的空间分辨率是10米,那么就意味着影像中一个像元(像素)对应地面上的大小是10米,也就是说影像上最小的可分辨单元是10米。这代表了影像可以识别的最小地面目标细节。越高的空间分辨率,即越小的像元大小,意味着影像能识别更小的地面目标,提供更精细的空间信息[①](https://blog.csdn.net/mmarlon/article/details/5683427)。
图像幅面宽,视场大,目标类型丰富,使得背景复杂,尺度变化大
卫星遥感图像是从空中俯拍的,因此角度不固定,方向多变
而"方向"则指图像中的特定方向或趋势,可能涉及到地物的走向、地形的起伏、建筑物的朝向等。在航空图像中,考虑到复杂的地貌和景观,方向信息对于识别和理解地物特征是很重要的。
创新点
(1)RMSIN集成了一个尺度内交互模块(IIM)来有效地处理多个尺度上所需的细粒度细节,以及一个跨尺度交互模块(CIM)来跨网络连贯地集成这些细节
细粒度细节:
"细粒度细节"指的是图像中非常小、精细的部分或特征。在图像处理和计算机视觉中,细粒度细节可能包括一些微小的纹理、边缘、或者是局部的图案,这些细节对于理解图像中的内容和进行精细的区分是至关重要的。
(2)RMSIN 采用自适应旋转卷积 (ARC) 来解释对象的不同方向,这是显着提高分割精度的新贡献
Rotated Multi-Scale Interaction Network (RMSIN)
RMSIN 熟练地提取和对齐不同尺度和方向的特征