遥感变化检测通过分析同一区域在不同时期的图像来识别地表特征变化,在城市规划、地形分析和环境监测等领域具有重要应用。本文提出了一种基于大型语言模型(LLM)增强推理的方法(SegChange-R1),通过整合文本描述信息,引导模型聚焦于相关变化区域,从而提升检测能力并加速收敛。我们设计了一种基于线性注意力的空间变换模块(BEV),通过将不同时相的特征统一到 BEV 空间中,解决了模态不匹配问题。此外,我们还引入了一个新的无人机视角建筑变化检测数据集 DVCD。在四个广泛使用的数据集上的实验表明,与现有方法相比,SegChange-R1 具有显著改进。代码和预训练模型可在 https://github.com/Yu-Zhouz/SegChange-R1 获得。
1. 引言
遥感变化检测(CD)通过分析不同时间获取的同一区域图像来识别地表特征变化[2,24]。CD 任务用于城市扩张监测[47,50]、灾害评估[1,43]、土地利用和土地覆被变化分析[13,40,54]以及军事侦察[20,23]等领域。然而,由于多种因素的影响,CD 面临诸多挑战。首先,不同时相的图像通常表现出光照和季节变化,导致同一物体的光谱差异[6,32]。其次,多源数据的不一致分辨率会影响变化提取的准确性[4]。传感器噪声和大气干扰也会引入图像噪声,使变化建模变得复杂[2,46]。图像配准误差是另一个关键问题;即使经过预处理,微小的错位也可能导致错误的变化判断[4,39]。
近年来,卷积神经网络(CNN)如 FC-EF 和 FC-Siam diff 通过双时相图像的孪生结构增强了特征一致性,提高了检测性能。基于 Transformer 的方法,如 BIT[11] 和 ChangeFormer[3],利用自注意力建模长程依赖关系,改善了多尺度变化建模。ChangeMamba[26] 基于 Mamba 架构,利用状态空间模型处理长序列遥感数据,提高了建模效率。然而,大多数方法仅限于视觉特征提取,缺乏语义理解,从而影响了变化特征的准确性和收敛速度。
最近,鸟瞰图(BEV)空间建模被引入以统一视角表示,旨在解决这一问题。结合上下文信息(如文本描述或地理标签)以聚焦模型于感兴趣区域仍是一个值得探索的领域[27]。大型语言模型(LLM)的快速发展为这一领域带来了新的机遇。我们提出的 SegChangeR1 利用 LLM 结合文本描述与遥感图像,引导模型聚焦于感兴趣区域,从而提高不同时相之间显著变化的检测能力。
如图 2 所示,我们设计了一个基于线性注意力的空间变换模块(BEV)。该模块将不同时相的特征统一到共享的 BEV 空间中,解决了变化检测中的模态不匹配问题。与 Transformer 相比,基于线性注意力的架构通过建模全局依赖关系增强了特征表达能力,实现了线性时间训练、高效的空
间依赖建模以及快速收敛。
总的来说,我们的工作主要贡献如下:
• 我们开发了 SegChange-R1,这是一种新颖的语义引导遥感变化检测器,利用大型语言模型通过整合两张图像的文本描述生成精确的位置掩码。
• 我们设计了一种基于线性注意力的空间变换模块(BEV),用于解决变化检测中的模态不匹配问题。
• 我们引入了 DVSC,一个包含 13,800 对建筑变化图像的无人机视角建筑变化检测数据集,涵盖多样化的城市和农村场景。
2. 相关工作
基于深度学习的方法 遥感变化检测从传统方法发展到深度学习方法。早期的变化检测方法主要依赖于像素级差异分析,包括图像差分法、比率法、变化向量分析和主成分分析[2,24,40]。尽管这些传统方法计算简单,但它们易受光照变化、季节变化、传感器噪声和大气条件等因素的影响,导致虚警率高,难以准确识别真正的土地覆被变化。随着深度学习的发展,卷积神经网络(CNN)已成为变化检测的主流范式。早期的深度学习方法如 FC-EF(全卷积早期融合)采用早期融合策略,在输入层将双时相图像进行拼接[16]。随后,提出了如 FC-Siam-diff(全卷积孪生差分)和 FC-Siam-conc 等孪生网络架构,这些方法使用共享权重的特征提取器对双时相图像进行并行处理,然后通过差分或拼接操作进行特征融合[15,35]。这些方法通过参数共享确保特征一致性,提高了变化检测的准确性和鲁棒性。为了提高检测性能,研究人员探索了复杂的网络架构和注意力机制。STANet[10] 引入了时空注意力机制,通过空间注意力和通道注意力模块增强模型对变化区域的关注能力。DT-CDSCN[19] 提出了双任务约束的深度孪生卷积网络,通过语义分割任务的辅助训练提高变化检测性能。IFN[51] 设计了一种交互式特征融合网络,通过多级特征交互实现更精确的变化建模。近年来,基于注意力的方法如 SNUNet[18] 和 FCCDN[8] 进一步推动了这一领域的发展,通过设计专门的注意力模块增强了特征表示和融合能力。
基于 Transformer 的方法 为了更好地建模长程依赖关系和全局上下文,基于 Transformer 的变化检测方法应运而生。BIT(基于 Transformer 的二元变化检测)[11] 首次将 Transformer 架构引入变化检测任务,利用自注意力机制捕获全局上下文信息,在多个基准数据集上实现了显著的性能提升。ChangeFormer[3] 进一步改进了 Transformer 结构,设计了专门的变化感知注意力模块和层次化特征融合策略。SwinSUNet[44] 结合了 Swin Transformer 的层次化特征表示能力和滑动窗口机制,在处理多尺度变化时表现出色。尽管 Transformer 在建模全局依赖关系方面表现出色,但其 O(n2) 复杂度在处理高分辨率遥感图像时成为瓶颈。为了解决这一问题,研究人员开始探索更高效的注意力机制和替代架构。ChangeMamba[26] 设计了一种基于状态空间模型(SSM)的线性复杂度变化检测架构,通过 Mamba 的选择性扫描机制实现高效的长序列建模。Performer[12] 通过随机特征映射实现线性复杂度的注意力计算,而 Linformer[45] 通过低秩分解降低注意力矩阵的维度。这些方法在降低计算成本的同时保持了性能,使其适用于高分辨率遥感图像。
多模态融合方法 现有的变化检测方法强调视觉表示学习,忽视了多模态数据的潜力。CLIP(对比语言 - 图像预训练)[38] 成功证明了视觉 - 语言预训练在各种视觉任务中的有效性,为遥感领域中的多模态应用奠定了基础。随后,FLAVA[41] 和 ALIGN[22] 等工作进一步探索了大规模多模态预训练的可能性。受此启发,一些研究人员开始将语言信息纳入遥感变化检测任务,探索文本描述如何引导模型关注特定类型的变化[27,30,51,33]。最近,大型语言模型(LLM)的快速发展为遥感变化检测带来了新的机遇。诸如具有视觉能力的生成预训练 Transformer 4(GPT4V)[36]、LLaVA[31] 和 InstructBLIP[14] 等多模态大型语言模型展示了强大的视觉理解和推理能力。在遥感领域,LLM 越来越多地被应用于图像描述生成、场景理解和目标检测等任务[7,48,42]。特别是,LLM 在空间推理和区域定位方面的能力为遥感变化检测提供了新的可能性。通过结合视觉特征和自然语言描述,LLM 可以更好地理解变化的语义,引导模型关注感兴趣区域。然而,遥感变化检测中的多模态融合仍然有限。大多数方法仍然依赖于视觉特征比较,缺乏对语义变化的深入理解。将 LLM 推理有效地整合到变化检测中,并实现视觉特征和语言的深度融合,仍然是一个关键问题。
空间对齐 空间对齐和高效架构是遥感变化检测的关键技术挑战。由于遥感图像获取过程中的各种干扰因素,如传感器位置差异、拍摄角度变化和大气条件,不同时相的图像往往存在微小但不可忽略的空间错位问题[5,39]。这种错位即使在亚像素级别也可能导致错误的变化检测,特别是在边缘区域和小目标上。鸟瞰图(BEV)表示作为一种统一的空间表示方法,在自动驾驶和 3D 目标检测领域得到了广泛应用[17,37,53]。BEV 的优势在于将不同视角和传感器的数据统一到单一空间坐标系中,解决了视角变化和空间错位问题。LSS(Lift,Splat,Shoot)[37] 通过深度估计将透视图特征转换为 BEV 表示,而 BEVFormer[29] 进一步整合了时间信息建模。最近,一些研究人员开始将 BEV 表示纳入遥感变化检测任务,以解决多时相图像之间的配准误差[28,9]。通过将不同时相的图像特征映射到统一的 BEV 空间中,可以减少空间错位对变化检测的影响。
3. 提出的方法
我们提出的 SegChange-R1 是一个地理空间像素推理基线。如图 1 所示,我们的架构包括预训练的文本 - 图像编码器、BEV 空间变换器和掩码解码器。
3.1 编码器
视觉编码器 遥感图像在尺度上变化显著,从亚米级物体到公里级结构,这对模型的多尺度建模能力提出了挑战[53]。此外,高分辨率图像中小目标的密集分布要求模型在特征提取过程中保留空间细节[12]。然而,主流的视觉变换器编码器(如 CLIP[3] 和 Segment Anything Model(SAM)[18,41])存在局限性:其固定的窗口机制和激进的下采样可能导致小尺度目标信息的丢失,限制了在复杂遥感场景中的感知能力。为了解决这些问题,我们采用了 Swin Transformer[1],它使用滑动窗口对局部注意力进行建模,增强了细粒度特征的捕获能力,同时保持了效率。基于此,我们构建了一个渐进式的多尺度特征提取框架,生成分辨率为原始输入图像的 1/4、1/8、1/16 和 1/32 的特征图,记为 vh ∈[1,4],从而在不同层次上平衡空间分辨率和语义抽象。此外,我们的实现支持多种骨干网络(包括 ResNet50[21]、Swin-Transformer[34] 和 HGNetv2[52]),以满足不同的计算和精度需求。
文本编码器 文本提示在遥感变化检测中至关重要,它提供了关于变化的语义信息,引导模型关注特定特征。视觉 - 语言模型证明了结合文本语义可以有效增强视觉理解[38]。ChangeCLIP[51] 利用遥感图像的全面文本语义增强了视觉模型对变化的感知能力,在基准数据集上取得了良好的性能。此外,PromptCC[33] 等研究表明,使用 LLM 进行文本提示编码是有效的;多提示学习提高了语言生成的准确性。为了弥合文本和视觉特征之间的语义差距,我们引入了一个基于预训练大型语言模型(LLM)Microsoft/Phi-1.5 的文本编码器。该编码器将文本描述转换为语义丰富的嵌入向量,通过深度特征融合与视觉编码器集成。这使得模型能够在文本语义的约束下关注特定的土地覆被变化。此外,我们实现了动态序列长度控制,使文本嵌入能够适应下游任务。
3.2 BEV 空间转换器
模态不匹配是遥感变化检测的一个主要挑战。为了解决这一问题,我们在 SegChange-R1 框架中提出了一个 BEV 空间转换模块。该模块解决了处理不同时相数据时的模态不匹配问题,基于线性注意力机制实现高效的特征转换。该模块将不同时相的特征转换到共享的 BEV 空间中,从而实现有效的比较和变化分析。BEV 空间转换器以多个时相的特征作为输入,使用线性变换将其投影到潜在空间中。数学上可以表示为:
z t = W z x t + b z \mathbf{z}_t = W_z \mathbf{x}_t + b_z zt=Wzxt+bz
其中,(\mathbf{x}_t) 表示时相 t 的输入特征,(W_z) 是可学习的权重矩阵,(b_z) 是偏置项。转换后的特征 (\mathbf{z}t) 用于计算注意力分数。注意力分数使用线性注意力机制进行计算。对于特征图中的每个位置 i,相对于位置 j 的注意力分数 (a{ij}) 计算如下:
a i j = w a ⊤ ReLU ( W a 1 z i + W a 2 z j ) a_{ij} = w_a^\top \text{ReLU}(W_{a1} z_i + W_{a2} z_j) aij=wa⊤ReLU(Wa1zi+Wa2zj)
其中,(w_a)、(W_{a1}) 和 (W_{a2}) 是可学习的参数。这些注意力分数随后通过 softmax 函数进行归一化,以获得最终的注意力权重。使用这些注意力权重,特征被聚合到统一的 BEV 表示中,使模型能够解决模态不匹配问题并捕获不同时相之间的变化。BEV 空间转换器增强了变化检测能力,并提供了鲁棒且可解释的特征表示。
3.3 掩码解码器
掩码解码器通过结合多尺度视觉特征和文本的语义引导生成精确的分割掩码。受语言引导分割[2]的启发,我们的架构采用了层次化设计,结合了跨模态特征融合和基于 Transformer 的空间推理。如图 2 所示,解码器包括:一个描述投影器(D-Projector),用于弥合语言和视觉之间的语义差距;一个 Transformer 解码器,通过可学习的查询进行空间推理;以及一个掩码预测头,用于生成分割输出。D-Projector 首先聚合时序文本嵌入,并将其投影到视觉特征空间中。然后,它使用交叉注意力实现文本语义和空间视觉特征之间的细粒度对齐。随后,Transformer 解码器通过自注意力和交叉注意力与融合的视觉特征进行交互,使模型能够捕获长程空间依赖关系和上下文关联,从而实现准确的分割。最终的掩码预测头采用多尺度卷积架构,并使用通道注意力细化空间相关性,生成高质量的分割掩码。这种设计使模型能够在处理复杂的空间推理的同时保持效率,正如我们的实验所验证的那样。
4. 数据集、实验设置和结果
数据集。无人机航拍的快速发展,以其灵活的部署、高分辨率和多角度成像,为城市环境监测开辟了新的可能性。然而,大多数变化检测数据集基于传统的遥感平台,缺乏语义级建模,受低分辨率和固定角度的限制,难以捕捉复杂城市环境中多样化的建筑细节。这促使我们提高模型对语义变化的理解,并探索文本在建筑变化检测中的作用。我们构建了 DVCD(无人机视角变化检测),这是一个新的基于无人机的变化检测数据集。该数据集由广东省城市区域的无人机正射影像组成,涵盖了从 2022 年到 2024 年的建筑变化。它反映了快速城市发展期间的典型变化,如新建、拆除和扩建。我们引入了细粒度的文本描述,以引导模型关注语义变化特征,增强其在复杂场景中识别建筑演变的能力。DVCD 数据集包含 12,833 对图像,分为训练集(11,066 对)、验证集(1,383 对)和测试集(1,384 对)。为了进一步验证算法的泛化能力,本研究还在三个公开的建筑变化检测基准数据集上进行了比较实验,详细信息如表 1 所示。WHU-CD[16] 数据集专为建筑提取和变化检测任务而设计;DSIFN-CD[49] 数据集由覆盖中国六个城市的大型高分辨率双时相图像组成;CDD[25] 数据集提供了具有不同分辨率和季节变化的多样化图像对。这些数据集在图像大小、样本数量、时间跨度、空间变化和地理覆盖范围等方面具有独特特性,为评估算法性能提供了基础。
实验设置。所有实验都在配备 NVIDIA A800 图形处理单元(GPU)的服务器上进行。训练使用 AdamW 优化器,学习率为 10−4,骨干网络学习率为 10−5,权重衰减为 10−4。训练使用 128 个周期,批量大小为 16,并采用 StepLR 调度器,每 20 个周期将学习率降低 0.1 倍。测试时,批量大小为 1,变化检测阈值为 0.5。模型性能通过 F1 分数(F1-Score;精确率和召回率的调和平均值)、交并比(IoU)和总体准确率(OA)进行评估。
结果。我们将在四个数据集上将我们的方法与最近的先进变化检测方法进行比较。如表 2 所示,我们提出的 SegChange-R1 在所有基准测试中均表现出更好的性能。在现有的方法中,基于 CNN 的模型(例如 FC-Siam-conc 和[18])由于其全局上下文建模能力有限,效果有限。基于 Transformer 的方法(例如 ChangeFormer[3] 和 SwinSUNet[44])通过自注意力机制建模长程依赖关系提高了性能。特别是,ChangeCLIP[51] 引入了指令引导学习,并利用视觉 - 语言预训练在 WHU-CD(F1:0.982)和 CDD(F1:0.979)上取得了良好的结果,凸显了语义引导的优势。相比之下,SegChange-R1 利用文本引导的语义理解,在 DSIFN-CD(F1:0.972)和 CDD(F1:0.988)上实现了最高性能,并在无人机视角的 DVCD 数据集上取得了最高准确率,凸显了其在复杂场景中的有效性。对于 DVCD 数据集的评估,我们选择了先进的开源方法,并遵循其原始训练配置以进行公平比较。值得注意的是,SegChangeR1 显示出高训练效率,在 64 个周期内收敛,并超越了所有竞争对手。
5. 消融研究
为了验证设计并量化每个组件的贡献,我们在 DVCD 数据集上进行了消融研究。该分析为架构选择提供了见解,并证明了每个模块对于最佳变化检测的必要性。
骨干网络。我们研究了三种具有代表性的骨干网络架构,以了解它们在捕捉多尺度空间特征方面的基本能力,这对于变化检测任务至关重要,如表 3 所示。分析揭示了不同的计算范式对变化检测有效性的影响。虽然 ResNet-50 提供了基线,但其 CNN 架构限制了全局上下文建模。HGNetV2 采用轻量级架构,平衡了计算效率和表示能力。Swin Transformer 通过其层次化自注意力展现出强大的性能,适用于变化检测的多尺度特性。这使得模型能够捕捉细粒度的局部变化和全局上下文,从而实现更连贯的变化检测。
文本引导策略分析。我们系统地评估了逐步整合文本语义信息,以了解其在通过多模态推理能力增强变化检测中的作用,如表 4 所示。没有文本的基线仅依赖视觉特征,限制了模型整合语义上下文和领域知识的能力。这种限制在复杂的变
化类别中尤为明显,这些类别需要超出视觉识别的语义理解。静态提示通过固定的文本引入语义意识,为模型提供了将视觉模式与语义概念关联的一致锚点。然而,静态提示在适应多样化上下文和变化类型方面的灵活性有限,导致改进有限。动态描述基于场景特征和变化模式实现上下文感知文本,提供更相关的语义引导,并增强视觉特征与语义之间的对齐。LLM 增强的推理利用大型语言模型的推理能力,提供细粒度的语义分析和上下文。这使得模型能够进行语义推理,结合领域知识和逻辑以提高变化检测的准确性和鲁棒性。
鸟瞰图(BEV)模块。BEV 模块解决了航空影像中的透视畸变问题,这可能会影响变化检测的准确性,特别是对于具有不同高度和方向的物体。没有 BEV 校正,模型难以处理由透视引起的几何不一致性,导致误报和漏报变化。这在建筑物高度和视角创建透视效果的城市环境中是一个问题。表 5 中的结果表明,简单的几何投影通过固定的变换矩阵提供基本的透视归一化,对系统性的透视畸变进行初步校正。然而,这种方法缺乏适应场景特定几何变化和复杂地形的灵活性。可学习的变换通过可训练参数引入自适应透视校正,这些参数可以根据场景特定特征进行调整,使模型能够为不同场景学习最优变换并提高空间一致性。我们的多尺度 BEV 在特征分辨率上分层整合透视信息,使透视校正能够同时保持全局几何一致性和局部空间细节。这确保了透视校正的好处贯穿于特征提取过程,提高了空间一致性和边缘保持能力。
6. 结论
我们提出的 SegChange-R1 是一种利用大型语言模型(LLM)增强语义推理的遥感变化检测方法。通过整合文本描述,我们的方法能够聚焦于感兴趣区域,提高变化检测的准确性和效率。为了解决模态不匹配问题,我们设计了一种基于线性注意力的 BEV 转换器,将特征对齐到统一的空间表示中,增强了空间一致性和全局上下文建模。为了支持视觉 - 语言变化检测,我们引入了 DVCD,一个包含 13,800 对图像的无人机视角建筑变化检测数据集,涵盖多样化的城市和农村场景。在四个基准数据集上的实验表明,SegChange-R1 在 F1 分数、IoU 和总体准确率方面均取得了最先进的性能。消融研究验证了文本引导推理和 BEV 模块的有效性。这项工作为将 LLM 整合到遥感领域开辟了新的方向。