[Survey]Multimodal Referring Segmentation: A Survey-EW帮帮网

论文基本信息 (Basic Information)

标题 (Title)	Multimodal Referring Segmentation: A Survey
Adress	https://arxiv.org/pdf/2508.00265
Journal/Time	-
Author	复旦
Code	https://github.com/henghuiding/Awesome-Multimodal-Referring-Segmentation
Read

在这里插入图片描述

1. 多模态指代分割

根据文本或音频等形式的“指代性表述”(Referring Expression)，在图像、视频、3D场景等视觉媒介中分割出用户所指定的具体目标。
在图像/视频编辑、机器人技术、自动驾驶等需要根据用户指令精确感知物体的领域有巨大的应用潜力。

2. 分类

该综述根据指代信号（文本、音频等）和视觉场景（图像、视频、3D）的模态，将指代分割任务划分为多个子方向。

图像场景 (Image Scene)

指代性表述分割 (RES / RIS)：这是最经典的任务，旨在根据自然语言描述，在静态图像中分割出特定对象。
推理分割 (Reasoning Segmentation)：这是RES的一个特殊分支，其语言描述需要模型进行间接推理或利用常识知识，例如“分割出维生素C含量最高的水果” 。

视频场景 (Video Scene)

指代视频目标分割 (RVOS)：将RES扩展到视频领域，要求模型根据语言描述，在视频的每一帧中持续地分割并跟踪目标物体。这引入了处理遮挡、外观变化和保持时间一致性等新挑战。
视听分割 (AVS)：旨在分割出视听视频中正在发声的物体。这里的指代是隐式的，即“分割视频中正在发声的物体” 。
指代性视听分割 (Ref-AVS)：结合了RVOS和AVS，模型需要根据文本描述，在带有音频的视频中分割出目标。例如，“分割出无伴奏合唱团中唱低音的那个人”，这需要模型同时理解语言、视觉和音频三种模态的信息。
全模态指代视听分割 (OmniAVS)：这是一个更新、更复杂的任务，其指代性表述可以灵活地结合文本、语音、声音和视觉提示等多种模态。例如，“分割出由长得像<图像>的人演奏的、并发出类似<低音贝斯声音>的乐器” 。

3D 场景 (3D Scene)

3D指代性表述分割 (3D-RES)：在3D点云等场景中，根据语言描述分割出目标物体。与处理结构化图像像素的2D RES不同，3D-RES需要处理无序、稀疏且不规则的点云数据。
Referring 3D Gaussian Splatting Segmentation (R3DGS). : 根据表达式分割新视角图像

通用指代性表述 (GREx)

通用指代性表述分割 (GRES)：这是一个重要的扩展方向，它允许指代性表述指向任意数量的目标，包括单个目标、多个目标，甚至是“无目标”（即描述的物体不存在）。
Generalized Referring Expression Comprehension (GREC).最后生成 bbox 。

3. 数据集

在这里插入图片描述

4. Meta Architecture

4.1 两种主流范式 (Paradigm)

两阶段范式 (Two-Stage)：首先，使用现成的实例分割模型生成场景中所有可能的目标提议（proposals）；然后，将这些提议与指代性表述进行匹配，选出最匹配的一个作为最终结果。这种方法的缺点是容易出现误差累积，且计算成本较高。
单阶段范式 (One-Stage)：直接从视觉场景和指代性表述输入，通过一次前向传播端到端地预测出目标掩码。这种方法效率更高，减少了误差传播，是当前的主流方法。

4.2 流程

特征提取，多模态交互，分割头，训练目标

特征提取

视觉编码器 (Vision Encoder)：用于从视觉输入中提取特征。

图像任务：早期方法依赖 CNN（如 ResNet ），而近期 Vision Transformer (ViT) 及其变体。
视频任务：模型需要具备时间建模能力，通常使用 3D CNN 或带有时间注意力的 Transformer（如 Video Swin Transformer ）来处理视频。
3D 任务：使用专门的编码器（如 PointNet 和 Sparse 3D U-Net ）来处理点云或体素数据，以捕捉空间几何信息。

文本编码器 (Text Encoder)：用于将指代性表述转换为文本特征。

早期方法：使用循环神经网络（RNN）来建模语言的序列依赖性。
近期方法：基于 Transformer 的架构（如 BERT 和 ROBERTa ），来自 CLIP 等视觉语言模型的文本编码器(产生的文本嵌入能很好地与视觉特征在共享的语义空间中对齐) 。
音频编码器 (Audio Encoder)：用于为基于音频的任务提取声学特征。原始音频通常被转换为频谱图，然后由神经网络处理。预训练的编码器如 VGGish 和 wav2vec 在生成鲁棒的音频特征方面表现出色。

3.3 多模态交互 (Multimodal Interaction)

融合

基于拼接的融合：这是最简单的策略，通过拼接操作将多模态特征连接起来，然后送入卷积层或 MLP 。虽然高效，但这种方法难以捕捉复杂的模态间交互。
基于注意力的融合：基于 Transformer

对齐

基于对比学习的对齐：这类方法（如 CLIP 和 ALIGN ）利用对比损失来对齐多模态表示。它通过最大化匹配对的相似度、最小化不匹配对的相似度，将不同模态中语义相关的概念在共享的嵌入空间中拉近。
自监督对齐：多模态建模（根据一种模态预测另一种被掩盖的模态内容）和基于重构的方法（将一种模态编码再解码成另一种）。

时间信息处理 (Temporal Information Processing)

3D 卷积网络 (3D CNNs)：通过增加一个时间维度来扩展 2D 卷积，从而直接从视频中学习时空特征。
时间注意力机制 (Temporal Attention Mechanisms)：通过动态地为不同帧分配权重来捕捉时间依赖性，使模型能关注对任务最有信息量的帧。
记忆网络 (Memory Networks)：通过显式地存储和更新跨帧的对象特征，来捕捉其外观、位置和上下文的线索。这在目标可能暂时消失或经历显著外观变化的长视频中尤其有用。
光流和运动估计 (Optical Flow and Motion Estimation)：一些方法利用光流来捕捉像素级的帧间对应关系，为模型提供明确的运动线索，以增强跟踪和分割的时间连贯性。

分割头 (Segmentation Head)

基于 CNN 的分割头：传统的设计通常使用一系列卷积层和上采样操作来恢复特征图的空间分辨率并生成掩码。
基于 Transformer 的分割头：以 DETR 和 Mask2Former 为代表的架构，使用 Transformer 解码器生成对象查询，然后将这些查询映射到分割掩码。这种头在捕捉全局上下文方面特别有效。
可提示分割头 (Promptable Segmentation Head)：近期的进展引入了灵活且泛化能力强的分割头，可以响应各种类型的提示（如点、框、文本）。Segment Anything Model (SAM) 是这一设计的典范，它无需针对特定任务进行微调即可支持多种提示。其后续版本 SAM2 则将这一框架扩展到了视频分割。

训练目标(Training Objectives)

分割目标：最主要的训练目标包括二元交叉熵损失 (BCE loss) 和 Dice 损失。BCE 衡量像素级的分类误差，而 Dice loss 直接优化预测掩码和真实掩码之间的重叠度。两者通常结合使用
定位目标 (Grounding Objectives)：为了增强定位性能，一些方法加入了 L1、IoU 等损失函数，以强制视觉区域和指代表述之间的精确对应。
多模态对齐目标：除了视觉感知损失，许多模型还加入了对比损失等对齐目标，以拉近匹配的视觉-语言对，推远不匹配的对。
多任务学习目标：一些方法采用多任务学习策略，将指代分割与其他辅助任务（如指代理解或生成）联合训练，以增强 RES 性能和多模态理解能力

RES

优化表征 (Better Representations)：一些工作致力于提取更丰富、更有区分度的特征。例如，通过为关键描述词分配更高权重来优化语言特征，或者通过数据增强技术（如拼接负样本图像、对图像和文本进行掩码）来学习更好的表征。
增强多模态交互 (Enhancing Multi-Modal Interaction)：
- 融合 (Fusion)：从简单的特征拼接发展到使用交叉注意力（cross-modal attention）和多模态Transformer来捕捉更细粒度的模态间关系。
- 对齐 (Alignment)：广泛使用对比学习来对齐不同模态的特征。例如，CRIS模型引入了文本-像素级别的对比损失，以解决CLIP在细粒度分割任务上的局限性。此外，受MAE和BEIT-3启发的方法通过重构被掩盖的模态信息来学习对齐。
- 参数高效微调 (PET)：为了降低微调大型预训练模型的成本，研究者们探索了PET方法，即只更新模型的一小部分参数，便可在保持计算效率的同时达到相当的性能。
优化掩码解码器 (Optimizing Mask Decoder)：一些方法采用多阶段优化的策略，逐步精炼分割掩码。近期，随着Segment Anything Model (SAM) 的出现，大量工作致力于将其强大的分割能力应用于RES任务。例如，Grounded SAM结合了目标检测模型和SAM，实现了基于任意文本输入的检测与分割。LISA则开创性地通过让多模态大语言模型（MLLM）生成一个特殊的[SEG]词元（token）来引导SAM进行分割。
多任务学习 (Multi-Task Learning)：许多方法通过联合学习RES和相关的指代性表述理解（REC，即预测边界框）任务来提升性能。一些通用模型，如X-Decoder和SEEM，支持包括RES在内的多种视觉语言任务，并表现出强大的性能。

RVOS

在线 vs. 离线方法 (Online vs. Offline Methods)：
- 逐帧与在线方法：早期的简单方法是独立地对视频的每一帧应用图像RES模型。在线方法则按顺序处理视频帧，并利用一个记忆模块来维持历史帧的信息，以提高时间一致性。
- 离线方法：在线方法无法获取未来帧的信息，因此难以理解包含复杂时间关系的描述（如“先向前走然后又折返的大象”）。离线方法则通过一次性处理整个视频序列来进行全局时间推理，是目前多数RVOS研究采用的流程。
两阶段方法的复兴 (Resurgence of Two-Stage Methods)：对于MeViS等强调复杂、长期动作理解的数据集，单阶段方法中稀疏的帧采样可能无法捕捉到关键运动信息。这促使了两阶段方法的复兴：首先，使用视频实例分割模型提取出完整的物体轨迹（tracklets）；然后，在第二阶段将这些包含完整运动信息的轨迹与语言进行匹配。
利用基础模型：与RES类似，近期的RVOS研究也开始利用SAM和SAM2的强大分割能力。例如，SAMWISE和MPG-SAM2都是基于SAM2构建的代表性RVOS工作。
视频推理分割 (Video Reasoning Segmentation)：在LLM/MLLM的推动下，该方向旨在处理需要复杂推理和外部知识的视频查询（如“短跑比赛中的获胜者”）。

指代性视听分割 (Referring Audio-Visual Segmentation)

视听分割 (AVS)：旨在分割视听视频中正在发声的物体。方法重点在于如何有效提取音视频特征并进行融合与对齐。
指代性视听分割 (Ref-AVS)：该任务进一步引入了文本描述，要求模型结合视觉、音频和文本三种模态的信息来分割目标，从而能够处理“合唱团里的贝斯手”这类仅靠视或听都无法解决的复杂场景。
全模态指代视听分割 (OmniAVS)：这是该方向的最新进展，它允许指代性表述灵活地组合文本、语音、声音、图像等多种提示。例如，其查询可以是“分割出由长得像<图>的人演奏的，发出类似<声音>的乐器” 。这极大地推动了模型向更通用、更人性化的交互方式发展。

3D指代性表述分割 (3D-RES)

3D-RES需要处理无序、稀疏且不规则的3D点云，这要求模型不仅要对齐语言和视觉特征，还要深刻理解几何结构。
多任务学习：一些工作通过联合学习3D-RES与3D-REC（预测3D边界框），或构建能够处理多种3D视觉语言任务的统一框架来提升模型性能。

通用指代性表述 (GREx)

通用指代分割 (GRES)：它扩展了传统RES，使其能够支持对单个、多个或零个目标的分割。
通用指代理解 (GREC)：与GRES并行，GREC将传统的REC（预测单个边界框）扩展到可以预测任意数量的边界框。

其他任务

指代性表述理解 (REC)：预测目标的边界框而非像素级掩码。
指代视频目标跟踪 (RVOT)：在视频中以边界框的形式跟踪目标。
指代性表述生成 (REG)：为指定的物体生成能够唯一标识它的文本描述。

附录

RES 性能基准测试 (Referring Expression Segmentation)

评测指标 (Evaluation Metrics)：
交并比 (Intersection over Union, IoU)：衡量预测掩码与真实掩码之间的重叠程度。它是评估模型准确性的基础指标。
平均交并比 (mIoU)：计算数据集中所有样本IoU的平均值，全面评估模型在整个数据集上的整体性能。
累积交并比 (cIoU)：计算所有样本的累积交集与累积并集的比值。该指标受大面积物体影响较大，可能影响评估的可靠性。
Precision@X (Pr@X)：计算IoU分数高于某个阈值X的预测所占的百分比。

RVOS 性能基准测试 (Referring Video Object Segmentation)

区域Jaccard (J)：即区域相似度，通过计算预测掩码和真实掩码之间的IoU来衡量。
边界准确率 (F)：衡量预测轮廓与真实轮廓的匹配程度，是边界精度和召回率的谐波平均值。
J&F：J和F的平均值，综合评估了区域和边界的准确性。

R-AVS 性能基准测试 (Referring Audio-Visual Segmentation)
3D-RES 性能基准测试 (3D Referring Expression Segmentation)
GREX 性能基准测试 (Generalized Referring Expression)
ReasonSeg 性能基准测试 (Reasoning Segmentation)

[Survey]Multimodal Referring Segmentation: A Survey