Segment anything model for medical image segmentation: Current applications and future directions
摘要:由于提示的固有灵活性,基础模型已成为自然语言处理和计算机视觉领域的主导力量。最近推出的 "任意分割模型"(SAM)标志着提示驱动范式向图像分割领域的显著扩展,从而引入了大量以前未曾探索过的功能。然而,鉴于自然图像和医学图像之间的巨大差异,将其应用于医学图像分割的可行性仍不确定。本文全面概述了近期旨在将 SAM 的功效扩展到医学图像分割任务的努力,包括经验基准和方法调整。此外,还探讨了 SAM 在医学图像分割中作用的未来研究方向的潜在途径。虽然将 SAM 直接应用于医学图像分割迄今为止在多模态和多目标医学数据集上并没有取得令人满意的性能,但从这些努力中获得的众多启示对塑造医学图像分析领域基础模型的轨迹具有宝贵的指导意义。
Introduction
医学影像处于医疗保健的最前沿,在疾病的诊断和治疗中发挥着至关重要的作用。医学影像分割旨在从医学影像中分辨出特定的解剖结构,包括器官、病变、组织等。这一基本步骤是计算机辅助诊断、治疗计划和监测疾病进展等众多临床应用不可或缺的一部分。准确的分割可以提供目标结构可靠的体积和形状信息,从而有助于疾病诊断、定量分析和手术规划等更多临床应用。深度学习模型能够学习复杂的成像特征,因此在医学影像分割领域大有可为。然而,现有的方法往往是为特定模式或目标量身定制的,这限制了它们在不同任务中有效推广的能力。
大模型的出现给人工智能带来了革命性的变化,并因其在广泛的下游任务中显著的零次和少量泛化能力而引发了一个新时代。开发能够适应各种成像模式的基础模型具有重要意义。最近,Segment Anything Model(SAM)作为图像分割的先驱基础模型问世,它以全自动或交互式方式生成精确对象遮罩的强大功能赢得了广泛关注。该模型的引入标志着提示驱动范式开始进入图像分割领域,开启了无数以前未曾探索过的功能。然而,作为图像分割的一个非常重要的分支,由于自然图像和医学图像之间存在本质区别,这些基础模型能否应用于医学图像分割仍是未知数。为此,社会各界提出了大量的扩展工作,以进一步探索 SAM 在医学图像分割中的应用。
本文旨在总结近年来将 SAM 的成功经验推广到医学图像分割任务中的努力。首先,简要介绍了基础模型的背景和 SAM 的工作流程。然后,回顾并将当前工作分为两个主要方向。第一个方向旨在评估 SAM 在各种医学影像分割任务中不同提示模式下的零镜头性能,而另一个方向则侧重于探索 SAM 在医学影像分割任务中的零镜头性能。最后,对调查进行了总结,并概述了几个现有挑战和潜在的未来方向。
Background
Foundation models
基础模型是人工智能研究中一个快速发展的领域,旨在开发大规模、通用的语言和视觉模型。这些模型通常在海量数据的基础上进行训练,从而可以学习通用的表征和能力,并将其应用到不同的领域和应用中。最广为人知的基础模型之一是 GPT(生成式预训练转换器)系列 ,它在句子补全、问题解答和语言翻译等各种自然语言处理任务中表现出了令人印象深刻的能力和性能。这些成就激励着研究人员开发大规模的基础模型来学习计算机视觉任务的通用表征,这些模型侧重于捕捉视觉和语言之间的跨模态交互,如理解视觉概念和细节[、生成图像区域的自然语言描述以及根据文本描述生成图像。这些基础模型的成功催生了大量衍生作品和应用,横跨不同行业,已成为许多人工智能系统架构的重要组成部分,其持续发展有望推动语言和视觉任务的进一步进步。基础模型在解决广泛的医学图像分析下游任务方面也显示出强大的潜力,并有助于加速开发精确、稳健的模型
Segment anything model
作为第一个用于图像分割的可提示基础模型,Segment Anything Model(SAM)是在大规模的 SA1B 数据集上训练的,该数据集拥有前所未有的图像和注释数量,这使得该模型具有显著的零点泛化能力。SAM 采用基于变换器的架构,该架构已被证明在自然语言处理和图像识别任务中非常有效。具体来说,SAM 采用了一个基于视觉变换器(ViT) 的图像编码器来提取图像嵌入,一个提示编码器通过不同的提示模式整合用户交互,以及一个轻量级掩码解码器,通过融合图像嵌入和提示嵌入来预测分割掩码。每个组件的详情如下(见图 2)。
图像编码器 出于可扩展性和强大的预训练方法的考虑,SAM 采用了一种基于 ViT 的图像编码器,该编码器采用掩码自动编码器(MAE)方案进行预训练,并对其进行了最小化调整,以处理高分辨率图像。它接收 1024 × 1024 的图像,并输出 16 倍缩放为 64 × 64 特征图的图像嵌入。
提示编码器 对于提示编码器,本文考虑了两种类型的提示,包括稀疏提示(即点、方框)和密集提示(即掩码)。SAM 采用位置编码结合学习嵌入来表示点和框。具体来说,点由两个可学习的标记编码,用于指定前景和背景,而边界框则由其左上角和右下角的点编码。高密度掩码提示与输入图像具有相同的空间分辨率,使用卷积进行嵌入,然后与图像嵌入进行元素求和。
掩码解码器 掩码解码器的特点是设计轻巧,由两个变压器层和一个动态掩码预测头以及一个交叉-联合(IoU)分数回归头组成。掩码预测头能够生成三个 4 倍缩放的掩码,分别对应对象的整体、部分和子部分。
在训练过程中,使用焦点损失和骰子损失的线性组合对输出预测进行监督,并使用混合几何提示对可提示分割任务进行训练。数据引擎是为高效标签训练而构建的。具体来说,专业注释者首先通过交互式分割对遮罩进行标注。然后,对在 SAM 预测中被忽略的不太突出的对象进行手动标注。最后,进行全自动阶段,选择有把握和稳定的伪掩码作为注释。
SAM’s zero-shot evaluations on medical image segmentation
尽管 SAM 在自然图像上的表现令人印象深刻,但由于许多内在问题(如结构复杂、对比度低和观察者之间的差异性),它能否应对医学图像分割的挑战仍不明确。目前,已有多项研究对其在医学图像分割中的零镜头性能进行了调查,重点是不同医学成像模式中的各种解剖和病理目标。这些模式包括二维医学影像(如 X 光、病理学、超声波、内窥镜和结肠镜检查)和三维医学影像(如计算机断层扫描 (CT)、磁共振成像 (MRI) 和正电子发射断层扫描 (PET))。一些研究特别评估了 SAM 在特定成像模式下的有效性,而另一些研究则对各种模式下的广泛分割任务进行了全面评估。在本节中,根据医学成像模式的格式,介绍 SAM 在医学影像分割中的零镜头使用情况。
CT image segmentation
CT 扫描从身体周围的不同角度捕捉多幅 X 射线图像,生成一系列详细的横截面切片,可以直观地显示人体内部结构和异常情况,如器官、骨骼和血管。为了评估 SAM 在分割腹部器官时的开箱即用零点能力,Roy 等人在 AMOS22 腹部 CT 器官分离数据集上进行了实验。他们从分割掩模中随机选取点和抖动边界框进行不同的设置,以模拟用户不同程度的不准确性。结果表明,使用点提示的 SAM 性能低于最新技术(SOTA),平均骰子相似系数(DSC)下降了 20.3% 到 40.9%,而使用盒提示的 SAM 即使在中度抖动的情况下也能获得极具竞争力的性能。为了评估 SAM 在分割肿瘤方面的性能,Hu 等人对对比度增强计算机断层扫描(CECT)体积进行了多阶段肝脏肿瘤分割实验。实验结果表明,用于分割的提示点越多,SAM 的性能就越好。然而,与经典的 U-Net 架构相比,SAM 的性能仍有很大差距。
MRI image segmentation
核磁共振成像是一种非侵入性成像技术,利用强大的磁铁和无线电波生成内部解剖结构(包括大脑、关节和其他软组织)的高分辨率横截面视图。由于 MRI 在大脑可视化方面发挥着重要作用,Mohapatra 等人将 SAM 与大脑提取工具 (BET) 进行了比较,后者是目前广泛使用的大脑提取和分割金标准技术。他们在各种不同图像质量、磁共振序列和脑损伤的大脑扫描图像上进行了实验。结果表明,SAM 可以获得相当甚至更好的性能,这表明它有潜力成为大脑提取和分割的有效工具。Zhang 等还评估了 SAM 在脑肿瘤分割方面的性能,并验证了如果不对模型进行微调,SAM 与当前的 SOTA 方法仍有差距。
Pathological image segmentation
病理图像通常是利用显微镜技术捕捉到的,用于描述人体内异常的组织结构、细胞变化或病理状况,尤其是在肿瘤学领域。Deng 等人评估了 SAM 对全切片成像(WSI)数据进行肿瘤分割、非肿瘤组织分割和细胞核分割的效果。通过对单个正点、20 个点(10 个正点和 10 个负点)和总点数/方框等几种提示设置进行分析,结果表明 SAM 对大型连接物体的分割效果显著,但对密集实例物体的分割效果不佳,即使在每幅图像上有 20 个提示(点击/方框)也是如此。可能的原因包括 WSI 数据的图像分辨率明显高于 SAM 的训练图像分辨率,以及数字病理学中不同组织类型的多种比例。
Colonoscopic image segmentation
结肠镜检查是通过将结肠镜插入直肠来检查结肠和直肠内壁,从而获得结肠镜图像。结肠镜图像可提供结肠内壁的详细情况,使临床医生能够识别息肉和炎症等异常情况。Zhou 等人在五个基准数据集上评估了无提示设置的 SAM 从结肠镜图像中分割息肉的性能。实验结果表明,与 SOTA 方法相比,SAM 的性能明显较低,平均骰子相似系数(DSC)下降了 14.4% 到 36.9%。在直接应用息肉分割任务时,由于息肉与其周围粘膜之间的边界模糊,SAM 无法达到令人满意的性能,这表明有必要使用提示或适应方法来提高性能。
Endoscopic image segmentation
内窥镜图像是指通过内窥镜捕捉到的视觉图像,内窥镜检查是一种微创医疗程序,用于检查体内中空器官或空腔的内部。内窥镜检查通常用于机器人辅助手术,手术器械的分割对于器械跟踪和位置估计至关重要。Wang 等人在两个公开的内窥镜手术数据集上对 SAM 的性能进行了评估。实验结果表明,无论是基于点的提示还是无提示设置,SAM 在准确分割整个工具方面都存在不足。值得注意的是,SAM 在预测工具的某些部分时存在缺陷,尤其是在提示较弱的情况下预测重叠工具时。此外,SAM 在识别复杂手术场景中的器械时也面临着挑战,这些手术场景的特征包括血迹、反光、模糊和阴影。
Segmentation in multiple modalities
He 等人没有在单一成像模式上评估 SAM,而是进行了大规模的实证研究,在 12 个公共医疗图像分割数据集上评估了 SAM 的准确性,这些数据集涵盖不同器官,包括脑、乳腺、胸部、肺、皮肤、肝、肠、胰腺和前列腺。他们的评估跨越了各种成像模式(如二维 X 光、二维超声波、三维 MRI 和三维 CT),涵盖了不同的健康状况,包括正常和异常病例。结果表明,如果不进行微调就直接将 SAM 应用于医学图像,其准确性目前还不够高,而且其性能会受到维度、模式、尺寸和对比度等多种因素的影响。同样,Mazurowski 等人 通过生成点提示来模拟交互式分割,在 11 个不同模式的医学图像分割数据集上对 SAM 进行了广泛评估。所观察到的性能表明,对于具有明确提示的圆周物体,SAM 的准确率很高,但在分割肿瘤时,SAM 的准确率较低。Cheng 等人在 12 个公共医疗图像数据集上评估了 SAM 在三种提示模式下的性能,包括自动提示、方框提示和点提示模式,这些数据集代表了不同的器官和模式。实验结果表明,SAM 在不同数据集上的性能各不相同,其中无抖动的盒式提示模式被证明是在零镜头医学图像分割中使用 SAM 最有效的模式。Zhang 等人通过分割前列腺、肺部、胃肠道和头颈部等放射肿瘤学的主要治疗部位,评估了 SAM 在临床放射治疗中的性能。评估结果表明,SAM 有能力划分大型、独特的器官,但在分割较小、复杂的结构时,尤其是面对模糊的提示时,SAM 面临着巨大的挑战。为了充分验证 SAM 在医疗数据中的性能,Huang 等人整理并组织了 52 个开源数据集,创建了 COSMOS 1050K,这是一个大规模的医疗分割数据集,包含 18 种模式、84 个对象、125 个对象-模式配对目标、1050 K 张 2D 图像和 6033 K 个掩膜。对不同的 SAM 提示模式(包括一切模式、基于点的提示模式和基于盒的提示模式)进行了综合实验。实验结果证实,与一切模式相比,SAM 在医学图像中的物体感知方面表现出更高的性能,手动提示模式(即点和方框)。 此外,实验还发现,增加负点理论上应可提高性能,但在某些任务中会略微降低性能,尤其是当背景物体与前景物体相似时。这一发现强调了根据领域知识明智地选择点提示以实现性能稳定提高的重要性。
Summary
在本节中,回顾近期的研究,探索 SAM 在不同医学图像分割任务中的零镜头转移潜力,并将其性能与现有的特定领域分割方法进行比较。一般来说,SAM 需要大量的人机交互才能达到适度的分割性能,而人机交互只需要几个点或边界框提示。各种数据集的评估结果表明,SAM 直接应用于医学图像分割时,其泛化能力有限,在不同数据集和任务中差异显著。在某些成像模式中,SAM 在辨别圆形物体时表现出与 SOTA 方法相当的卓越性能,但在更具挑战性的情况下,它却表现出不完美或完全失败。这一点在处理具有弱边界、低对比度、小尺寸和不规则形状的分割目标时尤为明显,这与其他研究结果一致。对于大多数医学图像分割场景来说,SAM 的分割性能达不到进一步应用的要求,尤其是在一些对准确性要求极高的任务中。SA-1B 数据集是 SAM 的训练数据,主要由具有较强边缘信息的自然图像组成,与医学图像有很大差异。因此,如果不进行微调或再训练,直接将 SAM 应用于以前未见过的、具有挑战性的医学图像分割,可能会产生有限的性能。
Adapting SAM to medical image segmentation
鉴于 SAM 在医学影像分割中的零点转移一直面临挑战,因此出现了另一个研究方向,强调改进 SAM 以适应不同的医学影像分割任务。值得注意的是,针对二维和三维成像模式对 SAM 进行改进的工作受到了相当大的关注,其中包括微调不同的 SAM 模块和从头开始类似于 SAM 的训练架构。这些努力旨在提高 SAM 在医学图像分割任务中的性能,使其能够更好地适应不同的数据特征和复杂性。
Fine-tuning on medical images
为了改善 SAM 在医学图像分割任务中不尽如人意的表现,一种直接而直观的方法是在医学图像上对 SAM 进行微调,包括完全微调和参数效率微调。
Full fine-tuning
将 SAM 用于医学影像分割的最直接方法是根据手头的具体任务直接对 SAM 进行微调。Hu 等人对用于皮肤癌分割的 SAM 进行了微调验证,结果表明 DSC 分数从 81.25% 大幅提高到 88.79%。Li 等人通过微调 SAM 的所有组件,提出了用于息肉分割的 PolypSAM,该方法在五个公共数据集上取得了优异的性能,DSC 分数均在 88% 以上。MedSAM是针对通用医学图像分割而提出的,它以前所未有的规模对 SAM 进行了调整,建立了一个包含 11 种模式的 100 多万医疗图像-掩膜对的多样化综合数据集。在涉及颅内出血 CT、胶质瘤 MR T1、气胸 CXR 和息肉内窥镜图像的分割任务中,MedSAM 的 DSC 分数中值分别达到 94.0%、94.4%、81.5% 和 98.4%,超过了 U-Net 专家模型的性能。然而,MedSAM 在分割血管分支结构时面临挑战,因为在这种情况下,边界框提示可能存在模糊性。此外,它只能将三维图像处理为一系列二维切片,而不是体积。
Parameter-efficient fine-tuning
更新 SAM 的所有参数是一个耗时、计算密集且极具挑战性的过程,因此不适合广泛部署。因此,许多研究人员专注于使用各种参数高效微调(PEFT)技术对 SAM 的一小部分参数进行微调。Wu 等人提出了医学 SAM 适配器(Medical SAM Adapter,Med-SA),它不是完全调整所有参数,而是在指定位置集成低秩适配(Low-rank adaptation,LoRA)模块的同时,保持预先训练的 SAM 参数不变。在 5 种不同模式的 17 个医学图像分割任务中进行的大量实验表明,Med-SA 优于 SAM 和之前的 SOTA 方法。同样,SAMed 将 LoRA 模块应用于预先训练好的 SAM 图像编码器,并在 Synapse 多器官分割数据集上与提示编码器和掩码解码器一起对其进行微调。SAMed 只更新了一小部分 SAM 参数,但它的 DSC 得分为 81.88%,与 SOTA 方法相当。Feng 等人介绍了一种利用有限数量的示例对 SAM 进行微调的高效实用方法,该方法结合了示例引导合成模块和 LoRA 微调策略,证明了 SAM 即使在标注数据较少的情况下也能在医学领域内进行有效的配准。Paranjape 等人提出的 AdaptiveSAM 是一种自适应修改,可使 SAM 有效适应新数据集,并在医疗领域实现文本提示分割。与 SAM 相比,AdaptiveSAM 采用了偏差调整技术,可训练参数的数量大大减少,同时利用自由格式文本提示进行对象分割。实验表明,在包括手术、超声波和 X 射线在内的各种医学成像数据集上,AdaptiveSAM 的表现优于当前的 SOTA 方法。为了缩小自然图像和医学图像之间的巨大领域差距,Cheng 等人介绍了 SAM-Med2D,这是通过在图像编码器中加入可学习的适配器层、微调提示编码器并通过交互式训练更新掩码解码器,将 SAM 应用于医学 2D 图像的最全面研究。他们收集并整理了一个医学图像分割数据集,其中包括超过 460 万张图像和 1970 万个掩膜。他们进行了全面的评估和分析,以研究 SAM-Med2D 在各种模式、解剖学和医学图像分割方面的性能。以及在 9 个 MICCAI 2023 挑战数据集上的泛化能力,表明其性能和泛化能力明显优于 SAM。
Auto-prompting adaptation
现有的 SAM 适应技术虽然在某些情况下有效,但需要相对高质量的 SAM 典型提示(即点、方框和遮罩),才能在医学图像分割任务中实现可接受的性能。在大多数这些工作中,提示都是在测试过程中从地面实况中生成的。然而,创建准确可靠的提示仍然需要医学专家提供特定领域的知识,而这些知识可能并不具备。在涉及众多类别的通用医学图像分割中,这尤其具有挑战性。此外,噪声注释引起的低质量提示会严重影响分割的准确性。因此,对自动提示机制的探索旨在建立一个稳健的自适应框架,以减少 SAM 性能的可变性,为医学影像分割带来更可靠、更准确的结果。
Prompts auto-generation
要实现自动提示,一种简单直接的方法是利用定位框架为 SAM 生成输入提示。Pandey 等人 利用 YOLOv8 模型获取 ROI 边框,作为 SAM 的输入提示,用于全自动医学影像分割,以分割各种医学影像数据集中的感兴趣区域(ROI)。MedLSAM应用了少量定位过程,根据局部像素分布相似的图像对应不同个体的同一区域这一假设,识别出三维医学图像中包围任何感兴趣的解剖结构的三维边界框。随后,根据三维框在每个切片上的投影得出二维框,从而指导 SAM 自动分割目标解剖结构。Anand 等人提出了一种一次定位和分割框架,利用与模板图像的对应关系来提示 SAM。他们利用预训练的基于 ViT 的基础模型从模板图像中提取密集特征。
Learnable prompts
AutoSAM 等人的研究涉及辅助提示编码器的训练,以生成替代提示,而无需进一步微调 SAM。辅助提示编码器提取输入图像本身的特征作为条件提示,扩展了典型提示的范围。通过这种策略,SAM 变成了一种完全自动的提示方式,消除了手动提示的必要性。AutoSAM 在各种医疗基准测试中都取得了 SOTA 结果,展示了其在医疗图像分割任务中的卓越性能。All-in-SAM 管道首先利用预训练的 SAM 从弱提示中生成像素级注释,然后按照[64]中的策略利用这些注释对 SAM 进行微调。这种流水线在推理阶段不需要人工提示,在细胞核分割方面超越了之前的 SOTA 方法,与使用强像素注释数据相比,性能更具竞争力。Gao 等人提出了解耦分割模型(Deoupling Segment Anything Model,DeSAM),以解决医学图像分割中不良提示和掩膜分割的耦合效应。他们将 SAM 的掩码解码器解耦为两个子任务,包括一个根据给定提示生成掩码嵌入的提示相关 IoU 模块(PRIM)和一个将图像嵌入与掩码嵌入融合为最终分割掩码的提示不变掩码模块(PIMM)。大量实验表明,DeSAM 可以提高 SAM 全自动模式的鲁棒性,在处理不同临床部位的领域偏移时,平均 DSC 得分为 8.96%。Yue 等人介绍了 SurgicalSAM,它将外科特定信息与 SAM 的预训练知识整合在一起,通过利用基于原型的轻量级类别提示编码器进行微调和对比原型学习以获得更准确的类别提示,从而提高泛化能力。在两个公共数据集上进行的大量实验结果表明,SurgicalSAM 只需少量可调整参数即可实现 SOTA 性能。
Enhancing reliability against prompts with uncertainty
鉴于 SAM 对输入提示的敏感性,不确定性的估计对于保证分割结果的可靠性至关重要。这在医学成像中尤为重要,因为分割的准确性在临床程序中起着重要作用。Xu 等人提出了一种基于不确定性估计的免训练提示生成方法,名为 EviPrompt,该方法无需临床专家的交互,只需以单个医学影像注释对作为参考,即可自动生成用于医学影像分割的 SAM 提示。Deng 等人提出了一种多箱提示触发的不确定性估计技术,作为眼底图像分割 SAM 的测试时间增强技术。他们从多个方框提示中生成不同的预测,通过蒙特卡罗模拟估计其分布,并建立一个不确定性图,为潜在的分割错误提供指导,从而增强了 SAM 对不同提示的鲁棒性。Zhang 等人提出了不确定性修正 SAM 框架 UR-SAM,通过估计不确定性图并利用不确定性修正可能的错误,提高自动提示医学图像分割的鲁棒性和可靠性,从而改善分割结果。他们在两个公共三维医学数据集上对 35 个器官的分割进行了实验,结果表明,估计和利用不确定性可以提高分割性能,在没有人工提示的情况下,DSC 分数分别提高了 10.7% 和 13.8%。因此,整合不确定性可以增强 SAM 对各种提示的鲁棒性。估计的不确定性不仅有助于识别潜在的分割错误,还能为临床医生提供有价值的指导,从而提高整体分割可靠性,促进进一步应用。
Framework modification
由于 SAM 是在自然图像分割方面预先训练过的强大基础模型,许多人都在努力利用 SAM 的功能,要么修改其现有框架,要么将其无缝集成到新的训练方案中,以构建先进的医学图像分割模型。
Synergy in training segmentation models
Zhang 等人提出了一个微调框架 SAM-Path,以调整 SAM,使其适用于数字病理学中的语义分割。SAM-Path 为感兴趣的目标引入了可训练的类别提示,并引入了一个预训练病理编码器,以纳入特定领域的知识,弥补 SAM 训练中使用的综合病理数据集的不足。在 CRAG 数据集上进行的实验表明,与使用人工提示的普通 SAM 相比,DSC 分数相对提高了 27.52%。Chai 等人利用阶梯式微调方案,将互补 CNN 编码器与标准 SAM 架构相结合,只专注于微调附加 CNN 和 SAM 解码器,以减少计算资源和训练时间。Li 等人提出的 nnSAM 将预先训练好的 SAM 模型作为即插即用模块与 nnU-Net 进行协同集成,以实现更精确、更稳健的医学图像分割。Zhang 等人提出的 SAMAug 可直接利用 SAM 生成的分割掩码来增强常用医学图像分割模型(如 U-Net)的原始输入。在两个数据集上的实验表明,虽然 SAM 可能无法生成高质量的医学图像分割,但其生成的掩码和特征仍有助于训练更好的医学图像分割模型。Lin 等人通过引入并行 CNN 分支将局部特征注入 ViT 编码器、位置适配器和特征适配器,将 SAM 从大尺寸输入调整为小尺寸输入,从而提出了更适合临床应用的 SAMUS。为进行评估,收集并整理了一个综合超声数据集,其中包括 30k 幅图像和 69k 个掩膜,以及 6 个对象类别,证明了其在超声图像分割方面优于 SOTA 任务特定模型和通用基础模型。
Facilitating annotation-efficient learning
由于医学影像分割需要经验丰富的临床专业人员的专业知识,因此注释成本很高,因此人们一直在致力于注释效率高的学习,如半监督学习和弱监督学习。作为一种可靠的伪标签生成器,SAM 为在缺乏人工标注图像的情况下指导分割任务提供了新的机遇。Zhang 等人提出了一种迭代半监督方法,该方法将 SAM 生成的分割建议与像素级和图像级特定领域知识相结合,用于重复构建未标记图像的注释。为了生成可靠的伪标签、Li等人利用预训练的SAM进行与生成的伪标签一致的预测,并选择可靠的伪标签来进一步提升现有的半监督分割模型,在公开的ACDC数据集5%的标注数据上,该模型比先进的两个基线分别提高了6.84%和10.76%。Zhang等人提出了一种名为SemiSAM的半监督框架,而不是生成伪标签,其中用领域知识训练的分割模型向SAM提供定位信息(即输入提示),而SAM则作为额外的监督分支协助一致性学习。在左心房核磁共振成像分割数据集上的实验结果表明,SemiSAM 取得了显著的改进,尤其是在标记数据极其有限的情况下。[77]提出在高分辨率全切片成像中利用弱方框注释代替像素级划分,从而最大限度地减少标注工作。
Towards 3D medical images
直接利用具有固有二维结构的预训练 SAM 通常会导致三维医学图像分割结果不理想,因为通过迁移学习进行的切片(二维)分割通常会忽略三维医学图像中与深度相关的重要空间上下文,而这些上下文对于识别某些物体以确保准确分割极为重要。为解决这一问题,许多研究对 SAM 进行了具体的修改和增强,使其能够有效处理三维医学图像模式。
Adaptation from 2D to 3D
为了实现从二维到三维的适配,Medical SAM Adapter(MedSA)引入了空间深度变换(SD-Trans)技术,其中,通过在一个分支中捕捉空间相关性,在另一个分支中捕捉深度相关性,利用了分叉注意力机制。Gong 等人提出了 3DSAM-adapter,它是对 SAM 架构的一种精心设计的修改,用于支持容积医学图像分割,其可调整参数(包括新添加的参数)仅为原始模型的 16.96%。实验结果表明,在三个数据集上,3DSAM-adapter 的性能明显优于 nnU-Net (肾肿瘤优于 8.25%,胰腺肿瘤优于 29.87%,结肠癌优于 10.11%)。Chen 等人介绍了一种适用于各种容积和视频医疗数据的模式识别 SAM 适应框架(MA-SAM),该框架将一系列可调整的 3D 适配器注入图像编码器的每个变换块,并与掩码解码器一起对它们进行微调。在 10 个数据集上进行的大量实验表明,MA-SAM 在 CT 多器官分割、MRI 前列腺分割和手术场景分割方面,无需任何提示即可持续超越各种最先进的 3D 方法,其 DSC 分数分别比 nnU-Net 高出 0.9%、2.6% 和 9.9%。Li等人[84]提出了一种提示驱动的三维医学图像分割模型(ProMISe),该模型插入了轻量级适配器来提取与深度相关的空间上下文,而无需更新三维医学图像分割的预训练权重。在结肠和胰腺肿瘤分割数据集上对 ProMISe 进行的评估表明,它的性能优于 SOTA 方法。Bui 等人提出的 SAM3D 最初应用 SAM 对每个输入切片进行单独处理,生成切片嵌入,并通过轻量级 3D 解码器进行解码,最终得到分割结果。
Training from scratch
与通过二维到三维适配来捕捉三维空间信息的研究相比,Wang 等人提出了 SAM-Med3D,这是一种具有完全可学习的三维 SAM 类结构的容积医学图像分割模型。SAM-Med3D 是在一个大型三维数据集上进行训练的,该数据集包括 21 K 幅医学图像和 131 K 个掩膜,共 247 个类别。利用 15 个公共数据集进行了迄今为止最全面的评估,结果表明其性能极具竞争力,提示点明显少于医疗领域表现最佳的微调 SAM。由 SAM 架构激发、Du 等人提出了一种名为 SegVol 的交互式容积医学图像分割模型,用于 CT 容积分割。通过在 90k 个未标记 CT 体和 6k 个已标记 CT 体上进行训练,SegVol 支持使用空间和文本提示对 200 多个解剖类别进行分割,并在多个分割基准上远远超过了 SOTA 方法。
Summary
在本节中,回顾当前针对医学影像分割的 SAM 适应性研究情况,其中包括几个不同但相互关联的方面。一些研究深入探讨了微调策略,直接调整 SAM 的参数,专门用于医学图像分割。自动提示适应方法探索了自动提示机制,以增强 SAM 的灵活性和鲁棒性。框架修改方法旨在完善 SAM 的架构或将其集成到新的训练框架中,确保在医学图像分割场景中实现最佳性能。此外,一项重要的探索是将 SAM 扩展到处理 3D 医学影像,以克服其最初主要处理 2D 数据的局限性。上述每一个方向都增强了 SAM 在处理医学图像分割任务中固有的各种特征和复杂性方面的有效性,在各种模式和感兴趣的目标方面都优于特定任务模型。
Discussion and conclusion
在本文中,全面概述了最近将 SAM 应用于医学图像分割任务的工作。由于 SAM 的性能在于它能保持主要包含边界感知的一致嵌入,而原始 SAM 是在边缘信息较强的大规模自然图像上训练的,这与对比度低、边界较弱的医学图像不同。在不做任何适配的情况下直接将 SAM 应用于医学图像分割时,其性能在不同数据集和任务中存在显著差异,这表明 SAM 在多模态和多目标医学数据集上持续、准确地实现零镜头分割方面面临挑战。成像的复杂性和多样性SAM 的分割效果会受到各种模式和感兴趣目标的影响,特别是对于形状不规则、边界薄弱、尺寸较小或对比度较低的物体,其分割效果往往不尽如人意。SAM 的次优分割性能往往是不够的,尤其是在医疗图像分割中,必须要有极高的准确性。为了弥补自然图像与医学图像之间的巨大领域差距,一些研究探索了合适的适应策略,这些策略可以在一定程度上改善 SAM 的分割结果,与特定任务模型相比,其性能更具竞争力。虽然 SAM 目前的性能有时可能缺乏特定任务模型的稳定性,但相信它具有强大的潜力,可以作为一种有效的工具推进临床场景中的宝贵应用。尽管它取得了成功,但存在挑战,并概述了未来潜在的改进和完善方向如下。
Building large-scale medical datasets
多项研究对不同数据集和模式的评估结果表明,由于自然图像和医学图像之间存在显著差异,直接将 SAM 应用于医学图像分割并不能获得令人满意的性能。虽然在特定的医学数据集上对 SAM 进行微调可以提高性能,但在推广到其他未见任务时,其性能仍然受到限制。为了解决这个问题,建立包含各种模式和感兴趣目标的大规模医疗数据集对于开发通用医疗分割基础模型非常重要。
最近的一些研究侧重于通过收集现有公共数据集和发布私有数据集来创建大规模医疗数据集 。一个显著的例子是 SA-Med2D-20M 数据集,它是最近公开的大规模二维医学图像分割数据集,收集了 460 万张二维医学图像和 1970 万个相应的掩膜。该数据集横跨整个人体,具有极大的多样性。我们预计,这些举措将极大地促进医学基础模型的未来发展,并进一步推动研究界向前发展。
Accelerating medical image annotation
建立大规模医学数据集对医学基础模型的开发至关重要,但繁重的标注成本构成了巨大挑战。为医学图像开发分割模型通常需要特定领域的专业知识,以提供可靠和准确的注释,与自然图像相比,这提高了昂贵的注释成本。这一点在常用的三维容积医学数据中尤为明显,专家们必须一丝不苟地逐片划分对象,这给标注过程带来了劳动密集型和耗时的工作量。虽然 SAM 生成的分割结果并不总是完美的,但这些分割掩码仍可用于加速标注过程 。专家们可以利用 SAM 实现粗略分割,然后手动修改分割结果,从而实现快速交互式分割,而不是从头开始标注目标。最近的一些研究也在探索这一方向。例如,Liu 等人 利用 3D Slicer将 SAM 扩展到常用的医学影像查看器中,使研究人员只需 0.6 秒的延迟就能对医学影像进行分割。Wang 等人提出了利用 SAM 进行医学影像注释的 SAMMed 框架,该框架由两个子模块组成,分别用于利用 SAMauto 自动生成注释和利用 SAMassist 协助用户高效注释医学影像。Shen 等人利用 SAM 的零镜头功能,通过自适应地为人类专家提供合适的提示形式,将基于强化学习的创新框架命名为 "时间扩展提示优化(TEPO)",用于交互式医学影像分割。Huang 等人提出了一种标签损坏框架,利用新颖的噪声检测模块区分噪声标签和干净标签,并基于不确定性进行自我校正,从而推动了基于 SAM 的伪标签校正分割技术的发展。Ning 等人在 SAM 的辅助下利用半自动标注工作流程加快了光学相干断层血管成像(OCTA)的标注过程。我们鼓励不断进步,以降低为更广泛的医学成像任务创建大规模数据集所需的注释成本。
Incorporating scribble and text prompts
一些实证研究表明,与点提示相比,使用框提示往往能获得更准确的位置信息,从而产生更好的结果。不过,如果分割目标周围有多个类似的实例,使用大的边界框可能会造成混淆,从而可能导致不准确的分割结果。除了点和框提示外,通过涂鸦提示进行交互在医学影像分割中也很普遍,如果将其融入到 SAM 中,将非常有用且高效。将涂鸦提示与点提示或框提示相结合[90]是一种直观有效的策略,可用于处理形状不规则的非紧凑目标,尤其是血管、肠道和骨骼等具有连续性和曲率特征的形状。除了带有位置信息的提示外,文本提示也已成为将临床知识注入医学图像分割的直观方法。Zhao 等人通过构建多模态医学知识树,将文本提示纳入 SAM,从而将多种知识源结合起来,可应用于不同模态、解剖学和身体区域的医学图像分割任务。
Towards multi-modal medical images
多模态医学影像能够提供有关人体解剖、功能和病理的补充信息,因此在临床应用中发挥着至关重要的作用。例如,通过将结构 MRI 与功能 MRI(fMRI)相结合,临床医生可以评估组织的解剖结构和功能特性。将 PET 图像与相应的 CT 或 MRI 扫描相结合,可同时评估代谢活动(来自 PET)和详细的解剖定位(来自 CT 或 MRI)。这被广泛应用于肿瘤学领域,以精确识别和描述肿瘤,确定肿瘤的代谢活动,评估肿瘤与周围组织的关系,并制定更准确的诊断和治疗计划。将 SAM 扩展到学习来自不同输入模式的表征,有可能提高在不同患者群体和成像方案中的通用性,使其成为推进临床应用的一种有前途的方法。
Assisting in more clinical applications
除了现有的将 SAM 用于医学影像分割任务的方法外,一些研究人员还在探索将其整合到更多的临床应用中,以处理各种任务。其中一个应用涉及 GazeSAM,它研究了 SAM 与眼球跟踪技术的潜在整合,设计了一个协作式人机交互系统,使放射科医生只需注视感兴趣的区域就能获得分割掩膜。Ning 等人讨论了 SAM 在实现通用智能超声图像引导方面的潜在贡献。Jiang 等人提出了一种基于 SAM 的环内人工无标记早期 DR 诊断框架,可实现实时分割。Song 等人利用 SAM 的语义先验来监督核磁共振成像跨模态合成和图像超分辨率统一框架的训练,确保在合成过程中真实保留解剖结构。事实证明,SAM 的初步分割功能在识别需要深入检查的复杂病例方面也很有价值,从而减轻了临床专家的负担。此外,SAM 还有助于最大限度地减少观察者之间的差异,而这正是手工轮廓分析中普遍存在的问题。
Summary
在过去的一年里,医学图像分割领域的 SAM 取得了前所未有的发展,极大地推动了医学图像分析通用基础模型的发展。本综述旨在为医学图像分割基础模型的发展轨迹提供有价值的见解。