《SegRap2023:鼻咽癌放射治疗计划中危及器官和大体肿瘤体积分割的基准》|文献速递-医学影像人工智能进展

发布于:2025-03-18 ⋅ 阅读:(17) ⋅ 点赞:(0)

Title

题目

SegRap2023: A benchmark of organs-at-risk and gross tumor volumeSegmentation for Radiotherapy Planning of Nasopharyngeal Carcinoma

《SegRap2023:鼻咽癌放射治疗计划中危及器官和大体肿瘤体积分割的基准》

01

文献速递介绍

临床背景 鼻咽癌(NPC)是一种起源于鼻咽部的恶性肿瘤,在东南亚和北非地区尤为高发(李等人,2015;蔡等人,2016;孙等人,2019)。鼻咽癌的主要治疗方式在很大程度上依赖于放射治疗,尤其是调强放射治疗(IMRT)(夏等人,2000;金等人,2003)。在调强放射治疗中,准确勾画大体肿瘤体积(GTV)以及周围的危及器官(OAR)对于治疗效果至关重要。准确识别靶区对于确保高剂量辐射精确覆盖肿瘤,同时保护邻近的正常组织来说必不可少(唐等人,2019)。正确勾画大体肿瘤体积可以提高治疗的局部控制率,并降低复发风险。 鼻咽癌位于一些重要结构附近,如颅底、颈内动脉和视神经(王和康,2021)。勾画不准确可能会使这些危及器官受到不必要的高剂量辐射,增加急性和迟发性辐射损伤的风险(林等人,2019)。 对于初级放射肿瘤医师和自动勾画方法而言,准确勾画危及器官和大体肿瘤体积是一项重大挑战(陈等人,2021)。首先,鼻咽部的解剖结构本身就很复杂,邻近关键器官和神经结构,如颅底、颈内动脉和视神经。这种复杂性使得准确勾画靶区和危及器官极具挑战性,且容易出错(唐等人,2019)。其次,鼻咽癌患者的肿瘤大小、形状和位置各不相同,再加上个体解剖差异,这进一步增加了勾画过程的复杂性(李等人,2018)。此外,在CT图像中,危及器官或大体肿瘤体积与其他软组织之间的对比度低且边界模糊,导致危及器官和大体肿瘤体积的勾画存在困难,放射肿瘤医师通常需要其他模态的图像作为辅助指导来进行勾画。 而且,在勾画靶区和危及器官时依赖医师的经验和判断,这在不同从业者之间引入了潜在的可变性和主观性,可能导致治疗计划不一致。在过去的临床实践中,鼻咽癌中危及器官和大体肿瘤体积的勾画主要由经验丰富的放射肿瘤医师完成。然而,根据临床治疗指南,每位患者有40多个危及器官和2个大体肿瘤体积需要准确勾画(叶等人,2022;郭等人,2020)。这要求放射肿瘤医师花费大量时间进行勾画,增加了标注人员的负担和患者的等待时间。因此,开发高效、准确的自动分割工具来辅助和加速临床勾画流程,减轻标注人员的负担并缩短患者等待时间是十分必要的。 ### 1.2 技术挑战 基于深度学习的分割方法在某些医学分割数据集上已展现出良好的性能,例如腹部器官分割(罗等人,2022a;伊森塞等人,2021;吉布森等人,2018;比利奇等人,2023)和胸部器官分割(董等人,2019;冯等人,2019)。然而,目前仍然明显缺乏在大规模数据集上能够达到临床适用性能的、针对鼻咽癌危及器官和大体肿瘤体积自动分割工具的研究报告。 由于鼻咽癌患者之间存在肿瘤大小、形状和位置的差异,再加上个体解剖差异以及模糊的边界等固有特征,危及器官和大体肿瘤体积分割的自动化仍然具有挑战性。此外,创建并标注一个用于危及器官和大体肿瘤体积分割的大规模、高质量数据集是一个资源密集型的过程,需要专业知识和时间来生成准确的勾画结果。因此,目前仍然缺乏用于开发鼻咽癌危及器官和大体肿瘤体积自动分割模型的大规模、高质量标注数据集。 最近,很少有研究详细报道鼻咽癌大体肿瘤体积和危及器官的分割结果(刘等人,2021;林等人,2019;罗等人,2023,2022b;廖等人,2022;叶等人,2022;郭等人,2020;石等人,2022;唐等人,2019;吴等人,2024)。其中大多数研究仅关注部分危及器官或头颈癌大体肿瘤体积的分割。例如,石等人(2022)和叶等人(2022)分别评估了对27个头部危及器官和42个头颈危及器官的分割性能。此外,很少有研究探讨模型在多种输入(如平扫或增强CT扫描)上的分割性能(王等人,2020;奥雷勒等人,2022)。 这些现有研究中危及器官数量有限且使用单一模态,限制了分割模型的性能和临床应用。因此,非常需要一个具有详尽且高质量标注以及多种模态的大规模基准数据集,以推动鼻咽癌放射治疗中危及器官和大体肿瘤体积分割模型的发展。 ### 1.3 贡献 为了全面评估在鼻咽癌放射治疗计划中用于自动分割危及器官和大体肿瘤体积的最先进(SOTA)算法的性能,我们与2023年医学图像计算与计算机辅助干预国际会议(MICCAI 2023)联合举办了SegRap2023挑战赛。这项工作的主要贡献可以概括为三个方面。 首先,我们建立了首个包含200名鼻咽癌患者的大规模公开数据集,其中每位患者都有预先配准的平扫和增强CT扫描图像,并且对45个危及器官和2个大体肿瘤体积进行了高质量的手动标注。 其次,通过大型挑战赛平台,在2023年医学图像计算与计算机辅助干预国际会议(MICCAI 2023)期间成功举办了SegRap2023挑战赛,在模型开发阶段共吸引了387支队伍注册。在最终评估阶段,分别有10支和11支队伍成功提交了他们针对危及器官和大体肿瘤体积分割任务的解决方案。 第三,我们对所有参赛作品的结果进行了评估、排名、总结、分析和讨论。结果表明,大尺寸危及器官的分割问题得到了较好的解决,而大体肿瘤体积以及小尺寸或薄结构危及器官的分割则需要更多的关注。我们相信这个数据集和挑战赛能够为整个领域带来益处。 本文总结了SegRap2023挑战赛,内容组织如下。第2节回顾了用于危及器官和大体肿瘤体积分割的现有数据集和方法。然后,第3节从数据收集与标注、挑战赛组织与评估等方面介绍了挑战赛的详细信息。第4节阐述了所有提交方法的详细内容。之后,第5节给出了结果的分析和描述。最后,我们分别在第6节和第7节对SegRap2023挑战赛进行总结和讨论。

Abatract

摘要

Radiation therapy is a primary and effective treatment strategy for NasoPharyngeal Carcinoma (NPC). Theprecise delineation of Gross Tumor Volumes (GTVs) and Organs-At-Risk (OARs) is crucial in radiation treatment, directly impacting patient prognosis. Despite that deep learning has achieved remarkable performanceon various medical image segmentation tasks, its performance on OARs and GTVs of NPC is still limited,and high-quality benchmark datasets on this task are highly desirable for model development and evaluation.To alleviate this problem, the SegRap2023 challenge was organized in conjunction with MICCAI2023 andpresented a large-scale benchmark for OAR and GTV segmentation with 400 Computed Tomography (CT)scans from 200 NPC patients, each with a pair of pre-aligned non-contrast and contrast-enhanced CT scans.The challenge aimed to segment 45 OARs and 2 GTVs from the paired CT scans per patient, and received10 and 11 complete submissions for the two tasks, respectively. In this paper, we detail the challenge andanalyze the solutions of all participants. The average Dice similarity coefficient scores for all submissionsranged from 76.68% to 86.70%, and 70.42% to 73.44% for OARs and GTVs, respectively. We conclude that

放射治疗是鼻咽癌(NPC)的一种主要且有效的治疗策略。在放射治疗中,准确勾画大体肿瘤体积(GTV)和危及器官(OAR)至关重要,这直接影响患者的预后。尽管深度学习在各种医学图像分割任务中取得了显著的成绩,但它在鼻咽癌危及器官和大体肿瘤体积的分割上的表现仍然有限,并且非常需要高质量的基准数据集来进行模型开发和评估。 为了缓解这一问题,SegRap2023挑战赛与2023年医学图像计算与计算机辅助干预国际会议(MICCAI 2023)联合举办,并提供了一个大规模的危及器官和大体肿瘤体积分割基准数据集,该数据集包含来自200名鼻咽癌患者的400次计算机断层扫描(CT)图像,每位患者都有一对预先配准的平扫和增强CT扫描图像。该挑战赛旨在从每位患者的成对CT扫描图像中分割出45个危及器官和2个大体肿瘤体积,并且这两项任务分别收到了10份和11份完整的参赛作品。 在本文中,我们详细介绍了该挑战赛,并分析了所有参赛者的解决方案。所有参赛作品的平均Dice相似系数得分中,危及器官的得分范围在76.68%至86.70%之间,大体肿瘤体积的得分范围在70.42%至73.44%之间。

Method

方法

A total of 387 teams registered for the SegRap2023 Challenge,allowing them to download the training data. During the testing phase,there were 10 and 11 teams that successfully submitted the containerized algorithms and met the submission requirements for Task01and Task02, respectively. In this section, we summarize the methodsemployed by the participating teams (two teams were excluded dueto the lack of their technical report). Table 3 and Table 4 summarizethe key techniques of benchmarked algorithms for Task01 and Task02,respectively. Table 5 and Table 6 summarize the training details ofbenchmarked algorithms for task01 and task02, respectively.

共有387支队伍注册参加了2023年分割竞赛(SegRap2023 Challenge),他们得以下载训练数据。在测试阶段,分别有10支和11支队伍成功提交了容器化算法,并且满足了任务01和任务02的提交要求。在本节中,我们总结了参赛队伍所采用的方法(有两支队伍由于未提交技术报告而被排除在外)。表3和表4分别总结了任务01和任务02中基准算法的关键技术。表5和表6则分别总结了任务01和任务02中基准算法的训练细节。

Conclusion

结论

This work summarizes the submitted methods from the SegRap2023challenge, which provides 200 paired CT scans for the segmentation of45 OARs and 2 GTVs for NPC patients. To the best of our knowledge,SegRap2023 has the most comprehensive and exhausted labeled datasetamong existing OAR and GTV segmentation challenges so far. A totalof ten and eleven algorithms successfully submitted their solutionsthat met the challenge requirements. They were benchmarked forcomparisons in the OAR and GTV segmentation, respectively, and theirmethods and results were analyzed. The results demonstrate that mostlarge-size OARs can be segmented accurately and can be seen as a wellsolved problem. However, for the small-size OARs and GTVs, thereare still huge gaps between segmentation performance and clinicalapplicability, suggesting that future research should focus on theseunsolved problems more. In the future, we plan to extend this challengein the aspect of data scale, source, and categories to be more suitablefor the clinical requirement.

这项工作总结了来自SegRap2023挑战赛的提交方法。该挑战赛提供了200组配对的计算机断层扫描(CT)图像,用于鼻咽癌(NPC)患者的45个危及器官(OAR)和2个大体肿瘤体积(GTV)的分割。据我们所知,在目前现有的危及器官和大体肿瘤体积分割挑战赛中,SegRap2023拥有最为全面且详尽标注的数据集。总共有十种和十一种算法成功提交了符合挑战赛要求的解决方案。它们分别在危及器官和大体肿瘤体积的分割任务中被用作基准进行比较,同时对这些算法的方法和结果进行了分析。 结果表明,大多数较大尺寸的危及器官能够被准确分割,这可以看作是一个已得到较好解决的问题。然而,对于较小尺寸的危及器官和大体肿瘤体积而言,分割性能与临床适用性之间仍存在巨大差距,这意味着未来的研究应更多地关注这些尚未解决的问题。 在未来,我们计划在数据规模、数据来源和数据类别等方面扩展这项挑战赛,使其更适合临床需求。

Results

结果

5.1. Results of task01

The final ranking results of Task01 are listed in Table 7 sorted bytheir scores. Table 8 and Table 9 present the detailed performance ofeach team and the baseline on the OARs in terms of DSC and NSD,respectively. It can be observed that the baseline achieved averageDSC and NSD scores of 84.65% and 82.88%, respectively. A total ofsix teams exceeded the baseline in terms of average DSC and NSDscores. The winner (Y. Zhong et al.) achieved the best performance onmore than 30 OARs and ranked top 3 for most of the rest OARs. Thetop 3 teams achieved promising performance with average DSC andNSD scores over 86.14%±9.58% and 86.12%±12.79%, respectively.Figs. 4 and 5(a)–(e) show the DSC and NSD score distributions ofthe top 5 easiest OARs obtained by all the teams, suggesting that thelarge-scale organs segmentations are well-solved consistently. However, these methods still perform poorly on some small, complex organsas shown in (f) to (j) Figs. 4 and 5. Previous works (Tang et al., 2019;Chen et al., 2021; Liao et al., 2022) performed clinical assessmentsand found that most clinically acceptable segmentations have a goodDSC score (DSC > 80%). However, in this challenge, the averageDSC and NSD of the chiasm and esophagus are around 72% and77% respectively, which may be not clinically applicable without userrevision.Fig. 2 provides the boxplots of DSC and NSD scores of each teambased on patient-level average segmentation. The best average Diceand NSD scores were both achieved by Y. Zhong et al.. In general, thepatient-level average DSC and NSD scores achieved promising resultsthat are larger than 80%. In addition, to show the significance amongthe top 3 teams with others, we calculated the paired t-test betweenthe ranking n-th team and the ranking (n+1)-th team (n ranges from1 to 3). Table 10 presents the statistical analysis results of the top3 teams. It can be observed that the winner is significantly superior(𝑝-value < 0.05) to the second place in terms of average DSC andNSD scores. However, there are no significant differences between thesecond and third teams, which averaged DSC scores are 86.36%±9.15%and 86.14%±9.58%, and NSD scores are 86.09% and 86.12%, respectively. Compared with the fourth team which achieved average DSCand NSD scores of 85.62%±10.48% and 85.33%±13.42%, the thirdteam achieved significantly better NSD scores (86.12%±12.79%) andcomparable DSC scores (86.14%±9.58%).

5.1 任务01的结果 任务01的最终排名结果按得分列于表7中。表8和表9分别给出了各团队以及基线模型在危及器官(OAR)分割方面基于Dice相似系数(DSC)和归一化表面距离(NSD)的详细性能表现。可以看到,基线模型的平均DSC得分和NSD得分分别为84.65%和82.88%。总共有六支团队在平均DSC得分和NSD得分方面超过了基线模型。获胜者(钟(Y. Zhong)等人)在30多个危及器官的分割上取得了最佳性能,并且在其余大多数危及器官的分割上排名前三。排名前三的团队取得了不错的成绩,其平均DSC得分超过86.14%±9.58%,平均NSD得分超过86.12%±12.79%。 图4和图5(a)至(e)展示了所有团队在最容易分割的前5个危及器官上的DSC得分和NSD得分分布情况,这表明大规模器官的分割问题已得到较好且一致的解决。然而,正如在图4和图5的(f)至(j)中所示,这些方法在一些小而复杂的器官分割上仍然表现不佳。先前的研究(唐等人,2019;陈等人,2021;廖等人,2022)进行了临床评估,发现大多数临床上可接受的分割结果具有良好的DSC得分(DSC>80%)。然而,在本次挑战赛中,视交叉和食管的平均DSC得分和NSD得分分别约为72%和77%,如果没有用户的修正,这些结果可能在临床上并不适用。 图2给出了各团队基于患者层面平均分割的DSC得分和NSD得分的箱线图。最佳的平均Dice得分和NSD得分均由钟(Y. Zhong)等人获得。总体而言,患者层面的平均DSC得分和NSD得分取得了不错的结果,均大于80%。此外,为了显示排名前三的团队与其他团队之间的差异显著性,我们计算了排名第n的团队与排名第(n + 1)的团队之间的配对t检验(n的取值范围是从1到3)。表10给出了排名前三的团队的统计分析结果。可以看出,在平均DSC得分和NSD得分方面,获胜者明显优于第二名(p值<0.05)。然而,第二名和第三名团队之间没有显著差异,它们的平均DSC得分分别为86.36%±9.15%和86.14%±9.58%,NSD得分分别为86.09%和86.12%。与第四名团队(其平均DSC得分和NSD得分分别为85.62%±10.48%和85.33%±13.42%)相比,第三名团队取得了明显更好的NSD得分(86.12%±12.79%),且DSC得分相当(86.14%±9.58%)。

Figure

图片

Fig. 1. Overview of two sub-tasks in the SegRap2023 challenge.

图1. SegRap2023挑战赛中两项子任务概述。

图片

Fig. 2. Boxplot of the patient-level average segmentation performance for OARs in terms of DSC and NSD.

图2: 基于Dice相似系数(DSC)和归一化表面距离(NSD)的危及器官(OARs)患者层面平均分割性能箱线图。

图片

Fig. 3. Boxplot of the patient-level average segmentation performance for GTVs in terms of DSC and NSD.

图3:基于Dice相似系数(DSC)和归一化表面距离(NSD)的大体肿瘤体积(GTVs)患者层面平均分割性能箱线图。

图片

Fig. 4. Boxplot of the patient-level average segmentation performance for top 5 easiest and hardest OARs and 2 GTVs in terms of DSC. (a)–(e): top 5 easiest OARs, (f)–(j): top 5hardest OARs.

图4: 基于Dice相似系数(DSC)的患者层面平均分割性能箱线图,涉及最容易的前5个危及器官(OARs)、最难的前5个危及器官(OARs)以及2个大体肿瘤体积(GTVs)。(a)至(e):最容易的前5个危及器官;(f)至(j):最难的前5个危及器官。

图片

Fig. 5. Boxplot of the patient-level average segmentation performance for top 5 easiest and hardest OARs and 2 GTVs in terms of NSD. (a)–(e): top 5 easiest OARs, (f)–(j): top 5hardest OARs.

图5:基于归一化表面距离(NSD)的患者层面平均分割性能箱线图,内容涉及最容易的前5个危及器官(OARs)、最难的前5个危及器官(OARs)以及2个大体肿瘤体积(GTVs)。(a)至(e):最容易的前5个危及器官;(f)至(j):最难的前5个危及器官。

图片

Fig. 6. Qualitative OAR segmentation using the Top3 teams and baseline on the SegRap2023 testing set.

图6: 使用SegRap2023测试集,由排名前三的团队和基线模型进行的危及器官(OAR)分割定性结果展示。

图片

Fig. 7. Qualitative GTV segmentation using the Top3 teams and baseline on the SegRap2023 testing set.

图7: 使用SegRap2023测试集,由排名前三的团队和基线模型进行的大体肿瘤体积(GTV)分割定性结果展示。

Table

图片

Table 1Summary of several publicly available organ-at-risk segmentation Computed Tomography (CT) datasets. ceCT is the contrast-enhanced Computed Tomography.ncCT means the non-contrast Computed Tomography.

表1 若干可公开获取的危及器官分割计算机断层扫描(CT)数据集概述。增强计算机断层扫描(ceCT)即contrast-enhanced Computed Tomography,平扫计算机断层扫描(ncCT)即non-contrast Computed Tomography。

图片

Table 2Clinical characteristics of the SegRap2023 training, validation and testing sets. ∗ means the values arepresented as median (range). T and N stages denote the tumor and lymph node staging according to theAJCC2017 standardized classification system (Amin et al., 2017).

表2 SegRap2023训练集、验证集和测试集的临床特征。* 表示数值以中位数(范围)的形式呈现。T 分期和 N 分期是根据美国癌症联合委员会(AJCC)2017年标准化分类系统(阿明等人,2017年)划分的肿瘤分期和淋巴结分期。

图片

Table 3Summary of the benchmarked algorithms for Task01. IN means intensity normalization. IH means intensity harmonization. SA means simple augmentation techniques, includingrandom rotation, random scaling, ransom shifting, random cropping, and random warping. CC means Connected component-based post-processing and CDA means ConnectivityDomain Algorithm for splitting the paired organs into left and right parts.

表3 任务01中基准算法概述。“IN”表示强度归一化。“IH”表示强度协调。“SA”表示简单的数据增强技术,包括随机旋转、随机缩放、随机平移、随机裁剪和随机扭曲。“CC”表示基于连通分量的后处理,“CDA”表示用于将成对器官分割为左右两部分的连通域算法 。

图片

Table 4Summary of the benchmarked algorithms for Task02. IH means intensity harmonization. IN means intensity normalization. SA means simple augmentation techniques, includingrandom rotation, random scaling, ransom shifting, random cropping, random warping

表4 任务02中基准算法概述。“IH”表示强度协调,“IN”表示强度归一化,“SA”表示简单的数据增强技术,包括随机旋转、随机缩放、随机平移、随机裁剪、随机扭曲。

图片

Table 5Network architectures and training details of the benchmarked algorithms for Task01. CE and BCE mean cross-entropy and binary cross-entropy, respectively. ×(*) refers to thenumber of ensemble models.

表5 任务01中基准算法的网络架构及训练细节。“CE”和“BCE”分别表示交叉熵和二元交叉熵。×(*)表示集成模型的数量。

图片

Table 6Network architectures and training details of the benchmarked algorithms for Task02. CE and BCE mean cross-entropy and binary cross-entropy, respectively. SE means Squeezeand-Excitation. ×(*) refers to the number of ensemble models.

表6 任务02中基准算法的网络架构和训练细节。“CE”和“BCE”分别表示交叉熵和二元交叉熵。“SE”表示压缩激励。×(*) 表示集成模型的数量。

图片

Table 7Rankings of methods in DSC/NSD scores for OAR segmentation.

表7 危及器官(OAR)分割中各方法在Dice相似系数(DSC)/归一化表面距离(NSD)得分方面的排名情况。

图片

Table 8Summary of the average DSC (%) score of OAR segmentation by the ten teams.

表8 十支队伍的危及器官(OAR)分割平均Dice相似系数(DSC)得分(%)汇总。

图片

Table 9Summary of the average NSD (%) score of OAR segmentation by the ten teams

表9 十支队伍在危及器官(OAR)分割方面的平均归一化表面距离(NSD)得分(%)汇总。

图片

Table 10Summary of statistical significance analysis (𝑝-value) for the top 3 teams on the OAR segmentation task.

表10 排名前三的团队在危及器官(OAR)分割任务上的统计显著性分析(p值)汇总。

图片

Table 11Rankings of methods in terms of DSC and NSD scores for GTV segmentation.

表11 大体肿瘤体积(GTV)分割中各方法在Dice相似系数(DSC)和归一化表面距离(NSD)得分方面的排名情况。

图片

Table 12Summary of the quantitative evaluation results of GTVp and GTVnd segmentation by the eleven teams.

表12 十一个团队对原发灶大体肿瘤体积(GTVp)和转移淋巴结大体肿瘤体积(GTVnd)分割的定量评估结果汇总。

图片

Table 13Summary of statistical significance analysis (𝑝-value) for the top 3 teams on the GTV segmentation task

表13 排名前三的团队在大体肿瘤体积(GTV)分割任务上的统计显著性分析(p值)汇总。