TMI 2024 | 多模态共同注意力融合网络结合在线数据增强的癌症亚型分类

发布于:2025-03-19 ⋅ 阅读:(13) ⋅ 点赞:(0)

Multimodal Co-Attention Fusion Network With Online Data Augmentation for Cancer Subtype Classification

DOI: 10.1109/TMI.2024.3405535

作者:Saisai DingJuncheng LiJun WangShihui YingJun Shi

文章中提出了一种新颖的多模态共同注意力融合网络(MCFN)结合在线数据增强(ODA)用于癌症亚型分类。

这篇文章讲述了如何利用先进的多模态技术,包括全片图像(WSIs)和多组学数据(多组学数据),有效进行癌症亚型的诊断

摘要:

在计算病理学中准确诊断癌症亚型是癌症个性化治疗的重要任务。最近的研究表明,多模态数据(如全载玻片图像(WSI)和多组学数据)的组合可以实现更准确的诊断。然而,由于多模式数据之间的异质性,以及多模式患者数据不足导致的性能下降,稳健的癌症诊断仍然具有挑战性。在这项工作中,我们提出了一种新的具有在线数据增强(ODA)的多模式共同注意融合网络(MCFN),用于癌症亚型分类。具体而言,提出了一种多模态相互引导共同注意(MMC)模块,以有效地执行密集的多模态交互。它使多模态数据能够在集成过程中相互指导和校准,以减轻模态间和模态内的异质性。随后,开发了一种自归一化网络(SNN)-Mixer,以允许不同组学数据之间的信息通信,并缓解多组学数据中的高维小样本问题。最重要的是,为了弥补模型训练中多模态样本不足的问题,我们在MCFN中提出了一个ODA模块。ODA模块利用多模态知识来指导WSI的数据增强,并在模型训练期间最大限度地提高数据多样性。在公共TCGA数据集上进行了广泛的实验。实验结果表明,所提出的MCFN优于所有比较算法,表明其有效性。

问题背景
由于以下限制,现有方法尚未充分发挥多模态数据的潜力来产生更好的表示。

1)对密集的多模态交互进行建模需要大量的计算和内存;

2)多组学数据通常来自具有不同表示和生物学属性的多个平台[22],[23],但现有的工作通常简单地连接来自不同组学数据的标准化向量,并且没有考虑各种组学数据之间的区别和相关性 ;

3)这些多组学数据通常存在高维小样本(HDLSS)问题,这也对CAD模型的鲁棒性提出了巨大的挑战。 因此,值得开发一种有效的方法来处理多模态数据,并充分利用多模态数据之间的相关性来实现更有效的多模态学习。

在本文中,我们提出了一种新颖的共同关注多模态融合网络(MCFN)和在线数据增强(ODA)用于癌症诊断。 具体来说,提出了一种新颖的多模态相互引导共同注意(MMC)模块,可以有效地执行密集的多模态交互并减轻模态间和模内的异质性。 随后,为了更好地整合多组学数据,我们开发了一种自归一化网络(SNN)-Mixer,以实现多组学数据之间的模内交互。 这允许交换信息并从多组学数据中提取有意义的表示。 此外,为了便于在训练数据不足的情况下进行模型推理,我们在 MCFN 中加入了一个新的 ODA 模块。 ODA模块可以利用多模态数据的有用知识来指导WSI模态中的数据增强,从而提高模型训练的数据多样性。 癌症基因组图谱 (TCGA) 项目进行了大量实验,所提出的 MCFN 在癌症亚型分类任务上优于最先进的 (SOTA) 算法。 这项工作的主要贡献有以下四个方面:

1)我们提出了一种基于 WSI 和多组学数据的有效 MCFN,用于癌症亚型分类。 MCFN 可以捕获不同模态之间的相关性并增强每种模态的特征表示。

 2) 我们开发了一种新颖的 多模态相互引导共同注意 MMC 模块,使多模态数据能够相互引导和校准,以生成卓越的表示。 MMC利用注意力分数矩阵的对称性来简化计算过程,从而降低共同注意力机制的计算成本。

3)我们提出了一个ODA模块,这是一种简单而有效的方法,用于基于MIL的WSI分类的实例级数据增强。 ODA 模块利用多模态信息将实例分为注意力组和注意力不集中组。 然后,它融合非注意力实例,并使用余弦相似度匹配类似的注意力实例,以最大限度地提高数据多样性。

4)我们开发了一种新的SNN-Mixer来学习不同组学特征之间的相关性并缓解多组学数据中的HDLSS问题。 SNN-Mixer 采用两种类型的 SNN 层来允许跨不同维度的数据进行信息通信,从而增强特征的交互。

基于多实例学习的WSI分析中的数据增强

数据增强总能提高深度模型的泛化能力和鲁棒性。在多实例学习(MIL)中,一些研究采用了传统的图像级数据增强功能,如裁剪、翻转或移动,以生成相同切片图像的多样化实例级特征。然而,对于千兆像素图像来说,传统的数据增强方法计算成本很高,因为一个全切片图像(WSI)通常包含数万个切片。

在基于MIL的WSI分析中,数据增强大致可分为三类:1)实例级增强,2)包级增强,3)包组合增强。第一类着重于使用包原型,生成对抗网络或扩散模型。第二类主要通过层次或随机采样生成新的子集来增强整个包,而不是增强单个实例。最后一类通过组合不同包中的实例创建新的包,通常随机选择它们以引入数据多样性,提高模型的泛化能力。

然而,这些方法仅利用了WSI内部的知识来指导基于MIL的数据增强,忽视了其他模态中潜在的有价值的补充信息。虽然先前的研究已经采用了多模态信息来指导MIL中的实例级聚合,这涉及利用另一模态的知识在WSI模态中最优分配实例级注意权重。据研究团队所知,研究团队的MCFN是第一个将有用的多模态知识整合到MIL中以指导实例级数据增强的工作。

> 用于两种模态的多头注意力层

在构建了代表WSI和多组学数据的袋子后,研究团队旨在对补丁嵌入和基因组嵌入之间的密集成对交互进行建模。如图1所示,不仅WSI和多组学数据之间存在显著的异质性,不同组学数据之间也存在显著的异质性,这源于它们不同的表示方式和生物属性。因此,MMC的关键思想是在特征交互过程中加入共同注意机制,这有助于信息的减少和选择。共同注意机制类似于自注意原理,它将查询和键值对映射到输出。然而,不同于仅考虑单一模态的自注意原理,共同注意机制通过从两个不同模态生成查询和键值对来同时计算两个模态的注意力得分。

具体来说,MMC模型两个交互,一个是从组织学到组学的交互,另一个是从组学到组织学的交互。通过多模态交互,多模态数据可以相互引导和校准,从而减轻模态内和模态间的异质性。更重要的是,研究团队可以利用注意力得分矩阵的对称性来简化计算过程,从而降低共同注意机制的计算成本。

在线数据增强 (ODA)

为了在模型训练期间增强数据多样性,研究团队提出了一个ODA模块,通过改变实例的分布来增加包的多样性。这种策略受到了Mixup的启发,Mixup是一种数据增强技术,通过按一定比例结合两组不同的特征向量来创建新的训练样本。ODA模块使得MIL在训练期间能够接触到更广泛的包,以提高模型的泛化能力。由于不重要的实例可能会降低ODA模块的性能,不会使用所有实例进行数据增强,而是根据注意力得分将它们分成两组。

如图3所示,ODA模块包括两个组件,即实例分离器和合并器。分离器根据MMC的注意力得分矩阵Si将小块嵌入分为注意部分和不注意部分。然后,合并器融合不注意实例并匹配相似的注意实例,以最大化数据多样性。

虽然不注意实例包含的信息较少,但它们仍可能对分类结果有所贡献。研究团队不直接丢弃它们,而是使用~a中的注意力得分对这些实例进行加权以生成一个新实例。

对于注意实例:保持重要性同时考虑多样性。计算余弦相似度,获得不同小块嵌入的相似性。根据余弦相似度得分来组合成一个新的实例。

研究团队在生成新实例后不丢弃这些注意实例,因为注意实例包含最终预测中最具判别力的信息。通过融合不注意实例并匹配注意实例,研究团队可以增加包的多样性,同时保持重要实例的存在。

SNN-Mixer

在使用组织学特征校准MMC模块中的不同组学特征后,仍然存在两个主要挑战:多组学数据中的HDLSS问题和不同组学特征之间的相关性学习。为了解决这些问题,研究团队开发了基于MLP-Mixer的SNN-Mixer来整合不同的组学特征。

MLP-Mixer是最近提出的一种仅依赖MLP的简单架构。它引入了两种类型的层,允许跨数据的不同维度进行信息交流,从而增强特征的交互。然而,多组学数据通常具有数百到数千个特征,而训练样本相对较少,因此传统的MLP容易过拟合,并且当前的深度学习正则化技术(如激活函数和Dropout)会导致训练不稳定。因此,研究团队用SNN中的ELU激活和Alpha Dropout替换了MLP-Mixer中的GELU激活和Dropout。ELU激活在输入为负时具有非零梯度,这有助于缓解梯度消失问题。Alpha Dropout是一种Dropout正则化技术的变体,在训练期间不是随机丢弃神经元,而是从Alpha分布中抽取随机值并与每个神经元的输出相乘,以增强模型在训练期间的稳定性。

SNN-Mixer包含一个token混合SNN和一个通道混合SNN,每个包含两层全连接层、两层Alpha Dropout层和一个ELU激活。token混合SNN是一个跨位置操作,作用于输入的列以混合所有组学数据,而通道混合SNN是一个预位置操作,作用于输入的行以混合每个组学的特征。

实验

A.数据集

为了验证我们提出的方法的有效性,我们使用了癌症基因组图谱中的三个TCGA数据集(https://tcga-data.nci.nih.gov/tcga/):1)浸润性乳腺癌(BRCA)亚型中的浸润性导管癌(IDC)与浸润性小叶癌(ILC),2)非小细胞肺癌(NSCLC)亚型中肺腺癌(LUAD)与肺鳞状细胞癌(LUSC),3)肾细胞癌(RCC)亚型的肾嫌色细胞(KICH)、肾肾透明细胞(KIRC)和肾乳头状细胞(KIRP)。

单模态与多模态方法:多模态算法比单模态算法获得更好的结果,表明整合多模态信息在癌症诊断中的有效性。与单峰方法相比,多峰方法需要更多的模型参数,因为它们需要同时处理来自两种模态的数据。然而,它们的FLOP并没有显著增加,因为基因组数据非常小,几乎不会产生计算成本。作为一种SOTA多模态算法,HGCN由于其中的多模态图而获得了次优结果,可以有效地进行模态内和模态间的交互。尽管如此,我们的MCFN仍然以更少的模型参数和FLOP优于HGCN。

早期与晚期融合:在我们的实验中,早期融合算法(MCAT、HGCN和MCFN)在所有数据集上的表现大多优于晚期融合多模态算法(GSCNN、双线性池和PORPOISE)。我们将这一观察归因于多模式相互作用的利用,它有效地捕捉了组织学和基因组特征之间的关系。尽管这些多模态交互会增加FLOP,但它们可以显著提高模型的性能。这一观察结果强烈支持我们在多模态特征空间中结合联合学习的共同注意机制的设计选择。

结果解释

为了进一步验证我们模型的可解释性,我们应用了MMC的注意力得分来可视化得到的注意力图,并对多组学数据进行了综合梯度(IG)分析[42]。我们首先将共同注意力得分归一化为0到1的范围(从蓝色到红色),然后通过将每个组织学斑块的计算出的共同注意力得分叠加到WSI上来生成注意力图。图6(a)显示了TCGA-BRCA数据集中的几个亚型病例。我们观察到这些注意力图可以定位肿瘤区域。例如,IDC病例的高关注斑块主要集中在高级别肿瘤形态,如密集的肿瘤细胞,而ILC病例的高注意力斑块主要集中于侵袭性和肿瘤浸润性基质。马赛克地图是通过以网格方式叠加剩余的补丁而生成的。这证明我们的框架可以通过MMC有效地保留最具鉴别性的补丁,这对ODA模块是有益的。

图6(b)显示了IDC(蓝点)和ILC(红点)亚型患者的基因组特征分布。x轴表示IG归因得分,y轴表示所选的基因组特征。对于患者的每个基因组特征,通过IG分析计算归因得分,以量化该特征对预测结果的影响[42]。因此,对于这项工作中的癌症亚型任务,具有积极归因得分(零以上)的特征往往会增加样本被分类为特定亚型的概率,而具有消极得分(零以下)的特征会降低这种概率。如图6(b)所示,从每个组学中选出最具影响力的7个基因组特征,根据预测结果进一步研究这些亚型。可以观察到,不同的特征对IDC和ILC的分类有不同的贡献。例如,在MUT特征中,CDH1突变与IDC患者的关系比ILC患者更密切,因为大多数IDC病例显示出这种突变的正归因值。这表明CDH1突变的存在是预测IDC的重要指标。相反,TP53突变倾向于支持ILC分类,因为大多数IDC患者对这种突变表现出负归因值。通过分析这些选定的组学特征,我们可以深入了解区分IDC和ILC亚型的分子特征。它有助于识别可能在确定乳腺癌亚型中发挥关键作用的特定遗传变异。总之,这些可视化结果为了解不同癌症亚型的潜在机制提供了有价值的信息,有可能改善患者的个性化治疗策略。

五、讨论

随着计算病理学中深度学习的进步,越来越多地利用多模式医学数据(如WSI和基因组学)来实现癌症的精确诊断和个性化治疗。然而,数据异构性给设计自动化分析方法带来了挑战。先前的研究主要集中在多模态数据学习中的后期融合策略上。然而,这种方法为有效的多模式交互提供了有限的机会。

我们的MCFN可以直观地捕捉不同模态之间的局部相关性,便于后续处理和可解释的分析。基于我们提出的MMC模块,我们进一步提出了一种用于MIL数据增强的新型ODA块。具体来说,该模块利用MMC生成的注意力评分将组织学实例分为注意力和注意力不集中。通过将不注意的实例与匹配的注意实例相结合,我们有效地增强了实例的多样性,同时保持了它们的重要性。这种增强技术对MIL特别重要,因为它传统上缺乏数据增强技术。

此外,MMC和ODA模块也可以在不进行重大修改的情况下用于其他方法,这表明我们的模块在实际应用中具有多功能性。这份手稿还研究了多组学数据学习方案。为了解决多组学数据中的HDLSS问题,我们提出了一种SNN混合器,并将其集成到我们的MCFN模型中。实验结果表明,我们的SNNMixer可以有效地捕捉不同组学特征之间的相关性,并缓解HDLSS引起的过拟合问题。我们的研究提供了新的见解,特别是在学习HDLSS数据方面。

我们的方法确实有一些局限性。首先,所提出的MCFN仅适用于本研究中的完整数据,这意味着数据集中所有样本的所有模态都必须可用。然而,在实际临床场景中,某些模式中的数据缺失是一个常见问题。未来的工作将侧重于解决多模式学习中缺失的数据问题。其次,在MMC中,所有模态都被认为对多模态交互同等重要,因此,使用不重要的模态来指导重要模态的学习可能会引入噪声。未来,将研究多模态交互中的加权机制。


网站公告

今日签到

点亮在社区的每一天
去签到