近年来,跨模态文本-图像表示学习在诸多领域取得了显著的突破,尤其是在零样本学习和图像-文本检索等任务上。这一成果的取得很大程度上归功于大量弱监督的图像-文本配对数据的利用,这些数据有效地增强了视觉-语言表示学习的能力。在医学成像领域,针对特定领域数据(例如胸部X光片及其相关放射学报告)的跨模态表示学习已经催生出了在该领域表现卓越的基础模型。
俗话说,“一图胜千言”。这恰恰说明了图像所蕴含的信息量远胜于文字描述,而文字描述往往只是图像的一种简化表达。在这种关系中,文本可以被看作是图像的一种蕴含,构成了视觉语义层次结构的一部分。将这种视觉语义层次结构的归纳偏差融入跨模态对齐任务中,有助于提升表示的泛化能力和可解释性。
(a) 展示了医学文本-图像领域中的视觉-语义层次,阐释了不同的医学概念如何组织和相互联系,以及它们与医学图像的关联。
(b) 描述了医学数据嵌入从欧几里得空间过渡到超球面空间的表示,这种转换可以有效地捕获和表示密度偏序关系,同时保持相对密度关系的完整性。
本文提出HYDEN,一种针对医学图像和报告的超球面密度表示方法。这种方法利用了超球面空间捕捉视觉语义层次的优势,同时结合了概率密度嵌入策略来模拟语义不确定性。
1 相关工作
1.1 欧几里得空间中的图像-文本表示学习
CLIP 模型是这类方法的代表,它使用大量弱监督的图像-文本对数据进行训练,并通过对比学习的方式学习图像和文本的表示。这类方法在通用领域取得了很好的效果,但可能无法很好地处理医学领域数据的复杂性和特异性。
1.2 针对医学领域的图像-文本表示学习
一些研究针对医学领域的数据特点,提出了专门用于医学图像-文本表示学习的模型,例如 MERU 框架。这类模型通常在欧几里得空间中进行训练,并利用医学领域的先验知识来提升模型性能。
1.3 超越欧几里得空间的图像-文本表示学习
MERU 框架将图像和文本特征映射到双曲空间中,利用双曲空间的层级结构优势来学习图像-文本表示。这类模型能够更好地处理医学领域数据中的层级语义关系,但仍然使用点向量来表示图像和文本,无法有效表达语义不确定性。
1.4 概率密度嵌入
一些研究使用概率密度嵌入来表示图像和文本,例如 Gaussian Embedding。这类方法能够有效地表达语义不确定性,但主要应用于欧几里得空间,并且通常用于文档嵌入和图嵌入等任务。
2 方法
2.1 图像-文本特征嵌入
- 文本编码器: 使用 BioClinicalBERT 对文本数据进行编码,提取文本特征。BioClinicalBERT 是一个在 MIMIC III 数据集上预训练的模型,能够有效地捕捉医学文本的语义信息。
- 图像编码器: 使用 Vision Transformer (ViT) 对图像数据进行编码,提取图像特征。ViT 是一种基于 Transformer 的图像编码器,能够有效地捕捉图像的局部和全局特征。
- 文本感知局部图像表示: 为了更好地捕捉医学图像的局部语义特征,HYDEN 引入了一个自注意力模块。该模块将文本嵌入作为查询,将图像特征作为键和值,从而生成文本感知的局部图像特征。最终图像特征是全局特征和局部特征的组合。
2.2 超双曲密度嵌入
- 密度表示: HYDEN 使用超双曲伪高斯分布来表示图像和文本特征。这种表示方式能够有效地捕捉语义不确定性,并更好地表示医学数据的复杂性。
- 映射到超双曲空间: HYDEN 将图像和文本的密度表示映射到超双曲空间。这通过使用指数映射函数来实现,将欧几里得空间中的向量映射到超双曲空间中的点。
2.3 损失函数
- 封装损失函数: HYDEN 使用封装损失函数来建模图像-文本密度分布之间的部分排序关系。封装损失函数利用 α-散度来衡量两个分布之间的差异,并通过惩罚函数来确保一个分布完全包含另一个分布。
- 对比损失函数: HYDEN 使用对比损失函数来增强图像和文本语义分布之间的相似性。对比损失函数通过计算超双曲空间中两个分布的测地线距离来实现。
3 实验
3.1 基线模型
- CLIP: 在欧几里得空间中使用点嵌入进行图像-文本对齐的模型。
- MERU: 在超双曲空间中使用点嵌入进行图像-文本对齐的模型。
3.2 数据集
- MIMIC-CXR v2: 用于模型预训练的大型胸部 X 光图像和报告数据集。
- RSNA Pneumonia: 用于零样本图像分类的胸部 X 光图像数据集。
- SIIM-ACR Pneumothorax: 用于零样本图像分类的胸部 X 光图像数据集。
- ChestXray14: 用于零样本图像分类、文本-图像检索和图像-图像检索的胸部 X 光图像数据集。
3.3 实验设置
- 采用ViT-B 作为图像编码器,补丁大小为16,因为它在超球面空间中表现出了竞争性能。图像/文本编码器初始化策略与MERU类似,只是使用ClinicalBERT作为预训练的文本编码器,它已在大规模医学文本数据上进行了预训练。对于HYDEN,将可学习的曲率参数c初始化为1.0,并将其限制在[0.1, 10.0]的范围内,以防止训练不稳定。所有实验都使用两台NVIDIA A40 GPU和PyTorch框架进行。
- 优化:采用AdamW优化器,权重衰减为0.2,(β1, β2) = (0.9, 0.98)。对于所有的增益、偏差和可学习的标量,不使用权重衰减。模型训练了13,000次迭代,批量大小为256。最大学习率设置为1 × 10^-5,在前500次迭代中线性增加,然后余弦衰减至零。使用混合精度来加速训练,除了在计算指数映射和损失时,为了数值稳定性使用FP32精度。
3.4 评估任务
- 零样本图像分类: 评估模型在没有标签数据的情况下进行图像分类的能力。
- 零样本文本-图像检索: 评估模型使用文本查询检索图像的能力。
- 零样本图像-图像检索: 评估模型使用图像查询检索图像的能力。
3.5 实验结果
- 定量分析: HYDEN 在零样本图像分类、文本-图像检索和图像-图像检索任务上都取得了优于 CLIP 和 MERU 的性能。这表明 HYDEN 模型能够更好地捕捉医学图像和报告之间的层次语义关系,并学习到更具可解释性和泛化能力的视觉语义表示。
- 定性分析: HYDEN 模型能够有效地捕捉图像和文本嵌入之间的部分排序关系,这表明模型能够理解图像和文本之间的层次语义结构。
3.6 结论
HYDEN 模型在医学图像和报告的跨模态表示学习方面取得了显著的成果。该模型能够有效地捕捉医学数据的复杂性和语义不确定性,并学习到更具可解释性和泛化能力的视觉语义表示。