一、技术演进:从深度度量学习到多模态对比学习
1. 起点:Sohn(2016)的 “多类 N 对损失”(Multi-class N-pair Loss)
在深度度量学习中,传统方法(如三元组损失)通过 “锚点 - 正样本 - 负样本” 的三元组训练模型,让同类样本距离近、异类样本距离远。但这种方法存在两个问题:
- 每次只使用 1 个负样本,样本利用率低;
- 容易陷入 “简单负样本”(与锚点差异过大的样本)的无效学习。
Sohn 提出的 “多类 N 对损失” 改进了这一点:
- 批量构建正负样本:在一个批次中,为每个 “锚点样本” 匹配 1 个正样本(同类)和 N-1 个负样本(其他类),形成 “1 个锚点 + 1 个正样本 + N-1 个负样本” 的组合。
- 损失计算:通过 softmax 函数让模型在 N 个样本(1 正 + N-1 负)中 “识别出正样本”,强制锚点与正样本的距离显著小于与负样本的距离。
这种 “批量利用负样本” 的思路,大幅提升了度量学习的效率,为后续对比学习奠定了基础。
2. 推广:Oord 等人(2018)的 “InfoNCE 损失”
Oord 等人将 “N 对损失” 与信息论结合,提出 InfoNCE(Info Noise-Contrastive Estimation)损失,使其成为对比表示学习的核心工具:
- 核心思想:通过最大化 “锚点与正样本的互信息”,同时最小化 “锚点与负样本的互信息”,让模型学习到更具判别性的表示。
- 批量构建策略:在一个批次中,每个样本既是 “锚点”,也是其他样本的 “负样本”(除了自身的正样本)。例如,批次大小为 B 时,每个锚点对应 1 个正样本和 B-2 个负样本,无需手动设计负样本。
- 优势:
- 利用信息论理论保证了表示的 “信息量”(保留数据核心特征);
- 批量内自动生成负样本,避免了传统方法中负样本选择的繁琐,适合大规模数据训练。
3. 扩展:多模态(图像 - 文本)与医学影像领域
近年来,这种对比学习思路被推广到图像 - 文本跨模态场景,尤其是医学影像领域(如 Zhang 等人的工作):
- 医学场景的特殊性:医学数据标注成本极高(需专业医生),但存在大量 “影像 - 文本对”(如 CT 影像 + 放射科报告、病理切片 + 诊断描述)。
- 对比学习的适配性:
- 以 “医学影像” 为锚点,“对应的文本报告” 为正样本,“其他影像的报告” 为负样本;
- 通过 InfoNCE 损失训练模型,让影像特征与对应文本特征在共享空间中 “靠近”,与其他文本特征 “远离”。
- 目标:无需人工标注类别,直接从 “影像 - 文本对” 中学习医学影像的语义表征(例如,自动从 “肺结节影像 +‘患者存在肺结节’的报告” 中学习 “肺结节” 的视觉特征)。
二、核心共性:“对比” 与 “批量构建” 的价值
这一系列方法的本质,是通过 **“对比正负样本”+“批量高效利用数据”** 学习优质表示,具体优势体现在:
- 数据效率:无需精细标注(如类别标签),利用天然存在的 “配对关系”(如同类样本、图像 - 文本对)作为监督信号,尤其适合标注稀缺的领域(如医学)。
- 表示质量:通过批量内大量负样本的 “对比压力”,迫使模型捕捉数据的核心差异(如医学影像中 “良性结节” 与 “恶性肿瘤” 的细微区别)。
- 跨模态对齐:在图像 - 文本场景中,对比损失直接优化 “视觉特征” 与 “文本语义” 的映射关系,解决了模态鸿沟问题(如让 “肺炎影像” 的特征与 “肺炎” 相关文本的特征对齐)。
总结
从 Sohn 的 N 对损失到 InfoNCE,再到医学影像的跨模态对比学习,核心技术路径是 **“用批量数据构建正负样本对,通过对比损失学习有区分性的表示”**。这种思路不仅大幅提升了模型的训练效率,更突破了传统监督学习对 “精细标注” 的依赖,尤其在多模态场景(如图文)和高价值数据领域(如医学影像)展现出巨大潜力 —— 这也是 CLIP 等模型能实现零样本迁移的核心技术基础。