多模态表示、融合、对齐
首先,对齐确保了不同模态间的相互关联性;
接着,融合策略决定了如何整合多模态信息;
最后,表示的好坏直接影响了最终学习任务的效果。
表示
表示涉及如何将多模态数据编码成适合机器学习任务的形式。良好的表示能够捕捉数据的内在特征和结构,对于提高学习效率和性能至关重要。
融合
有单流和多流,都是首先不同模态提取特征,区别就是在网络深层中,两种模态是否相互作用。如果提取特征后两个模态拼接,或者使用 self-attention 进行交互,那么就是单流,如果不在网络深层进行交互,就是多流。
- 早期融合(Early Fusion):在特征层面进行融合,将不同模态的特征早早地合并,以充分利用各模态的互补信息。
- 晚期融合(Late Fusion):在决策层面进行融合,即在模型输出后再结合不同模态的结果,这有助于在最终决策时综合考虑各模态的见解。
- 混合融合(Hybrid Fusion):结合早期和晚期融合的优点,可能在多个层面进行特征和决策的结合,以实现更灵活的信息整合。
对齐
- 对齐的目的总的来说,就是实现不同模态数据(如图像、文本、音频等)在特征、语义或表示层面上的匹配与对应。我从 loss, 数据, 模型 三个方面回答.
- 模型结构:
- 共同嵌入空间,将不同模态数据映射到共享的嵌入空间,使得语意相近的向量距离相近。这适用于跨模态检索。
- 注意力机制,利用注意力机制在不同模态之间建立关联。比如说模型关注图像的不同区域生成相对应文本描述。
- 跨模态 Transformer,直接将文本和视觉信息进行融合,在内部对齐。比如 BLIP-2 的 Q-former,能同时输入图片和文本 token。
- 数据的话,我们需要准备配对的数据用来训练。
- Loss 有多模态预训练任务最初常用的就是MLM、MRM和ITM,经过两年左右时间的发展,不仅MLM有不同的版本,还可以用LM和IMC(对比损失函数)。
- MLM 与bert 的MLM一致,即将文本随机mask一部分(15%),利用输入的多模态特征进行预测。
- ITM:由于输入的数据是图像-文本pair对,那么对于多模态编码器而言,输入的特征对可以是匹配的pair,也可以是不匹配的pair,这样可以再最终输出的特征层面增加一个分类器判断图像、文本是否匹配。在我的实际应用中,ITM 对效果的提升很微弱。
- MRM(Mask region modeling):MRM与MLM 类似,是对输入的图像块(可以是检测框,也可以是直接图像分块)对一部分进行mask,然后利用输入的多模态特征进行预测。MRM有不同的实现方式,对于有目标检测器的方案而言,由于有检测器的类别信息,所以可以直接利用分类器进行分类,对于没有目标检测器的方案来说,可以直接回归特征或者计算预测特征与真实特征之间的kl散度。未采用目标检测器,无论是重构特征还是计算kl散度,效果提升都很小。最近,也有人利用d-VAE首先对图像块进行编码,得到一个one-hot特征(其实就是label),而后在MRM中即使没有目标检测器的情况下也可以预测类别,猜测这种实现方式效果可能会好一些。
- LM:与GPT中的LM一致,只不过在输入的时候多了图像特征。
- IMC:对比损失函数在图像无监督领域内用得已经很广泛了,其中最著名的要属Moco系列和Simclr系列了。在多模态领域中,CLIP论文可以说是将对比损失函数成功应用了起来,并且取得了相当炸裂的效果(当然跟亿级别训练数据也有关系)。IMC其实实现起来也比较简单,即计算图像特征与文本特征的cosine相似距离,正样本对label为1,负样本对lable为0。比如ALBEF用的loss就用到了IMC,个人感觉这个loss的贡献要高于ITM和MRM。
参考:
https://cloud.baidu.com/article/3326504 多模态学习核心技术:对齐、融合与表示