多模态表示、融合、对齐-EW帮帮网

多模态表示、融合、对齐

首先，对齐确保了不同模态间的相互关联性；

接着，融合策略决定了如何整合多模态信息；

最后，表示的好坏直接影响了最终学习任务的效果。

表示

表示涉及如何将多模态数据编码成适合机器学习任务的形式。良好的表示能够捕捉数据的内在特征和结构，对于提高学习效率和性能至关重要。

融合

有单流和多流，都是首先不同模态提取特征，区别就是在网络深层中，两种模态是否相互作用。如果提取特征后两个模态拼接，或者使用 self-attention 进行交互，那么就是单流，如果不在网络深层进行交互，就是多流。

早期融合（Early Fusion）：在特征层面进行融合，将不同模态的特征早早地合并，以充分利用各模态的互补信息。
晚期融合（Late Fusion）：在决策层面进行融合，即在模型输出后再结合不同模态的结果，这有助于在最终决策时综合考虑各模态的见解。
混合融合（Hybrid Fusion）：结合早期和晚期融合的优点，可能在多个层面进行特征和决策的结合，以实现更灵活的信息整合。

对齐

对齐的目的总的来说，就是实现不同模态数据（如图像、文本、音频等）在特征、语义或表示层面上的匹配与对应。我从 loss, 数据，模型三个方面回答.
模型结构：
共同嵌入空间，将不同模态数据映射到共享的嵌入空间，使得语意相近的向量距离相近。这适用于跨模态检索。
注意力机制，利用注意力机制在不同模态之间建立关联。比如说模型关注图像的不同区域生成相对应文本描述。
跨模态 Transformer，直接将文本和视觉信息进行融合，在内部对齐。比如 BLIP-2 的 Q-former，能同时输入图片和文本 token。
数据的话，我们需要准备配对的数据用来训练。
Loss 有多模态预训练任务最初常用的就是MLM、MRM和ITM，经过两年左右时间的发展，不仅MLM有不同的版本，还可以用LM和IMC（对比损失函数）。
MLM 与bert 的MLM一致，即将文本随机mask一部分（15%），利用输入的多模态特征进行预测。
ITM：由于输入的数据是图像-文本pair对，那么对于多模态编码器而言，输入的特征对可以是匹配的pair，也可以是不匹配的pair，这样可以再最终输出的特征层面增加一个分类器判断图像、文本是否匹配。在我的实际应用中，ITM 对效果的提升很微弱。
MRM（Mask region modeling）：MRM与MLM 类似，是对输入的图像块（可以是检测框，也可以是直接图像分块）对一部分进行mask，然后利用输入的多模态特征进行预测。MRM有不同的实现方式，对于有目标检测器的方案而言，由于有检测器的类别信息，所以可以直接利用分类器进行分类，对于没有目标检测器的方案来说，可以直接回归特征或者计算预测特征与真实特征之间的kl散度。未采用目标检测器，无论是重构特征还是计算kl散度，效果提升都很小。最近，也有人利用d-VAE首先对图像块进行编码，得到一个one-hot特征（其实就是label），而后在MRM中即使没有目标检测器的情况下也可以预测类别，猜测这种实现方式效果可能会好一些。
LM：与GPT中的LM一致，只不过在输入的时候多了图像特征。
IMC：对比损失函数在图像无监督领域内用得已经很广泛了，其中最著名的要属Moco系列和Simclr系列了。在多模态领域中，CLIP论文可以说是将对比损失函数成功应用了起来，并且取得了相当炸裂的效果（当然跟亿级别训练数据也有关系）。IMC其实实现起来也比较简单，即计算图像特征与文本特征的cosine相似距离，正样本对label为1，负样本对lable为0。比如ALBEF用的loss就用到了IMC，个人感觉这个loss的贡献要高于ITM和MRM。

参考：

https://cloud.baidu.com/article/3326504 多模态学习核心技术：对齐、融合与表示

多模态表示、融合、对齐

多模态表示、融合、对齐

表示

融合

对齐

网站公告

今日签到

热门文章

最新发布