Clip微调系列：《MaPLe: Multi-modal Prompt Learning》-EW帮帮网

论文链接：arxiv.org/pdf/2210.03117

参考链接：(28 封私信) CVPR2023 | MaPLe: Multi-modal Prompt Learning - 知乎

灵魂三问：动机？具体实现方法？实验结论？

动机

以Clip为代表的视觉-语言模型虽然在下游任务泛化性好，但是性能高度依赖输入文本提示（Prompt）的设计选择。

现有的改进方法（如CoOp）提出通过可学习的提示调优（prompt-tuning）来替代人工设计硬提示（hard prompt），从而降低模型对prompt的依赖。

Clip微调系列：《coOp: learning to prompt for vision-language models》 -CSDN博客

但是上面这种prompt-tuning改进方法仅通过文本分支的调整，无法在下游任务上灵活动态的调整视觉-语言两个模态的表示空间，因此提出MaPle:促进视觉-语言prompt之间的交互。

具体实现

1. 提出CLIP中的多模态（视觉-文本）的prompt学习；

2. 提出一个耦合函数，为了将视觉-文本两个prompt联系在一起；

3. 在视觉-文本分支的Transformer块中分层学习多模态prompt,逐步建模双模态的协同行为，从而更灵活对齐视觉-文本特征。

可以拆成两部分看:

第一部分：

在两个分支的不同Transoformer Layers分别引入prompt;

以文本分支举例：
在第一层，引入b个可学习的参数（learnable tokens）;

和之前固定的输入token W concat拼接在一起输入Transformer Encoder Layer;

第二层同理，引入新的b个可学习参数和 W 拼接输入第二层；

图中一共有k层Encoder Layers,J指当前层。

注意，如果这里J是1，也就是只在第一层引入可学习参数，就和coOp方法是一样的。

视觉同理：

第二部分：
为了让两个prompt有联系，设计了一个耦合函数，让视觉分支的prompt由文本分支的prompt 映射形成；

这里的耦合函数就是一个线性层

实验结论

1. 只在第一层添加可学习参数；

2. 只有视觉分支；

3. 只有文本分支；

4. 两个分支的prompt独立；

5. 两个分支的pormpt+耦合函数。

prompt 深度的影响

一般而言，随着提示深度的增加，性能会有所提升。

当在一个已经成熟的冻结模型的深层插入随机初始化的提示时，性能敏感性会增加。

(人话：当提示在模型比深的层被引入时，任何微小的调整或变化可能会显著改变模型的预测结果，因此模型对这些变化更加敏感。）

类似的趋势也在文献 [Visual Prompt Tuning] 中被报告。由于早期的方法使用浅层语言提示（J=1），我们将我们的方法与深度语言提示进行了比较。总体而言，MaPLe 的表现优于深度语言提示，并在深度为 9 时达到最佳性能。

(28 封私信) 【论文精读】Visual Prompt Tuning - 知乎