多模态大模型综述:BLIP-2详解(第二篇)

发布于:2025-08-04 ⋅ 阅读:(14) ⋅ 点赞:(0)

一、TL;DR

  1. 为什么提出: VLM全参训练参数量太大,直接训练有问题
  2. 怎么做: 增加一个Qformer模块大幅度减少参数量(54x)
  3. 怎么训练: 继承BLIP的预训练+图文生成式预训练
  4. 什么结果: 训练速度超快且效果SOTA

paper名称:Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. ICML2023

paper:https://arxiv.org/pdf/2304.08485

code:https://github.com/salesforce/LAVIS/tree/main/projects/blip2

二、核心框架

2.1 Framework

解决什么问题:

提出Qfomer(Query Transformer)模块用于对齐冻结后的语言和图像模块,解决了现有的VLM训练成本过高的问题

用什么方法:

利用Qformer连接freeze的VIT和LLM模块,仅仅只需要训练Q-former模块

取得了什么样的结果:

Qformer使用Bert初始化仅188M可训练参数,但在VQA(54x减少参数量)、图文描述、图文检索上实现SOTA

 2.2具体方法

QFormer:

 Q-Former 由两个transformer模块组成,共享相同的自注意力层:

  1. ImageTransformer:
    1. 冻结参数的Image Encoder提取的图像embeddings
    2. Learned Queries:Queries是一组可学习的embeddings,这些query和图像embeddings及逆行自注意力机制
    3. 本文采用ViT-L/14和EVA-CLIP训练过的ViT-g/14
  2. Text Transformer:
    1. 既作为文本编码器,也作为文本解码器
    2. 本文采用OPT和FlanT5

2.3 预训练方法

第一阶段-继承于BLIP,联合优化训练3个预训练目标:

  • 图像 - 文本对比学习(ITC):旨在对齐图像表征和文本表征,以最大化它们的互信息。通过将正样本对的图像 - 文本相似度与负样本对的相似度进行对比来实现这一目标。

  • 图像引导的文本生成(ITG)损失:训练 Q-Former 在输入图像作为条件的情况下生成文本。

  • 图像 - 文本匹配(ITM):模型预测图像 - 文本对是正样本(匹配)还是负样本(不匹配)的二元分类任务。采用 Li 等人(2021;2022)的难负样本挖掘策略来创建具有信息量的负样本对(负样本是这样生成的)。

第二阶段-视觉到语言生成式学习:

  1. 将 Q-Former(附加冻结的图像编码器)与冻结的 LLM 相连,以利用 LLM 的语言生成能力。
  2. 如图 3 所示,使用全连接(FC)层将输出查询嵌入 Z 线性投影到与 LLM 的文本嵌入相同的维度。
  3. 然后,将投影后的查询嵌入预先添加到输入文本嵌入中,它们充当 “软视觉提示”,使 LLM 以 Q-Former 提取的视觉表征为条件进行生成。

由于 Q-Former 已通过预训练学会提取与语言相关的视觉表征,它有效地充当了信息瓶颈,向 LLM 提供最有用的信息,同时过滤掉不相关的视觉信息。这减轻了 LLM 学习视觉 - 语言对齐的负担,从而缓解了灾难性遗忘问题。

三Experiments


网站公告

今日签到

点亮在社区的每一天
去签到