视觉大语言模型未能充分利用视觉表征

发布于:2025-06-20 ⋅ 阅读:(19) ⋅ 点赞:(0)
视觉大语言模型未能充分利用视觉表征
FesianXu 20250612 at Wechat Search Team

前言

这两天看到一篇新挂在arxiv上的文章 [1],讨论了下视觉大语言模型的视觉表征退化问题。先前的研究将VLM缺陷归咎于视觉编码器薄弱,并提出集成编码器方案以弥补不足,本文认为可能是底座LLM不能充分利用视觉编码器的特征,笔者觉得挺有意思的,就在此笔记,希望对读者有所帮助。如有谬误请见谅并联系指出,本文遵守CC 4.0 BY-SA版权协议,转载请联系作者并注明出处,谢谢

  • 关键词:VLM、以视觉为中心任务、视觉表征退化

∇ \nabla 联系方式:

  • e-mail: FesianXu@gmail.com
  • github: https://github.com/FesianXu
  • 知乎专栏: 计算机视觉/计算机图形理论与应用
  • 微信公众号:机器学习杂货铺3号店

视觉语言大模型(Visual Language Model, VLM)通常由三部分组成:

  1. 视觉编码器,可以是CLIP、SigLIP、DINO等,采用的结构可以是ViT,也可以是传统的CNN,不过现在主流都是ViT结构,本文指的视觉编码器也是ViT的产出。
  2. 视觉连接器(Projector),通常是简单的MLP结构,或者Q-Former、Resampler、D-abstractor等复杂结构。
  3. 底座LLM,如LLama、Qwen、baichuan等。

之前笔者在博文 [2] 中也曾介绍过一篇对VLM中的视觉短板问题的研究,其最终结论是单纯基于CLIP的视觉特征,在视觉问题上可能存在固有的缺陷,这个缺陷通过扩大模型规模和数据尺度可能都无法弥补,因此最终提议结合采用CLIP和DINO v2一起交织作为视觉表征供给VLM。然而,最近有研究文章 [1] 表示当前的VLM并不能充分利用视觉编码器的表征,导致在一些视觉为中心的任务中表现接近随机。以视觉为中心的任务,是计算机视觉领域中的一类任务,其核心在于理解与解读来自图像和视频的视觉信息。这类任务通常通过分析视觉内容实现特定功能:提取关键特征、识别目标对象,或基于视觉感知执行其他相关操作,通常不依赖语言级别的知识及其领域知识等。具体来说,比如语义相关点匹配(Semantic Correspondence)、低级特征匹配(Low-level Matching)、深度估计(Depth Estimation)、3D物体感知(3D Object Awareness)等都属于视觉为中心的任务。

作者的评估策略是,挑选出主流的4种视觉编码器,包括只在ImageNet 1K上进行监督训练得到的IN-1k,只采用视觉自监督训练得到的DINO v2,采用图文跨模态训练得到的SigLIPCLIP。然后挑选Vicuna v1.5作为LLM底座,在固定住视觉编码器和底座LLM的情况下,采用LLaVA v1.5的数据微调视觉连接器。

从Fig 1.中,我们发现在一些视觉为中心的任务中,在主流的多种视觉特征下,标准的视觉评估策略(只采用视觉特征)的效果往往远比转向VLM评估策略后效果好,后者则基本上是随机猜测的水平。

在这里插入图片描述

Fig 1. 从标准视觉评估策略(只采用视觉特征)转向 VLM 评估策略会导致性能下降,其准确率常常降至随机猜测水平。此外,在某个任务中表现最佳的视觉编码器(通常是 DINO v2)并非在性能更优异的 VLM 框架中表现最佳的视觉编码器。

以上实验采用的视觉编码器的参数是固定的,没有进行微调,作者同样拿开源的VLM进行了对比(开源的VLM中对视觉编码器也进行了端到端的训练),如Fig 2.所示,同样发现了类似的现象。此外,从Fig 1和Fig 2中我们还发现,在标准视觉评估策略中表现最好的视觉特征,在VLM下可能并不是最优的,以Fig 1的Low-Level Matching为例,在Visual下的性能序为DINO v2 > IN-1k > SigLIP > CLIP,而在VLM中的性能序为IN-1k > SigLIP > CLIP ≈ DINO v2

在这里插入图片描述

Fig 2. 在开源的VLM中,其视觉编码器是联合底座LLM进行微调的,即便如此,在视觉为中心的任务中,只考虑视觉特征的标准视觉评估也是远比VLM本身占优的。

以上的实验证明当前的VLM并没有充分利用视觉信息(起码是在视觉为中心的这些任务中),这结论和之前的一些研究 [2] 并不相似。一种可能的解释是,这来自于视觉特征的退化,特别是当视觉特征经过视觉连接器或者LLM后可能会丢弃一些任务相关的视觉信息。因此考虑将VLM的逐层进行探针(probe),统计下游任务的效果,从Fig 3来看,视觉信息在逐层中并没有发生明显的衰减现象,但是在最后一层中会倾向于发生性能的大幅度下降,作者猜测这种变化源于LLM在其末端的信息处理重点的转移——从前期的特征保持与注意力分配,转向最终的语义生成任务,因此导致最终效果不尽人意。

在这里插入图片描述

Fig 3. 对视觉语言模型中间层的可视化评估。通过在视觉连接器(灰色区域)和底座LLM(白色区域)逐层探测(Probing)视觉表征,我们发现这些层级普遍保留着任务关联信息,且未出现明显衰减迹象。

还有种可能是VLM对prompt比较敏感,因此作者采用Prompt Tuning [3] 的方式在原始prompt前面插入若干个可学习的前缀(共用词表),然后在1000个VQA样本上进行微调。结果如Fig 4所示,引入Prompt-tuning的确有些许效果提升,不过提升仍然有限,提升可学习前缀数量并不会带来进一步的提升。

在这里插入图片描述

Fig 4. 提示调优评估实验。我们分别微调[1, 5, 10]个前缀嵌入向量,将结果与原始性能(x=0)及视觉评估上限(虚线)进行对比。实验显示:前缀嵌入数量在突破1-5个后,模型性能提升幅度显著收窄,呈现边际收益递减现象。

鉴于已排除视觉语言模型(VLM)的视觉表征衰减和Prompt表述的敏感性对性能的制约,作者转向探索LLM自身的作用机制。我们在每个视觉为中心的任务中选取5000个样本,分别对VLM的三个组件——视觉编码器(ViT)、视觉连接器(Proj)和底座LLM——进行独立微调。实验采用与评估框架相同的VQA数据格式,通过LoRA微调并严格控制可调权重矩阵,确保所有组件保持同等参数量级(16.7M参数量,等效于全视觉连接器微调的参数量)。如Fig 5所示,对比微调视觉编码器和微调视觉连接器,微调底座LLM的提升最为明显,但仍然对比视觉本身存在一定差距。

在这里插入图片描述

Fig 5. 在各组件参数量严格对等的实验设定下,针对特定任务微调LLM所产生的性能增益远高于微调投影层或视觉编码器。这些结果证实了LLM有效利用视觉表征的能力是制约视觉中心任务表现的核心瓶颈。

为了深入理解这一现象,作者分析了微调后DINO v2表征的注意力偏移变化。在对应任务中,微调加强了对多选题标签、参考点及其他文本(尤见于LLM第4层)的关注度。不同于投影器或ViT微调(这些方法在任何注意力层或头中均未稳定凸显上述关键点),LLM微调显著提升了模型在关键区域定位并利用视觉表征的能力。如Fig 6所示,通过可视化Object Affordance任务和Semantic Correspondence任务中微调底座LLM前后的注意力图的变化,发现微调了LLM后能够有效提高参考点和关注点之间的注意力强度。

在这里插入图片描述

Fig 6. 通过可视化底座LLM微调前后的注意力分布差异,观察到Semantic Correspondence任务中关注点(REF、A、B、C、D)的注意力强度显著提升。这些关注点在注意力层4-6中表现最为明显;此处分别可视化的是第4层在Object Affordance任务(左图)与Semantic Correspondence任务(右图)中的注意力分布。

综合来看,作者认为底座LLM是以视觉为中心任务实现更高预测性能的瓶颈,其局限既源于对关键视觉区域的关注不足,也来自LLM对特定多选题答案的强先验依赖。需要强调的是,本文并非主张通过直接任务训练作为解决VLM视觉表征利用不足的通用方案;而是借助该方法定位VLM失效机制,并论证提升LLM视觉表征利用能力可有效突破语言先验束缚,实现最优性能提升。

Reference

[1]. Fu, Stephanie, Tyler Bonnen, Devin Guillory, and Trevor Darrell. “Hidden in plain sight: VLMs overlook their visual representations.” arXiv preprint arXiv:2506.08008 (2025).

[2]. https://fesianxu.github.io/2024/07/06/20240706-visual-shortcome-mllm/ 《基于CLIP特征的多模态大模型中的视觉短板问题》

[3]. https://fesianxu.github.io/2023/09/28/prompt-tuning-20230928/, 《Prompt Tuning——一种高效的LLM模型下游任务适配方式》


网站公告

今日签到

点亮在社区的每一天
去签到