LVLM-AFAH论文精读

发布于:2025-05-21 ⋅ 阅读:(26) ⋅ 点赞:(0)

Basic Information

Abstract

Visual grounding seeks to localize the image region corresponding to a free-form text description. Recently, the strong multimodal capabilities of Large Vision-Language Models (LVLMs) have driven substantial improvements in visual grounding, though they inevitably require fine-tuning and additional model components to explicitly generate bounding boxes or segmentation masks. However, we discover that a few attention heads in frozen LVLMs demonstrate strong visual grounding capabilities. We refer to these heads, which consistently capture object locations related to text semantics, as localization heads. Using localization heads, we introduce a straightforward and effective training-free visual grounding framework that utilizes text-to-image attention maps from localization heads to identify the target objects. Surprisingly, only three out of thousands of attention heads are sufficient to achieve competitive localization performance compared to existing LVLM-based visual grounding methods that require fine-tuning. Our findings suggest that LVLMs can innately ground objects based on a deep comprehension of the text-image relationship, as they implicitly focus on relevant image regions to generate informative text outputs. All the source codes will be made available to the public.

视觉定位(Visual Grounding)旨在根据自由形式的文本描述定位对应的图像区域。近年来,大型视觉语言模型(Large Vision-Language Models, LVLMs)的强大多模态能力显著提升了视觉定位的性能,但通常需要通过微调和额外的模型组件来显式生成边界框或分割掩膜。然而,我们发现,在冻结的 LVLMs 中,仅少量注意力头(attention heads)就展现出了强大的视觉定位能力。我们将这些能够稳定捕捉与文本语义相关的对象位置的注意力头称为“定位头”(localization heads)。利用这些定位头,我们提出了一种简单有效且无需训练的视觉定位框架,该框架通过定位头生成的文本-图像注意力图(attention maps)来识别目标对象。令人惊讶的是,在数千个注意力头中,仅使用三个就足以实现与现有基于 LVLM 的微调视觉定位方法相媲美的竞争性定位表现。我们的研究表明,LVLMs 能够基于对文本与图像关系的深刻理解,天然地完成对象定位,因为它们能够隐式地关注相关的图像区域以生成有信息量的文本输出。所有源代码将公开提供。

Current Issues, Challenges, Author’s Motivation, and Proposed Solution

尽管已有研究将LVLMs融入视觉指代任务,但一个基础性问题仍未被彻底探讨:既然LVLMs的文本输出暗含了对特定图像区域的理解,那么我们是否可以显式观察这一机制?换句话说,我们是否可以提取LVLMs在图文匹配过程中是如何“聚焦”于与文本描述相关的图像区域的?

在这里插入图片描述

一个直观的切入点是分析文本到图像的注意力图(text-to-image attention maps),这些图展示了文本描述如何关注不同图像区域。我们尝试通过可视化LVLMs在不同层和头上的平均注意力图(这在视觉Transformer和扩散模型中是常见做法)来观察是否能捕捉到与指代文本相关的区域。然而,与ViTs和DMs中清晰可解释的注意力模式不同,LVLMs的 平均注意力图 往往稀疏且含有大量噪声(只有少数区域被赋予了较高的注意力权重 ,而大多数区域的注意力值接近于零,并且分布不均,缺乏一个清晰、集中的高亮区域。注意力图中还存在很多无关或误导性的高注意力区域),难以准确指示相关目标位置。

在指代表达理解任务(如Referring Expression Comprehension, REC)中,我们希望模型能够精准定位图像中与文本描述相对应的物体或区域。然而,如果注意力图本身模糊不清、噪声大,那就无法有效帮助我们理解模型的决策过程,也无法用于解释或调试模型行为。

可能的原因:

  • LVLMs 的训练目标主要是生成或理解语言,而不是显式地进行空间定位。
  • 注意力机制在深层网络中变得更加抽象,不再保留直观的空间对应关系。
  • 多模态融合过程中,文本和图像的信息交互方式复杂,导致注意力分布变得不稳定。

为了克服这个问题,一些研究尝试使用更精细的注意力分析方法,例如:

  • 提取特定 token 或 head 的注意力(而非平均);
  • 利用梯度类方法(如Grad-CAM)反向追踪关键图像区域;
  • 引入辅助监督信号,强制模型学习更清晰的注意力模式。

有趣的是,我们发现并非平均注意力图,而是某些特定的注意力头(attention heads)能够生成清晰、准确的 图文注意力图 。具体来说,我们发现部分注意力头在不同样本中始终能聚焦于与文本描述相关的图像区域,我们称其为定位头(localization heads)。例如,在LLaVA-1.5-7B模型中,第14层的第24个头(L14 H24)和第13个头(L14 H13)在多个样本中都能稳定高亮出文本所指区域。

在本研究中,我们提出了系统识别这些定位头的方法,基于两个明确的标准:

  1. 图像关注度:我们计算每个注意力头文本对图像的注意力总和,仅保留那些主要关注图像的头;
  2. 空间集中性:在上述基础上,我们进一步计算注意力分布的空间熵,仅选择那些关注于图像特定区域的头,这些头能更有效地定位被指代目标。

实验证明,筛选出的定位头在不同图像中都能准确捕捉与文本描述紧密相关的目标。

有了我们的定位头,我们引入了一个简单而有效的免训练视觉定位框架。来自定位头的注意力图被组合起来,以预测所指对象的边界框或掩码。值得注意的是,仅需三个定位头就足以定位图像中的所指对象,这表明它们高度专注于关注相关的图像区域。如 Fig. 2 所示,与现有基于微调的方法相比,我们的框架免训练,消除了为视觉定位任务对 LVLM 进行额外微调的需要。

我们对10个不同的 LVLM 进行了验证,这些 LVLM 具有不同的参数数量、架构和训练数据集,展示了其广泛的适用性。我们的框架在性能上显著优于现有免训练方法。此外,我们的方法与专门为视觉定位任务微调的 LVLM(例如 LISA )性能相当。结果表明,这表明,LVLM本身就具备将文本指代映射到图像区域的能力。据我们所知,我们是第一个识别 LVLM 中特定注意力头的定位属性的。

总结我们的主要贡献如下:

  • 我们发现LVLM中某些特定注意力头具备视觉指代能力,我们称之为定位头(localization heads)
  • 我们提出了一种基于定位头的LVLM免训练视觉指代框架,通过少量定位头的注意力图来预测目标位置;
  • 我们在多个LVLM上进行了系统验证,所提方法在性能上大幅超越其他免训练方法,并与一些微调方法表现相当。

Preliminary

符号说明: 大型视觉语言模型 (LVLMs) 通常包含三个主要组件:一个视觉编码器、一个投影器和一个大型语言模型。对于一个输入图像 X v X_v Xv视觉编码器和投影器将图像转换为一个视觉嵌入序列 Z v ∈ R P 2 × d Z_v \in \mathbb{R}^{P^2 \times d} ZvRP2×d,其中 P 2 P^2 P2 是展平拉长的图像标记的数量, d d d 是隐藏维度。类似地,一个输入文本 X t X_t Xt 被转换为一个标记嵌入序列 Z t ∈ R L × d Z_t \in \mathbb{R}^{L \times d} ZtRL×d,其中 L L L 是文本中标记的数量。视觉和文本嵌入被连接为 Z 0 = [ Z v ; Z t ] ∈ R ( P 2 + L ) × d Z^0 = [Z_v; Z_t] \in \mathbb{R}^{(P^2+L) \times d} Z0=[Zv;Zt]R(P2+L)×d,并作为输入嵌入向量馈送到大型语言模型 (LLM)。

多头自注意力机制: 输入嵌入 Z 0 Z^0 Z0 通过一系列解码器模块,这些模块由多头自注意力机制和前馈神经网络模块组成。具体来说,我们关注注意力头,因为这些是标记唯一交互的组件。在层 ℓ \ell 和头 h h h 中,来自前一层的隐藏状态 Z ℓ − 1 Z^{\ell-1} Z1 被投影到查询 Q Q Q、键 K K K 和值 V ∈ R ( P 2 + L ) × d h V \in \mathbb{R}^{(P^2+L) \times d_h} VR(P2+L)×dh 矩阵中,其中 d h d_h dh 是注意力头的隐藏维度。然后,注意力头计算注意力权重如下:

A t t n ℓ , h ( Z ℓ − 1 ) = softmax ( Q K T d h ) . ( 1 ) Attn^{\ell,h}(Z^{\ell-1}) = \text{softmax} \left( \frac{QK^T}{\sqrt{d_h}} \right). \quad (1) Attn,h(Z1)=softmax(dh QKT).(1)

请注意,注意力权重反映了查询 Q Q Q 和键 K K K 矩阵之间的相似性。

图像-文本交互研究: 考虑到大型语言模型(LLM)解码以自回归方式运行,信息从前序标记流向后续标记,导致最终标记封装整个句子的上下文。因此,我们假设最后一个输入文本标记 q t x t q_{txt} qtxt 的查询向量作为整个句子的代表性查询。例如,在图 1 的句子“the pizza mouth.”中,最后一个标记 [.] 的查询向量被用于我们的实验。为了研究图像-文本交互,我们检查 查询为 q t x t q_{txt} qtxt 且键为图像标记时的注意力权重。具体来说,考虑到对公式 (1) 的轻微修改,对于层 ℓ \ell 和头 h h h 中以 q t x t q_{txt} qtxt 作为查询标记的注意力权重 a ℓ , h a^{\ell,h} a,h

a ℓ , h = softmax ( q t x t K T d h ) ∈ R P 2 + L ( 2 ) a^{\ell,h} = \text{softmax} \left( \frac{q_{txt}K^T}{\sqrt{d_h}} \right) \in \mathbb{R}^{P^2+L} \quad (2) a,h=softmax(dh qtxtKT)RP2+L(2)

我们关注前 P 2 P^2 P2 个分量, a ℓ , h [ 1 : P 2 ] a^{\ell,h}[1:P^2] a,h[1:P2],进行分析。在本文的后续部分,为简化起见,这将被表示为 L ℓ H h L\ell Hh LHh。例如,L5 H3 指的是 LVLM 第五层中的第三个注意力头。

研究者用的是包含了全句上下文的最后一个文本标记的查询向量 ( q t x t q_{txt} qtxt),作为一个“总的查询”,去看看它跟图像的哪些部分最相关。

“关注前 P 2 P^2 P2 个分量, a ℓ , h [ 1 : P 2 ] a^{\ell,h}[1:P^2] a,h[1:P2],进行分析。”: 因为他们只想知道 文本(由 q t x t q_{txt} qtxt 代表)如何关注图像的 , 所以他们只看 文字-图片注意力权重向量 中 文字对应图像块 的部分。

Method

最近的研究表明,注意力头表现出独特的特性,这促使我们寻找具有潜力充当有效文本指代定位器的特定注意力头。在本节中,我们提出将 注意力总和空间熵 作为筛选此类头的两个标准。通过实验,我们验证了基于所提出的标准,可以成功识别出那些 能够捕捉与文本描述相对应对象的注意力头。请注意,LLM 的前两层在我们的分析中被一致排除,因为已知早期层与其他层的运作方式不同(具体解释见附1)。为了证明我们研究结果的普适性,我们在各种 LVLM 和数据集上进行了实验。

Two Criteria to Find Localization Heads

我们的最终目标是识别出在文本指代方面表现出色的注意力头。为实现这一目标,我们提出了两个标准。

在这里插入图片描述

标准 1:注意力总和。 为了识别主要关注整体图像的注意力头,我们首先考虑注意力总和 S i m g ℓ , h = ∑ i = 1 P 2 a ℓ , h [ i ] S_{img}^{\ell,h} = \sum_{i=1}^{P^2} a^{\ell,h}[i] Simg,h=i=1P2a,h[i],它量化了在单个注意力头内部,图像信息相对于 q t x t q_{txt} qtxt 的相关性。然后,针对 RefCOCO 训练集中的 1000 个随机样本计算每个头的平均 S i m g ℓ , h S_{img}^{\ell,h} Simg,h

如图 3 所示,大多数注意力头表现出较低的 S i m g ℓ , h S_{img}^{\ell,h} Simg,h 值,这表明相对较少的头对模型的文本-图像交互做出显著贡献。为了区分具有高 S i m g ℓ , h S_{img}^{\ell,h} Simg,h 值的头和低值的头,我们将阈值 τ \tau τ 设置在图中曲率最大点处(例如,在 LLaVA-1.5-7B 中 τ = 0.24 \tau = 0.24 τ=0.24)。我们认为 S i m g ℓ , h ≥ τ S_{img}^{\ell,h} \ge \tau Simg,hτ 的头能够有效地关注图像。虽然我们采用最大曲率作为一种实用选择,但我们注意到我们的分析在一系列合理的 τ \tau τ 值范围内仍然具有鲁棒性。

在这里插入图片描述

标准 2:空间熵。 对于一个要被认为能有效聚焦于对象的注意力头,它不仅需要对图像具有较高的注意力总和值,还必须将其注意力明确地集中在对象周围。由于可以合理地假设对象区块倾向于彼此靠近,我们通过空间熵来评估在每个注意力图中局部形成簇的程度,以识别定位头。

图 4 展示了一个空间熵如何计算的例子。首先,我们将注意力权重 a ℓ , h [ 1 : P 2 ] a^{\ell,h}[1:P^2] a,h[1:P2] 重塑为一个 P × P P \times P P×P 的注意力图 A ℓ , h A^{\ell,h} A,h。通过将高于均值的元素赋值为 1,低于均值的元素赋值为 0,对注意力图进行二值化处理。接下来,我们识别连通分量 C i C_i Ci,定义为通过 8-邻域连接的一组坐标。然后,对于 N N N 个连通分量集合 { C i } i = 1 N \{C_i\}_{i=1}^N {Ci}i=1N,空间熵 H H H 计算如下:

H ( A ℓ , h ) = − ∑ i = 1 N P ( C i ) log ⁡ P ( C i ) , ( 3 ) H(A^{\ell,h}) = - \sum_{i=1}^{N} P(C_i) \log P(C_i), \quad (3) H(A,h)=i=1NP(Ci)logP(Ci),(3)

其中 P ( C i ) = ∣ C i ∣ / ∑ i = 1 N ∣ C i ∣ P(C_i) = |C_i| / \sum_{i=1}^{N} |C_i| P(Ci)=Ci∣/i=1NCi。因此,如果一个注意力图 A ℓ , h A^{\ell,h} A,h 表现出低空间熵,则认为它是有效定位的。关于空间熵的更多细节,请参阅附录2。

Finding Localization Heads via Criteria

在本节中,我们利用前面描述的两个标准来筛选出一小部分注意力头。然后,我们证明所选出的这些头能够有效地捕捉与文本相关的对象。

在这里插入图片描述

首先,我们根据注意力头满足我们标准的程度对其进行排序。具体来说,对于来自 RefCOCO 训练集的 1000 个随机图像-文本样本,我们保留所有满足 S i m g h ≥ τ S_{img}^h \ge \tau Simghτ 的注意力头。在这些注意力头中,我们计算每个头在样本中呈现出前10低空间熵的频率,以识别那些持续表现出低空间熵的头。我们将此 指标 称为选择频率。整体过程如图 5 所示,结果如图 6(a) 所示。现在,我们根据它们的选择频率为每个头分配排名,选择频率高的头排名更高。例如,在图 6(a) 中,对于 LLaVA-1.5-7B 模型,头部 L14 H24 排名第一,其次是头部 L14 H13 排名第二。

在这里插入图片描述

最后,我们旨在证明排名更高的头在捕获与文本相关的对象方面更有效。为此,我们将每个头的注意力图进行二值化以获得伪掩码,并测量这些伪掩码与真实(GT)掩码之间的交并比(IoU)。然后,我们将从图 6(a) 得出的头部Ranks与其 IoU 值之间的关系可视化为散点图,如图 6(b) 所示。请注意,在此分析中,仅考虑选择频率至少为 1% 的头。

如图 6(b) 所示,具有较高选择频率的注意力头倾向于表现出较高的平均交并比(IoU)。我们还计算了斯皮尔曼相关系数,以量化评估选择频率和交并比(IoU)之间的关系。对于所有大型视觉语言模型(LVLM),相关系数均高于 0.7,表明存在强正相关。对于排名更高的头,这种趋势变得越来越明显,使我们得出结论:少数排名靠前的头能强烈捕捉语义信息。我们将这些头称为“定位头”。由于这种趋势在各种大型视觉语言模型(LVLM)中持续出现,我们认为定位头是 LVLM 的一种固有属性。(更通俗的解析见附3)

Visual Grounding with Localization Heads

在上一节中,我们证明了我们的标准能够有效地识别指代文本的定位头。在此基础上,我们提出了一种利用这些定位头来解决视觉定位任务的简单而有效的方法。具体而言,我们的目标是在给定一个大型视觉语言模型(LVLM)的情况下执行视觉定位任务。为实现此目标,首先必须识别出该 LVLM 的定位头。遵循我们在 以上内容 和图 5 中描述的过程,我们根据选择频率对这些头进行排名,并选出排名前 k 位的头。随后,将需要生成掩码的图像-文本对输入到 LVLM 中,并从这些定位头中提取注意力图。

在这里插入图片描述

如图 7 所示,对每个定位头的注意力图应用高斯平滑处理,以保留详细的定位信息,同时最大限度地减少潜在的随机噪声(具体解析见附4)。得到的注意力图通过逐元素求和的方式组合,以生成合并图。然后,将这个合并图进行二值化处理,以产生伪掩码。最后,识别出包含该伪掩码的最大矩形,并将其用作边界框。此外,这个边界框还可以作为 SAM 的提示来处理分割任务。

Experiments

在本节中,我们验证通过我们的选择过程发现的定位头是否能在知名的视觉定位基准测试中确保鲁棒的性能。此外,我们进行消融研究以验证我们方法的设置。

Settings

模型: 我们将我们的方法应用于十个大型视觉语言模型(LVLM),以验证其广泛的适用性。主要实验包括 DeepSeek-VL、Mini-Gemini、InternVL、Yi-VL、ShareGPT4V、LLaVA 和 LLaVA-1.5,模型大小从 13 亿到 130 亿参数不等。对于所有模型,定位头的数量固定为 k = 3。

基准测试: 为了评估视觉定位能力,我们在指代表达理解(REC)和指代表达分割(RES)任务上进行实验。REC 要求模型预测所指对象的边界框,而 RES 则要求分割掩码。我们使用 RefCOCO、RefCOCO+ 和 RefCOCOg 数据集。我们进一步在更具挑战性的场景——推理分割(ReasonSeg)上评估我们方法的性能,该场景需要复杂的推理或世界知识。对于 REC 任务,我们使用 Acc@0.5 指标报告性能,这是 REC 的标准检测指标。对于 RES 和 ReasonSeg 任务,cIoU 用作评估指标。

基线: 我们将我们的方法与现有的基于微调的方法和免训练方法进行比较。基于微调的方法包括视觉定位专用模型,以及用于对象定位或分割任务的经过微调的大型视觉语言模型(LVLM)。免训练方法包括基于 CLIP 的方法和基于 DM 的方法。

实验设定: 所有实验与评估均在单一 NVIDIA GeForce RTX A6000 48GB GPU 上进行。我们仅使用模型的推理阶段,不进行任何微调或训练。

分析设定: 我们使用 RefCOCO 训练集来防止验证集泄漏(避免在模型训练或开发过程中,无意中让模型接触到验证集(validation set)的信息)。为了计算各个头的选择频率,我们从 RefCOCO 训练集中随机选取 1,000 个图像-文本对样本,并将结果平均五次试验以验证一致性。在分析选择频率和交并比 (IoU) 时,我们将注意力权重二值化,将高于平均值的值设为 1,低于平均值的值设为 0,并计算二值化后的注意力权重与真实掩模 (ground-truth mask) 之间的 IoU。我们对 1,000 个图像-文本对重复此过程,并对 IoU 分数进行平均。

数据集详情: 我们在以下数据集上评估了我们的方法。RefCOCO、RefCOCO+ 和 RefCOCOg 数据集,来源于 MS-COCO,它们提供了指代性表述 (referring expressions) 及其关联图像的集合 ReasonSeg: 用于推理分割 (reasoning segmentation) 的数据集和基准测试最早在 LISA 中被提出。由此产生的 ReasonSeg 数据集包含 1,218 个“图像-指令-掩码” (image-instruction-mask) 数据样本,这些样本进一步被划分为三个部分:训练集(239 个样本)、验证集(200 个样本)和测试集(779 个样本)。

指代表达理解 (REC) 和指代表达分割 (RES): 评估主要结果所使用的数据集包括 RefCOCO (验证集、测试集A、测试集B)、RefCOCO+ (验证集、测试集A、测试集B) 和 RefCOCOg (验证集、测试集)。所有评估均使用 UNC 切分方式进行(具体解释见附5)。

推理分割 (ReasonSeg): 推理分割最早在 LISA 中被提出。该任务与指代表达分割任务具有相似的表述方式,但难度要大得多。主要区别在于推理分割中查询文本的复杂性。这些查询不再是简单的短语(例如,“蓝色的杯子”),而是涉及更细致的描述(例如,“盘子旁边用来喝水的容器”)或更长的句子(例如,“找到桌子上可用来盛装液体、通常与茶托配套的物品”)。这些查询要求高级的推理能力以及对上下文和世界知识的更深层次理解。所有的推理分割结果都使用 ReasonSeg 基准进行评估,该基准包括验证集和测试集。我们遵循与 LISA 相同的实验设置,在短查询、长查询以及总体上衡量性能,以确保比较的一致性。

消融研究设置: 我们对每个标准(criterion)的有效性进行消融,并验证所选择的方法。对于标准消融,我们考虑两种方法:(1) 仅根据最高的 S i m g ℓ , h S_{img}^{\ell,h} Simg,h 值选择头(head),或 (2) 仅根据最低的 H ( A ℓ , h ) H(A^{\ell,h}) H(A,h) 值选择头。在方法 (1) 中,我们选择 S i m g ℓ , h S_{img}^{\ell,h} Simg,h 值最高的10个头,并计算它们的选择频率。类似地,在方法 (2) 中,我们选择 H ( A ℓ , h ) H(A^{\ell,h}) H(A,h) 值最低的10个头,并计算它们的选择频率。对于选择验证,我们引入了“贪婪”选择方法,该方法为每个样本选择前 k 个头,而不考虑整体选择频率。当同时应用贪婪选择方法和标准 (1) 时,我们为每个样本选择 S i m g ℓ , h S_{img}^{\ell,h} Simg,h 值最高的前 k 个头。标准 (2) 以类似的方式应用,即同时为每个样本选择 H ( A ℓ , h ) H(A^{\ell,h}) H(A,h) 值最低的前 k 个头。

Main Results

在这里插入图片描述

REC 和 RES: 表1和表2分别展示了我们的方法以及基线模型在 REC 和 RES 任务上的结果。我们的框架相比现有的无需训练的方法取得了显著的改进。令人惊讶的是,尽管我们的方法不需要额外训练,但其表现与经过微调的大型视觉语言模型 (LVLM) 相当。例如,在 REC 任务中,我们方法的最佳表现与 Shikra 和 Ferret 的结果相当,它们与 LLaVA-1.5 共享相同的基础大语言模型 (LLM),但针对定位任务进行了微调。在 RES 任务中,使用 LISA 也观察到了类似的发现。结果表明,由于定位头的存在,冻结的 LVLM 无需任何额外训练即可有效定位所指对象。值得注意的是,随着模型的发展,视觉定位(visual grounding)能力也得到增强。首先,随着模型规模的增加(从1.3B到13B),性能持续提升。其次,架构和训练数据的更新(例如,LLaVA 到 LLaVA-1.5)也提升了性能。这一观察表明,通过使用更大的模型和更多样化的训练数据,可以进一步增强 LVLM 的定位能力。图8比较了我们的方法与基线模型的定性结果。结果表明,LVLM 能够准确识别正确的对象区域,即使在存在多个相似对象或所指对象未显著位于图像中心的挑战性场景中也是如此。有研究指出,基于 CLIP 的方法难以解释方向描述词(例如,“左侧”)。因此,它们不得不将指代表达手动分解为多个组成部分,或依赖于使用对象空间信息的后处理步骤。相比之下,借助 LVLM 强大的文本理解能力,我们的框架可以直接预测所指对象的边界框或分割掩码,而无需精心设计的后处理步骤。

在这里插入图片描述

推理分割: 表3显示了我们的方法和 LISA 在 ReasonSeg 上的结果。为了公平比较,我们使用相同的主干模型 LLaVA-1.5 来比较这两种方法。我们的方法表现与 LISA 相当,有时甚至优于它。结果表明,LVLM 中的定位头可推广到各种视觉定位任务,包括那些需要复杂推理或世界知识的任务。

在这里插入图片描述

Ablation Studies

定位头的数量: 在我们的主要实验中,我们将定位头的数量设置为 k = 3 k = 3 k=3。在这里,我们研究了改变 k k k 值对视觉定位(visual grounding)性能的影响。表4 展示了我们框架在不同 k k k 值下的结果。我们观察到,当 k k k 从1增加到3时,性能通常会提高,这表明排名前3的头能够互补以提供更准确的定位。然而,进一步增加 k k k 并不保证带来更好的性能,这意味着额外的头可能会引入噪声或冗余。值得注意的是,最优 k k k 值的趋势在不同的大型视觉语言模型 (LVLM) 之间保持一致。结果表明,在各种 LVLM 中,相似数量的注意力头负责定位所指对象,尽管这些模型的总头数和架构各不相同。

在这里插入图片描述

定位头的判据和选择方法的验证: 在第 4.1 节中,我们提出了两个判据:注意力总和 S i m g ℓ , h S_{img}^{\ell,h} Simg,h 和空间熵 H ( A ℓ , h ) H(A^{\ell,h}) H(A,h),用于根据选择频率识别定位头。然后,我们基于选择频率来选择固定的 top-k 个头。我们对每个判据的有效性进行消融研究,并验证了选择方法。对于判据消融,我们评估了单独使用每个判据时我们方法的性能:(1)仅选择具有最高 S i m g ℓ , h S_{img}^{\ell,h} Simg,h 的头,或(2)仅选择具有最低 H ( A ℓ , h ) H(A^{\ell,h}) H(A,h) 的头。对于选择方法验证,我们将我们方法(为便于比较,称为“固定”方法)的性能与“贪婪”选择进行比较,后者是每样本选择并聚合 top-k 个头。

在这里插入图片描述

表 5 显示了这些消融研究的结果。当仅使用一个判据时,性能显著下降,这表明两个判据对于识别定位头都是至关重要的。此外,贪婪选择方法显示出比固定方法更差的结果。虽然我们的判据可以识别出具有明显簇(apparent clusters)的注意力图,但它们不能确保这些簇是围绕文本语义形成的。因此,贪婪方法可能会选择那些已定位但与文本不相关(text-referred)的头。相比之下,我们的方法涉及统计分析(即选择频率)。这确保了定位头是真正与文本相关的,持续关注与文本相关的区域,而不是任意聚类的区域。(额外解释见附6)

Understanding LVLMs When They Fail

在这里,我们简要讨论定位头如何能帮助我们更好地理解 LVLM。具体来说,当 LVLM 未能将注意力定位到正确的物体(ground the correct object)时,定位头使我们能够识别它们的关注点在哪里。图 9 展示了一个模型未能预测正确物体(右边数第三根香蕉)的示例。如图 9 第一列所示,来自定位头的文本到图像注意力图同时关注了右边数第三根和第四根香蕉。这一观察表明 LVLM 在精确定位物体方面存在困难。这些发现显示了定位头在提供关于 LVLM 关注点的透明理解(可解释性)方面的潜力。

在这里插入图片描述

Conclusion

在这项工作中,我们通过特定的判据在各种大型视觉语言模型(LVLMs)中识别出“定位头”(localization heads)。这些定位头在响应文本查询时,展现出强大的视觉基准(visual grounding)能力。接着,我们提出了一个简单而有效的无需训练(training-free)框架,该框架整合来自少数几个定位头的文本到图像注意力图(text-to-image attention maps),用以预测图像中文本相关区域的边界框(bounding boxes)和分割掩码(segmentation masks)。我们的方法取得了与基于微调(fine-tuning based methods)的方法相媲美的性能。因此,我们得出结论:凭借其注意力机制下的固有特性,大型视觉语言模型可以作为视觉基准任务中的文本参照定位器(text-referring localizers)。我们希望我们的工作能为分析和利用大型视觉语言模型的注意力机制开辟新的可能性。

Limitations

我们提出了一个简单而有效的免训练视觉指代定位框架,该方法依赖于LVLM中的定位头(localization heads)。该框架能够在无需微调的前提下,根据文本查询在图像中成功定位目标对象,并在性能上显著优于现有的免训练方法。然而,我们的方法仍存在一些局限性,有待在后续研究中进一步改进。

在这里插入图片描述

首先,如图10所示,我们的方法展现了用于多目标指代定位的潜力。然而,目前在建立标准化处理流程或开发更高效、流畅的实现方式方面仍存在不足。如何让已识别的定位头在实际应用中更加高效、易用,并能适配多样化的任务场景,仍是一项重大挑战。这为未来的研究提供了一个富有前景的方向。

其次,我们的方法对那些无法保留图像空间信息的LVLM或处理方式(例如包含pooling操作的模型)适用性较差。这类方法会导致难以直接获取图像注意力图。为了提取注意力图,还需要通过反向推理计算图像token的输入顺序,这一过程较为复杂。因此,我们将这些方法的适配问题留待未来进一步探索。

Appendix

附1:模型早期层与其他层的运作方式不同指的是什么?

指的是模型在处理信息时,不同深度的层所扮演的角色和提取的特征类型有所区别。

简单来说,早期层更像是打地基和砌砖块,而深层则是在这个基础上构建出房子的整体结构和复杂功能。研究者如果想了解房子是如何设计的(比如文本和图像如何对应),他们可能更关心高层的设计图纸和结构,而不是每一块砖头的具体摆放方式。

模型主干就像一个提取特征的工厂的流水线,这个流水线有很多道工序,每一道工序都在原材料的基础上进行一些加工。

  • 早期层(Early Layers) - 基础加工和模式识别:

    • 对于文本: LLM 的早期层更倾向于学习一些基础的、局部的语言特征。比如,它们可能会识别单词的边界、词性(名词、动词)、简单的短语结构,或者关注词与词之间非常近的依赖关系。它们更像是学习语言的“基本笔画”和“偏旁部首”。
    • 对于图像(在 LVLM 中): 视觉部分的早期层(通常是卷积神经网络 CNN 或者 Vision Transformer 的浅层)会专注于提取低级视觉特征,比如边缘、角点、颜色、纹理等。就像我们看一张图片,最先注意到的是画面中的线条和色块。
    • 运作方式的不同点:
      • 感受野/关注范围更小: 早期层通常只关注输入数据中非常小的一部分。比如文本中的几个相邻单词,或者图像中的一小块区域。
      • 特征更通用、更局部: 提取的特征相对比较基础和通用,可以被后续层用来组合成更复杂的概念。
      • 注意力可能更分散或关注局部细节: 如果是基于 Transformer 的模型,早期层的注意力机制可能更倾向于关注局部上下文或者一些显式的模式。
  • 后续层/深层(Later/Deeper Layers) - 抽象概念和全局理解:

    • 对于文本: 随着层数的加深,LLM 会逐渐将早期层提取的基础特征组合起来,形成更抽象、更高级的语义概念。比如,它们能理解句子的整体含义、段落的主题、不同句子之间的逻辑关系(因果、对比等),甚至捕捉到一些微妙的情感或讽刺。它们更像是理解文章的“段落大意”和“中心思想”。
    • 对于图像(在 LVLM 中): 视觉部分的深层会整合低级特征,形成对物体部件、完整物体甚至场景的识别。比如,从边缘和纹理组合成“眼睛”、“鼻子”,再组合成“人脸”,最后理解整个场景是“一个在公园里微笑的人”。
    • 运作方式的不同点:
      • 感受野/关注范围更大: 深层能够整合来自输入数据更广泛区域的信息。
      • 特征更抽象、更全局、更具语义性: 提取的特征代表了更复杂的概念和关系。
      • 注意力可能更聚焦于关键信息或全局上下文: 深层的注意力机制可能更能识别出对整体理解至关重要的部分,并进行更全局的关联。

为什么作者要排除前两层?

论文中提到“LLM 的前两层在我们的分析中被一致排除,因为已知早期层与其他层的运作方式不同”。这通常是因为:

  • 早期层提取的特征可能过于基础,不直接反映高层语义交互: 如果研究的目的是理解文本描述如何与图像中的具体对象对应,那么早期层那些关于词性或者图像边缘的信息可能不是最关键的。研究者更关心的是模型如何将“一只猫”这个文本概念与图像中“猫”的视觉区域联系起来,这种联系更可能在深层形成。
  • 早期层的注意力模式可能更具通用性或噪声更多: 它们可能关注一些非常普遍的模式,或者由于信息尚未充分整合,其注意力权重可能没有深层那么具有针对性和解释性。
  • 提高分析的信噪比: 排除这些可能引入“干扰”或不直接相关信息的早期层,可以使得对后续层(这些层更可能负责复杂的对应关系)的分析更加清晰和聚焦。

附2:空间熵的理解

标准 2 的目标是什么?

在标准 1(注意力总和)中,研究者们筛选出了那些对整个图像“投入了足够注意力”的注意力头。但是,仅仅投入了足够的注意力还不够。一个好的“定位头”不仅要关注图像,更重要的是,它的注意力要准确地、集中地聚焦在图像中的具体物体上,而不是漫无目的地分散开来。

“标准 2:空间熵”就是用来衡量这种注意力的集中程度或聚焦程度的。

核心思想:空间熵与注意力的集中度

  • 低空间熵:意味着注意力非常集中,像激光笔一样准确地打在一个或少数几个区域。这正是研究者想要的,因为它表明这个注意力头很可能聚焦在了某个具体的物体上。
  • 高空间熵:意味着注意力非常分散,像泛光灯一样均匀地洒在图像的各个角落。这种情况说明注意力头并没有特别关注某个物体。

如何计算空间熵(步骤分解):

想象我们有一个注意力头,它已经对图像的各个小区块(之前提到的 P 2 P^2 P2 个图像标记)给出了注意力分数。

  1. “首先,我们将注意力权重 a ℓ , h [ 1 : P 2 ] a^{\ell,h}[1:P^2] a,h[1:P2] 重塑为一个 P × P P \times P P×P 的注意力图 A ℓ , h A^{\ell,h} A,h

    • 之前我们知道,图像被分成了 P × P P \times P P×P 个小区块。这个注意力头的权重 a ℓ , h [ 1 : P 2 ] a^{\ell,h}[1:P^2] a,h[1:P2] 实际上是一个包含 P 2 P^2 P2 个数值的列表,每个数值对应一个小区块的注意力得分。
    • 重塑:就是把这个一维的列表重新排列成一个 P × P P \times P P×P 的二维网格(像棋盘一样)。这样,这个网格就直观地显示了注意力在图像空间上的分布情况,就像一张“注意力热力图”。哪个区块的注意力得分高,在图上对应的位置就“热”(颜色深)。
  2. “通过将高于均值的元素赋值为 1,低于均值的元素赋值为 0,对注意力图进行二值化处理”

    • 二值化:简单说,就是把注意力图变成一张只有黑白两种颜色的图。
    • 计算所有 P × P P \times P P×P 个区块注意力得分的平均值
    • 如果某个区块的注意力得分高于平均值,就认为这个区块是“被重点关注的”,在二值化图上把它标记为 1(比如白色)。
    • 如果得分低于平均值,就标记为 0(比如黑色)。
    • 这样做的目的是突出那些注意力比较集中的区域,忽略那些注意力不那么强的区域。
  3. “接下来,我们识别连通分量 C i C_i Ci,定义为通过 8-邻域连接的一组坐标”

    • 连通分量 C i C_i Ci:在上面得到的黑白(0和1)注意力图中,所有值为 “1” 且互相连接(上下左右以及对角线方向都算连接,即“8-邻域”)的区块会形成一片或几片区域。每一片这样的连续区域就叫做一个“连通分量”(就是那些注意力高于平均值的区块)。
  4. “然后,对于 N N N 个连通分量集合 { C i } i = 1 N \{C_i\}_{i=1}^N {Ci}i=1N,空间熵 H H H 计算如下:
    H ( A ℓ , h ) = − ∑ i = 1 N P ( C i ) log ⁡ P ( C i ) H(A^{\ell,h}) = - \sum_{i=1}^{N} P(C_i) \log P(C_i) H(A,h)=i=1NP(Ci)logP(Ci)

    • N N N:表示我们总共找到了多少个独立的“注意力集中区域”(连通分量)。
    • P ( C i ) = ∣ C i ∣ / ∑ j = 1 N ∣ C j ∣ P(C_i) = |C_i| / \sum_{j=1}^{N} |C_j| P(Ci)=Ci∣/j=1NCj
      • ∣ C i ∣ |C_i| Ci:表示第 i i i 个连通分量(注意力集中区域)的大小,也就是它包含了多少个值为 “1” 的小区块。
      • ∑ j = 1 N ∣ C j ∣ \sum_{j=1}^{N} |C_j| j=1NCj:表示所有连通分量的总大小,即所有值为 “1” 的小区块的总数。
      • 所以, P ( C i ) P(C_i) P(Ci) 就是第 i i i 个注意力集中区域占所有被关注区域总面积的比例
    • 熵的计算公式 H = − ∑ P log ⁡ P H = - \sum P \log P H=PlogP
      • 这是一个信息论中常用的公式,用来衡量一个系统的“混乱程度”或“不确定性”。
      • 如果注意力非常集中:比如,只有一个非常大的连通分量 ( N = 1 N=1 N=1, P ( C 1 ) = 1 P(C_1)=1 P(C1)=1),那么此时 H = − 1 × log ⁡ ( 1 ) = 0 H = -1 \times \log(1) = 0 H=1×log(1)=0。熵为 0,表示非常有序,注意力高度集中。
      • 如果注意力非常分散:比如,有很多个大小相似的小连通分量,那么 P ( C i ) P(C_i) P(Ci) 的值会比较平均,计算出来的熵 H H H 就会比较大。熵越大,表示越混乱,注意力越分散。

结论: “因此,如果一个注意力图 A ℓ , h A^{\ell,h} A,h 表现出低空间熵,则认为它是有效定位的。”

  • 这意味着,如果计算出来的空间熵值很小,就说明这个注意力头的注意力大部分都集中在少数几个大的、连续的区域(理想情况下是物体所在的区域),而不是零散地分布在图像的各个角落。这样的注意力头就被认为是“有效定位”的,因为它能很好地“圈出”图像中的物体。

  • 低空间熵:就像你把手电筒的光束调得很窄,非常准确地照在你认为物体可能在的一小块区域。这时,你的“注意力”(光束)非常集中。

  • 高空间熵:就像你把手电筒的光束调得很散,光线均匀地铺满了整个房间,但每个地方的光都不是很强。这时,你的“注意力”非常分散,没有重点。

研究者们就是想找到那些像“窄光束手电筒”一样,能够把注意力高度集中在物体上的注意力头。空间熵就是帮他们量化这种“集中程度”的工具。

附3:作者如何证明 排名更高的头在捕获与文本相关的对象 方面更有效

核心思想概括: 研究人员提出,注意力头持续表现出低空间熵(从而获得高“选择频率”)是一个有效的标准,可以用来识别那些在视觉定位任务中表现更优异(即具有更高 IoU)的注意力头。 通过系统地评估,他们证明了依据“选择频率”排名靠前的头确实更擅长将文本信息与图像中的具体对象区域联系起来。这些被成功筛选和验证的头,就被定义为“定位头”,并被认为是模型中实现细粒度图文理解的关键组件。

核心目标:识别并验证“定位头”(Localization Heads)

这部分研究的核心目标是找到一种方法来识别多模态大模型(如 LLaVA)中的特定注意力头,这些头特别擅长将文本描述与图像中的相应对象区域准确地对应起来(即“定位”)。这些被识别出来的头被称为“定位头”。

证明“排名更高的头在捕获与文本相关的对象方面更有效”的核心逻辑步骤:

  1. 定义“好”的注意力头的标准(如何排名):选择频率 (Selection Frequency)

    • 前提假设:一个注意力头如果其注意力在多个不同样本上始终保持“集中”(即空间熵低),而不是散乱无章,那么它更有可能是一个重要的、负责特定功能的头。
    • 计算方法
      • 考察大量图文对样本。
      • 对于每个注意力头,计算它在这些样本中表现出“低空间熵”(具体来说是前10低的)的频率
      • 这个频率就是“选择频率”(Selection Frequency)。如图 Figure 6(a) 所示,不同的头具有不同的选择频率。
    • 排名依据选择频率越高的头,其“真实排名”就越高。这意味着它更符合“注意力集中”这一标准。
  2. 定义衡量“捕获与文本相关对象效果”的指标:交并比 (IoU)

    • 目的:客观地评价一个注意力头定位文本描述对象的准确度。
    • 计算方法
      • 从注意力头的注意力图中生成“伪掩码”(pseudo-mask),代表该头关注的区域。
      • 将其与人工标注的“真实对象掩码”(ground truth mask)进行比较。
      • 计算两者之间的“交并比”(IoU)。IoU 越高,说明定位越准确。
  3. 建立“标准”与“效果指标”之间的联系,并进行验证:

    • 核心论证:如果按照“选择频率”这一标准筛选出来的排名靠前的头,其在“IoU”这一效果指标上也普遍表现更好,那么就证明了这个筛选标准的有效性,并且这些头确实是“定位头”。
    • Figure 6(b) 的作用
      • 横坐标 (Ranks of Head Index):这不是直接的“真实排名”,而是“排名索引”。关键点:排名索引值越小,代表其“选择频率”越高,因此其“真实排名”越靠前(越好)。例如,排名第1的头,其索引值最小。
      • 纵坐标 (IoU):对应注意力头的 IoU 值。
      • 视觉趋势:散点图清晰地显示,随着横坐标“排名索引”的增大(即“真实排名”变差,选择频率降低),纵坐标的 IoU 值整体呈下降趋势。反过来说,“排名索引”越小(即“真实排名”越高,选择频率越高),IoU 值越高。
      • 斯皮尔曼相关系数 (ρ):图注和之前文本提到,选择频率和 IoU 之间存在强正相关(ρ > 0.7,且 p < 0.001)。这意味着:
        • 当“选择频率”增加时,“IoU”也倾向于增加。
        • 由于“高选择频率”等同于“高真实排名”(以及“小排名索引值”),这与散点图的视觉趋势是完全一致的。高选择频率(好排名) → 高 IoU(好效果)
        • 统计显著性 (p < 0.001) 表明这种正相关关系是可靠的,不是偶然现象。

附4:高斯平滑处理 (Gaussian Smoothing)

高斯平滑,也称为高斯模糊,是一种在图像处理中广泛使用的技术,主要目的是减少图像噪声并平滑图像细节

  • “平滑”的含义:想象一下,你有一张有很多噪点(比如随机的亮点或暗点)的图片。平滑处理就像是用一块柔软的布轻轻擦拭这张图片,使得那些突兀的噪点变得不那么明显,图像整体看起来更柔和、更“平滑”。
  • “高斯”的含义:这个名字来源于它使用的数学工具——高斯函数(也就是我们常说的正态分布曲线,那个像钟一样的形状)。在进行高斯平滑时,图像中的每个像素点的新值,是由它本身和其邻域内其他像素点的值加权平均得到的。这个“权重”就是由高斯函数决定的。它的 核心思想 是:离中心像素点越近的邻域像素,其权重越大(对新像素值的影响越大);离中心像素点越远的像素,其权重越小。这很符合直觉,因为一个像素和它紧挨着的像素关系更密切。
  • 过程:可以想象有一个“高斯核”(一个小小的权重矩阵,里面的数值根据高斯函数分布)。这个核在图像上从左到右、从上到下滑动。每到一个位置,核中心的像素点的新值就通过核与对应图像区域的像素值进行加权计算得到。

为什么可以保留详细的定位信息,同时最大限度地减少潜在的随机噪声?

这看起来似乎有些矛盾:平滑会模糊图像,怎么还能保留详细信息呢?这里的关键在于理解它处理的是什么类型的“噪声”和什么类型的“定位信息”,以及高斯平滑自身的特性。

  • 最大限度地减少潜在的随机噪声

    • 噪声的特点:在注意力图中,随机噪声可能表现为一些孤立的、强度异常的像素点,或者是一些微小的不规则波动。这些点可能并不是模型真正关注的区域,而是计算过程中产生的干扰。
    • 高斯平滑的作用:由于高斯平滑是对邻域像素进行加权平均,那些孤立的噪声点(其值与周围像素差异较大)在平均过程中其影响会被显著削弱。周围“正常”像素的值会中和掉这个噪声点的突兀值,从而使包含噪声的区域变得更平滑,噪声强度降低。
  • 保留详细的定位信息

    • 定位信息的特点:在视觉定位任务中,“详细的定位信息”通常指的是注意力图中主要的、连贯的、高响应区域的整体形状、中心和大致边界。这块区域代表了模型认为与文本描述相对应的物体所在位置。它通常不是指那些极其精细的边缘或者微小的内部结构,而是指能够区分出目标物体轮廓和位置的宏观特征。
    • 高斯平滑如何帮助保留
      1. 增强主导区域:注意力图中的“信号”(即模型真正关注的区域)通常表现为一个或几个连贯的、强度较高的区域(可以看作是“注意力团块”)。高斯平滑可以使这些“团块”内部更加平滑均匀,填补一些可能由噪声造成的小空洞,使得这个主要的关注区域更加凸显和连贯
      2. 权重特性:高斯函数的平滑过渡特性意味着它不会像某些锐利的滤波器那样产生突兀的边缘或伪影。它在平滑噪声的同时,对于大块的、强度变化相对平缓的“信号区域”,其形状和中心位置的改变相对较小。因为信号区域的像素值本身就比较接近,加权平均后变动不大。
      3. 尺度控制:高斯平滑的程度可以通过调整高斯核的大小(或者说高斯函数的标准差σ)来控制。如果选择合适的平滑尺度,就可以在有效抑制高频噪声(通常是小尺度、随机的)的同时,较好地保留低频信号(通常是较大尺度、代表物体主要区域的注意力团块)。论文中提到他们做了“消融研究”(ablation study on Gaussian smoothing),这通常意味着他们实验了不同的平滑参数,以找到最佳平衡点。
      4. 后续处理的需要:平滑后的注意力图通常更适合进行后续的二值化处理(转为黑白图,即伪掩码)。一个更平滑、噪声更少的注意力图可以产生更清晰、更少孤立小块的伪掩码,从而更容易提取准确的边界框。

高斯平滑确实会造成一定程度的模糊,绝对意义上的“所有细节”是不可能完全保留的。但是,在视觉定位这个特定任务的上下文中:

  • 它去除的主要是那些干扰定位判断的随机高频噪声
  • 它“保留”的是对定位任务更重要的宏观结构信息——即注意力焦点的整体位置、形状和范围。
  • 通过适当选择平滑参数,可以在“去噪”和“保留有用信号”之间取得一个较好的平衡。其目的是让代表真实物体位置的“信号”从“噪声”中更清晰地显现出来,即便信号的边缘可能略微模糊了一点。

因此,这里的“保留详细的定位信息”是相对而言的,指的是相对于噪声被去除后,主要的、对定位有意义的注意力分布特征得到了保持和增强,使得后续的掩码生成和边界框提取更加鲁棒和准确。

附5:UNC Split

在指代表达理解 (REC) 和指代表达分割 (RES) 领域中,当提到数据集(如 RefCOCO, RefCOCO+, RefCOCOg)使用 UNC split 时,它指的是一种特定的数据划分方式。

  • UNC 指的是 University of North Carolina (北卡罗来纳大学)。这意味着这种数据划分是由北卡罗来纳大学的研究人员提出的或被他们广泛采用的。
  • Split (切分方式):在机器学习和计算机视觉任务中,为了评估模型的性能,通常会将数据集划分为不同的子集:
    • 训练集 (training set):用于训练模型。
    • 验证集 (validation set):用于在训练过程中调整超参数和进行模型选择。
    • 测试集 (test set):用于对训练好的模型进行最终的性能评估,这个集合是模型在训练过程中从未见过的。

UNC split 的核心特点在于,它通常是以“图像 (image)”为单位进行划分的。 这意味着一张图像要么完全在训练集,要么完全在验证集,要么完全在测试集。

这与另一种常见的划分方式(如 Google splitUMD split,尤其在 RefCOCOg 数据集中常见)形成对比。在 Google split 中,可能会以“对象 (object)”为单位进行划分,导致同一张图像可能同时出现在训练集和验证集中,但其中引用的对象会是不同的。

为什么存在不同的划分方式?

不同的数据划分方式会影响模型的评估结果。采用图像级别的划分(如 UNC split)通常被认为是更严格的,因为它确保了模型在测试时不会看到任何与训练或验证图像相关的上下文信息。这有助于更准确地评估模型对全新图像的泛化能力。

附6:比较两种筛选“定位头”(localization heads)的方法

一种是比较简单直接的“贪婪选择方法”,另一种是作者团队提出的、更优的“固定方法”(因为它基于更稳定的统计分析)。

“虽然我们的判据可以识别出具有明显簇(apparent clusters)的注意力图,但它们不能确保这些簇是围绕文本语义形成的。”

  • 注意力图 (Attention Maps): 显示了模型在处理信息时关注了哪些区域。
  • 明显簇 (Apparent Clusters): 指的是注意力图上出现的一些看起来注意力很集中的区域。这两个判据(标准)能够找到这些集中区域。
  • 文本语义 (Text Semantics): 指的是与输入文本(比如图片描述)相关的实际意义和内容。
  • 问题所在: 即使一个定位头产生的注意力图显示出一些集中的“簇”,这些“簇”也不一定真的与文本描述的内容相关。例如,一张图片里有“一只红色的猫在绿色的草地上”,注意力“簇”可能集中在猫身上,也可能集中在草地上,甚至可能集中在某个特别显眼的、但与描述无关的背景物体上(比如一个色彩鲜艳的垃圾桶)。这些判据本身只能识别出“有集中的地方”,但不能保证这个集中的地方就是文本所指的“红色的猫”。

“因此,贪婪方法可能会选择那些已定位但与文本不相关(text-referred)的头。”

  • 已定位 (Localized): 指的是定位头确实在图像的某个区域产生了集中的注意力(形成了“簇”)。
  • 与文本不相关 (Not text-referred): 指的是这个集中的区域与当前任务要求的文本内容(比如图片描述中的核心对象)没有关联。
  • 贪婪方法的缺陷: 因为贪婪方法可能只看到“哦,这里有个明显的注意力簇,选它!”,而没有进一步深究这个簇是否真的对应文本描述的核心内容。所以,它可能会选出一些看似在工作(找到了集中点)但实际上“跑题”了的定位头。

“相比之下,我们的方法涉及统计分析(即选择频率)。”

  • 作者的方法(固定方法)的优势: 它不只是看单个样本上的表现,而是引入了“统计分析”。
  • 选择频率 (Selection Frequency): 这是一个关键。可以理解为,作者的方法会观察在大量不同的样本中,哪些定位头能够持续地、高频率地将注意力正确地集中在与文本相关的区域。

“这确保了定位头是真正与文本相关的,持续关注与文本相关的区域,而不是任意聚类的区域。”

  • 真正与文本相关 (Genuinely text-referred): 通过统计分析和高频选择,作者的方法能够筛选出那些“真材实料”的定位头,它们不仅能形成注意力簇,而且这些簇确实是围绕文本语义形成的。
  • 持续关注与文本相关的区域: 这些好的定位头表现稳定,在各种情况下都能正确找到与文本对应的区域。
  • 任意聚类的区域 (Arbitrarily clustered areas): 避免了选择那些只是碰巧在某些样本上形成了注意力簇,但这些簇没有实际意义或与文本无关的区域。

总结一下这段话的逻辑:

  • 要识别好的“定位头”,需要两个关键标准(判据)。
  • 简单的“贪婪选择”方法虽然能找到注意力集中的区域(簇),但这些区域可能和文本描述的重点无关(比如让模型找“猫”,它却总盯着“颜色鲜艳的沙发垫”)。
  • 作者提出的“固定方法”更聪明,它通过统计分析(看哪些定位头在很多情况下都表现良好,即“选择频率”高),确保选出来的定位头是真的理解了文本意思,能持续稳定地关注文本所指的关键区域,而不是随便找个显眼的地方凑数。

附7:Directions for improvement

多目标定位潜力与标准化流程的缺乏

论文中提到,他们的方法展示了在处理“多目标指代定位”(比如一句话里提到好几个物体,模型要把它们都找出来)方面的潜力(如图10所示的例子)。然而,目前对于如何系统性地、高效地处理多目标场景,还没有形成一个标准化的处理流程(formalized pipeline)或者开发出更精简、更流畅的实现方式(streamlined implementation)。这意味着,虽然理论上有可能,但实际操作起来可能还不够完善或者效率不高。

定位头的实际应用挑战

这是作者特别强调的一点:“如何让已识别的定位头在实际应用中更加高效、易用,并能适配多样化的任务场景,仍是一项重大挑战”。

具体来说:

  • 高效性 (Practical/Efficient):虽然找到了有用的定位头,但如何让它们在真实应用中快速、低成本地工作。
  • 易用性 (User-friendly):如何让这些定位头更容易被其他开发者或研究者理解、调用和集成到不同的系统或应用中。
  • 适配性 (Adaptable):如何让这些定位头不仅仅在论文的实验场景下有效,更能广泛适用于各种不同类型的视觉指代任务和真实世界的复杂场景。

作者认为,将这些有潜力但尚显粗糙的“定位头”打磨成真正能在多种应用中稳定发挥作用的工具,还有很多工作要做,这也是未来一个很有价值的研究方向。

不适用于“无法保留图像空间信息”的模型

作者指出,“我们的方法对那些无法保留图像空间信息的LVLM或处理方式(例如包含pooling操作的模型)适用性较差”。

  • 空间信息的重要性:该论文的方法依赖于从LVLM的注意力头中提取“注意力图”(attention maps)来定位物体。这些注意力图反映了模型对图像不同区域的关注程度,而关注度和空间位置是紧密相关的。
  • Pooling(池化)等操作的问题:在一些模型结构中,像“池化”(pooling)这样的操作会压缩特征图的尺寸,从而可能导致图像中物体精确的空间位置信息丢失或变得模糊。
  • 结果:如果一个LVLM在处理图像时就已经把精确的空间信息给弄丢了,那么作者的方法就很难从中提取出有用的、能够精确指向物体的注意力图,自然也就影响了定位效果。
获取注意力图的困难

对于这类不保留空间信息的模型,要想明确地获得它们在图像上的注意力分布本身就很困难。即使尝试去获取,也可能需要“通过反向推理计算图像token的输入顺序”。这通常是一个复杂的过程,意味着需要额外复杂的步骤来重建或推断这种空间对应关系。

未来探索

因此,如何让他们的框架也能很好地适配这些类型的模型,作者将其作为未来待探索的工作。


网站公告

今日签到

点亮在社区的每一天
去签到