摘要
https://arxiv.org/pdf/2507.22264v1
对比语言-图像预训练(Contrastive Language-Image Pre-training,CLIP)[37]已成为计算机视觉和多模态学习中的关键模型,通过对比学习实现了视觉和文本表示对齐方面的最优性能。然而,CLIP在许多图像-文本数据集中存在潜在的信息不对齐问题,并且存在表示纠缠的情况。一方面,像MSCOCO这类数据集中,单个图像的简短描述可能仅涵盖图像中互不重叠的区域,导致模型不确定应保留或忽略哪些视觉特征。另一方面,直接将长描述与图像对齐可能会导致保留纠缠的细节,使模型无法学习到非纠缠的原子概念,最终限制了其在某些涉及简短提示的下游任务上的泛化能力。在本文中,我们建立了理论条件,使得文本和视觉表示能够在不同粒度级别上实现灵活对齐。具体而言,我们的框架确保模型不仅能够完整保留跨模态语义信息,还能对视觉表示进行解耦,以捕捉细粒度的文本概念。在此基础上,我们提出了SmartCLIP,这是一种新颖的方法,能够以模块化的方式识别并对齐最相关的视觉和文本表示。在各种任务上的卓越性能证明了其处理信息不对齐问题的能力,并支持了我们的识别理论。代码可在https://github.com/MidPush/SmartCLIP获取。
1 引言
对比语言-图像预训练(CLIP)[37]一直是许多计算机视觉和机器学习任务的基石,例如文本到图像的检索[2]、图像和视频理解[6, 16, 39, 42, 46, 58]以及生成模型[28,38,40]。它利用对比学习损失[8, 35]对齐不同模态的表示。具体而言,数据集中的每个图像-描述对都被视为正样本对,而负样本对则是通过将图像与从数据集中随机抽取的描述进行匹配而创建的。图像和文本编码器采用对称交叉熵损失进行训练,该损失将每个正样本对中的图像和文本表示拉近,同时将负样本对的表示拉开。
训练CLIP需要大量的图像-文本对,因此在大规模数据集中保持数据集质量颇具挑战性。特别是,文本描述的质量一直是关键问题,促使人们开发了各种方法来提高文本描述的多样性和准确性。ALIGN [15]表明,扩大数据集规模可以弥补文本监督中的噪声问题。BLIP模型[23,24]通过引入额外的描述生成和筛选机制来改进描述。VE-CLIP [21]提出了一种视觉丰富的描述生成方法,以进一步提高描述质量。同样,LaCLIP [10]利用语言模型重写描述,而RecapCLIP [25]则使用LLaMA-3[29]为13亿张图像生成描述。尽管做出了这些努力,但近期的研究发现,更长且看似质量更高的描述并不一定能在许多下游任务上带来更好的性能[20]。Li等人[25]发现,当用更长的描述替换原始描述时,Flickr30K上的文本到图像检索准确率从84.2降至74.1。
导致观察到的性能下降的一个关键问题是图像与其描述之间的信息不对齐,当单个图像与多个描述配对时,这一问题更加突出。一方面,一个图像可能与多个描述配对,每个描述仅捕捉图像的局部方面。在图1中,将图像与第一个描述“一只非常可爱的拿着笔的泰迪熊”对齐,可能会迫使模型忽略其他重要概念,如“椅子”和“纸”,而这些概念是与其他粉色文本框中的第二和第三个描述对齐所必需的。这种图像和文本之间的不对齐会在标准的CLIP训练过程中引入冲突,导致关键视觉概念的丢失。
另一方面,如近期的一些方法[10, 21,25]所示,使用长而详细的描述训练CLIP会鼓励模型学习单个描述中捆绑在一起的多个概念的纠缠表示。因此,从CLIP的视觉表示中明确提取以对象/概念为中心的表示仍然具有挑战性。对于需要单个原子概念或其新颖组合的任务而言,这种纠缠尤其成问题,正如在短文本到图像检索任务[54]中通过实证观察到的那样。在图1中,ShareGPT4V [7]生成的长描述包含了“椅子”“笔”“花”和“地板”等详尽的概念集合。这种聚合可能会阻碍模型在需要单独理解每个概念的任务上的性能。
在本文中,我们提出了一种针对CLIP[37]等视觉-语言模型的表示对齐的改进方法。我们将对齐挑战视为一个潜在变量识别问题,并建立了理论条件,使得文本和视觉表示能够在不同粒度级别上实现灵活对齐。我们的框架使模型能够在保留完整跨模态信息的同时,对表示进行解耦以捕捉细粒度概念,从而有效解决了前文讨论的信息不对齐和解纠缠问题。
基于这些理论见解,我们提出了SmartCLIP,这是一种新颖的方法,能够以模块化的方式识别并对齐视觉和文本概念。具体而言,我们设计了一个掩码网络,该网络从完整表示中选择一个子集维度,这些维度仅对应于每个特定描述中存在的概念。这使得模型能够在最相关的概念模块上执行文本-图像对齐,而不是在整个表示上进行对齐。我们通过实证证明,SmartCLIP在一系列下游任务上的性能优于最先进的模型,展示了其在解决对齐挑战方面的有效性。特别是,SmartCLIP在各种文本长度的检索任务上显著提高了性能,在ShareGPT4V长文本到图像检索任务上,准确率从78.2%提升至98.7%,同时将短文本到图像检索的R1指标从56.1%提升至66.0%。
我们的主要贡献总结如下
- i 我们指出了CLIP框架中信息不对齐和表示纠缠的关键问题。为了克服这些挑战,我们提出了一种潜在变量公式,并建立了确保潜在变量恢复的理论条件。
- ii 基于我们的理论发现,我们提出了SmartCLIP,其具有自适应掩码和模块化对比学习目标,有助于学习解耦的模块化表示。
- iii 我们在各种任务上进行了广泛实验,包括长文本和短文本到图像的检索、零样本分类以及文本到图像的生成。SmartCLIP在这些基准测试中始终优于或与最先进的模型相当,证明了其有效性并验证了我们的理论贡献。
2 相关工作
视觉语言模型。CLIP[37]的突破引起了学界的广泛关注。SLIP[33]和DECLIP[26]提出引入自监督学习技术来改进所学习的表示。除了对比学习分支外,Coca[51]还引入了解码器。LiT[52]锁定图像编码器,仅对文本编码器进行微调。SigLIP[53]采用简单的sigmoid损失来处理大规模训练批次。LoTLIP[48]在分类标记后插入角标记,以支持长文本理解。TULIP[34]用相对位置嵌入替换绝对位置嵌入,以支持更长的文本理解。ALIGN[15]表明,增加数据集规模可以减轻噪声文本监督的影响。近期的方法侧重于生成更好的字幕[20, 21, 23–25, 59]。CLIP-MOE[56]将专家混合(mixtureOf-experts)引入CLIP。LLM2CLIP[12]用大型语言模型增强CLIP。LongCLIP[54]将CLIP的标记约束从77扩展到248,并应用主成分分析(PCA)进行短文本到图像的对比学习,以保留其短文本能力。Llip[22]通过将一组可学习的标记与交叉注意力模块混合,学习与文本相关的视觉表示。相比之下,SmartCLIP通过掩码直接学习编码所有可分离、可解释概念的单一全局表示。
潜在变量识别。从低级观测数据(如图像和文本)中学习高级语义信息通常可表述为潜在变量识别问题。尽管这类任务颇具吸引力,但同时也伴随着相当大的困难,尤其是对于涉及非线性生成函数的复杂现实世界数据分布而言。近期,大量论文[1, 5, 9, 11,14, 17,31, 32, 41, 44,49,55,57]提出利用辅助信息(如时间信息、多领域和多视图/模态)来克服这些障碍。与我们的工作特别相关的是那些利用成对多视图数据来识别可用视图之间共享信息的研究[9, 11, 31, 32,43, 4]。近期的研究[11,31,32]依赖于特定形式的潜在变量分布(如独立性或指数族)。这些约束限制了它们在涉及潜在变量之间复杂交互的分布上的适用性。先前的研究[9, 43]对底层分布采用了更灵活的假设,并直接识别由数据增强产生的两个视图共享的潜在变量块,并将其扩展到多视图设置[49]。本研究的问题可视为这种多视图设置的一种形式,其中成对的图像和文本字幕被视为共享语义潜在变量的视图。现有研究[9, 43, 49]假设视图在所有数据对上进行分组,并且这种分组信息是已知的,以便可以为每个视图组学习指定的编码器。然而,对于我们的问题,这种视图分组信息是无法获取的——对于不同图像的任意两个文本字幕,我们无法判断它们是否属于同一视图组。在理论部分,我们将表明,通过合理利用数据生成过程,我们可以直接学习此类信息,并进一步实现所需的识别结果,从而推广现有的多视图潜在变量识别结果。
3 问题阐述
如前所述,我们的目标是1)保留跨模态共享的所有语义信息,以及2)学习与不同粒度级别的文本概念相对应的可分离表示。为此,我们提出了视觉语言数据分布背后的以下数据生成过程。
符号表示。我们用d(⋅)d(\cdot)d(⋅)表示向量的维度1。我们用[z]B[\mathbf{z}]_{\mathcal{B}}[z]B表示向量z\mathbf{z}z的一个维度子集,其中B\mathcal{B}B为索引集。我们定义向量m\mathbf{m}m中对应值不为零的索引集为
B(m):={i∈d(m):[m]i≠0}\mathcal{B}(\mathbf{m}):=\{i\in d(\mathbf{m}):[\mathbf{m}]_{i}\neq0\}B(m):={i∈d(m):[m]i=0}
数据生成过程。我们在图2和式(1)中描述了数据生成过程。
zT:=zI⊙m;i:=gI(zI,ϵI);t:=gT(zT,ϵT).\mathbf{z}_{\mathrm{T}}:=\mathbf{z}_{\mathrm{I}}\odot\mathbf{m};\mathbf{i}:=g_{\mathrm{I}}(\mathbf{z}_{\mathrm{I}},\boldsymbol{\epsilon}_{\mathrm{I}});\mathbf{t}:=g_{\mathrm{T}}(\mathbf{z}_{\mathrm{T}},\boldsymbol{\epsilon}_{\mathrm{T}}).zT:=zI⊙m;i:=gI(zI,ϵI);t:=gT(zT,ϵT).
我们假设每对图像i∈I⊂Rd(i)\mathbf{i}\in\mathcal{I}\subset\mathbb{R}^{d(\mathbf{i})}i∈I⊂Rd(i)和文本字幕t∈T⊂Rˉd(t)\mathbf{t}\in\mathcal{T}\subset\bar{\mathbb{R}}^{d(\mathbf{t})}t∈T⊂Rˉd(t)均源自语义信息zI∈ZI⊂Rd(zI)\mathbf{z}_{\mathrm{I}}\in\mathcal{Z}_{\mathrm{I}}\subset\mathbb{R}^{d(\mathbf{z}_{\mathrm{I}})}zI∈ZI⊂Rd(zI),以及模态特定变化ϵI\epsilon_{\mathrm{I}}ϵI和ϵT\mathbf{\epsilon}_{\mathrm{T}}ϵT(例如,图像的照明条件、文本的时态),分别通过生成函数gI:(zI,ϵI)↦i˙g_{\mathrm{I}}:(\mathbf{z}_{\mathrm{I}},\mathbf{\epsilon}_{\mathrm{I}})\mapsto\mathbf{\dot{i}}gI:(zI,ϵI)↦i˙和gT:(zT,ϵT)↦g_{\mathrm{T}}:(\mathbf{z}_{\mathrm{T}},\boldsymbol{\epsilon}_{\mathrm{T}})\mapstogT:(zT,ϵT)↦ t生成。我们将文本字幕视为连续变量,因为实际上每个单词都可以用连续的词嵌入向量表示[3, 30]。
如图1所示,同一图像的文本字幕通常传达整个图像语义的部分信息。因此,我们将每个文本字幕的表示zT:=m⊙zI\mathbf{z}_{\mathrm{T}}:=\textbf{m}\odot\mathbf{z}_{\mathrm{I}}zT:=m⊙zI与一个二进制随机掩码m∈M⊂{0,1}d(zI)\mathbf{m}\in\mathcal{M}\subset\{0,1\}^{d(\mathbf{z}_{\mathrm{I}})}m∈M⊂{0,1}d(zI)相关联,该掩码消除了特定字幕t\mathbf{t}t中不存在的信息。
目标。我们的两个目标可形式化如下。
a. 保留跨模态信息:识别完整的潜在表示zI\mathbf{z}_{\mathrm{I}}zI。
b. 分离概念:识别与给定文本描述t\mathbf{t}t在不同粒度级别上相关联的概念zT\mathbf{z}_{\mathrm{T}}zT,这些概念在训练期间可能未曾出现。
示例。在图1中,图像i\mathbf{i}i包含“熊”、“椅子”和“笔”等概念,我们假设这些概念对应于表示zI\mathbf{z}_{\mathrm{I}}zI中的三个分量,即[zI]1[\mathbf{z}_{\mathrm{I}}]_{1}[zI]1、[zI]2[\mathbf{z}_{\mathrm{I}}]_{2}[zI]2和[zI]3\mathbf{\left[z_{\mathrm{{I}}}\right]}_{3}[zI]3。前两个COCO字幕t(1)\mathbf{t}^{(1)}t(1)和t(2)\mathbf{t}^{(2)}t(2)仅提及这些概念的一个子集,即(“熊”、“笔”)和(“熊”、“椅子”)。因此,这些字幕的掩码分别为m(1)=[1,0,1]\mathbf{m}^{(1)} = [1, 0, 1]m(1)=[1,0,1]和m(2)=[1,1,0]\mathbf{m}^{(2)}=[1,1,0]m(2)=[1,1,0]。变量ϵI\epsilon_{\mathrm{I}}ϵI和ϵT\epsilon_{\mathrm{T}}ϵT表示模态特定的细微差别因素,如图像i\mathbf{i}i中的照明条件和文本t\mathbf{t}t中的句法。对于目标a,我们力求保留完整信息zI\mathbf{z}_{\mathrm{I}}zI。这包括保留字幕中存在的所有相关文本概念,即从字幕tˉ(1)\bar{\mathbf{t}}^{(1)}tˉ(1)和t(2)\mathbf{t}^{(2)}t(2)中提取的“熊”、“椅子”和“笔”。对于目标b,我们打算将表示zI\mathbf{z}_{\mathrm{I}}zI分解为训练中可能未曾出现的更细粒度的概念块。这包括识别单个概念,如维度[zI]I\left[\mathbf{z}_{\mathrm{I}}\right]_{\mathrm{I}}[zI]I 1中的“熊”,即使训练字幕仅将“熊”与其他概念组合提及。
4 识别理论
在本节中,我们给出针对目标a和目标b的理论成果。我们表明,在合适的学习目标(2)下,学习到的变量(z^I,z^T)(\hat{\mathbf{z}}_{\mathrm{I}},\hat{\mathbf{z}}_{\mathrm{T}})(z^I,z^T) 可在特定等价类下与相应的真实量(zI,zT)(\mathbf{z}_{\mathrm{I}},\mathbf{z}_{\mathrm{T}})(zI,zT) 识别出来。尤其在本研究中,我们全程采用分块可识别性[18, 19, 43, 49]。由于通常是多个维度共同(即一个块)构成一个有意义的概念,而单个维度可能无法解释,所以这足以满足我们的目的。
定义4.1(分块可识别性)。若真实变量v\mathbf{v}v与其估计量v^\hat{\mathbf{v}}v^ 通过可逆映射v↦v^\mathbf{v}\mapsto{\hat{\mathbf{v}}}v↦v^ 相关联,则称真实变量v\mathbf{v}v是分块可识别的。
学习目标。我们的估计模型由视觉/文本编码器(fI,fT)(f_{\mathrm{I}},f_{\mathrm{T}})(fI,fT) (平滑、可逆函数)以及一个掩码函数m:T→Mm:\mathcal{T}\rightarrow\mathcal{M}m:T→M组成,该掩码函数用于估计给定文本描述t\mathbf{t}t 背后的真实掩码m\mathbf{m}m。
argminfI,fT,m^∥m^(t)∥0,subjectto:argmin⏟fI,fT,m^∥fI(i)⊙m^(t)−fT(t)∥,∀(i,t).\begin{aligned}&\underset{f_{\mathrm{I}},f_{\mathrm{T}},\hat{\mathbf{m}}}{\arg\min}\|\hat{\mathbf{m}}(\mathbf{t})\|_{0},\quad subject to:\\&\underbrace{\arg\min}_{f_{\mathrm{I}},f_{\mathrm{T}},\hat{\mathbf{m}}}\|f_{\mathrm{I}}(\mathbf{i})\odot\hat{\mathbf{m}}(\mathbf{t})-f_{\mathrm{T}}(\mathbf{t})\|,\forall(\mathbf{i},\mathbf{t}).\\ \end{aligned}fI,fT,m^argmin∥m^(t)∥0,subjectto:fI,fT,m^ argmin∥fI(i)⊙m^(t)−fT(t)∥,∀(i,t).
我们的学习目标(2)包含一个对齐项LalignL_{\mathrm{a l i g n}}Lalign,用于拉近跨模态的正样本对。常规对比损失[8, 35,37]中的负样本对可通过样本极限下的熵项[47]来实现。这与编码器模型[43]上的可逆性条件作用相同,我们为理论方便直接假设该条件。在第5节中,我们将讨论构建负样本对的实际考虑因素。我们对推断出的掩码m\mathbf{m}m施加稀疏正则化LsparsityL_{\mathrm{s p a r s i t y}}Lsparsity,以选择最简单的表示。
我们在条件4.2中介绍关键条件,在定理4.3中给出理论成果。
条件4.2(识别条件)。
i [平滑性与可逆性]:生成函数gIg_{\mathrm{I}}gI和gTg_{\mathrm{T}}gT是平滑的,且具有平滑的逆函数。
ii [完全支撑p(zI,m)p(\mathbf{z}_{\mathrm{I}},\mathbf{m})p(zI,m)]:语义变量zI\mathbf{z}_{\mathrm{I}}zI和掩码m\mathbf{m}m的联合分布是完全支撑的:对于任意(zI,m)∈ZI×M(\mathbf{z}_{\mathrm{I}},\mathbf{m})\in\mathcal{Z}_{\mathrm{I}}\times\mathcal{M}(zI,m)∈ZI×M,都有p(zI,m)>0p(\mathbf{z}_{\mathrm{I}},\mathbf{m})>0p(zI,m)>0。
讨论。条件4.2-i确保生成函数(gI,gT)(g_{\mathrm{I}},g_{\mathrm{T}})(gI,gT)保留潜在变量的信息,若无此条件,恢复潜在变量的任务将是病态的。实际上,图像数据i\mathbf{i}i的高维度提供了足够的容量来存储所有信息,而文本变量t\mathbf{t}t仅包含通过其掩码m\mathbf{m}m过滤后的信息。该条件在潜在变量识别文献[13, 17, 18, 43]中被广泛应用。条件4.2-ii规定,在训练分布中单独出现的表示zI\mathbf{z}_{\mathrm{I}}zI和掩码m\mathbf{m}m,也应以非零概率密度联合出现。将掩码m\mathbf{m}m解释为概念选择器(例如,选择“熊”和“笔”),该条件确保每个概念在各种掩码选择下保留其完整的变异范围(如不同形状的熊和不同长度的笔)。为满足此要求,可以将联合支撑集ZI×M\mathcal{Z}_{\mathrm{I}}\times\mathcal{M}ZI×M限制为适当的子集,确保仅出现zI\mathbf{z}_{\mathrm{I}}zI和m\mathbf{m}m的相关组合。或者,可以丰富每张图像的描述集,从而增加概念组合的多样性和覆盖范围,填补联合支撑集。这与第1节讨论的近期描述增强技术[21, 23 - 25, 54]相契合,揭示了我们的框架与社区现有努力之间的协同作用。
定理4.3(概念表示识别)。我们假设数据生成过程如(1)所示。设(fI,fT,m^)(f_{\mathrm{I}},f_{\mathrm{T}},\hat{\mathbf{m}})(fI,fT,m^)为(2)的一个最优解。在条件4.2下,对于任意索引集B\mathcal{B}B,使得B~=∪m∈VB(m)\tilde{\mathcal{B}}=\cup_{\mathbf{m}\in\mathcal{V}}\mathcal{B}(\mathbf{m})B~=∪m∈VB(m) 或 B~=∩m∈VB(m)\tilde{\mathcal{B}}=\cap_{\mathbf{m}\in\mathcal{V}}\mathcal{B}(\mathbf{m})B~=∩m∈VB(m),其中V⊂M\mathcal{V}\subset\mathcal{M}V⊂M是掩码的任意子集,真实表示[z]B~[\mathbf{z}]_{\tilde{\mathcal{B}}}[z]B~是分块可识别的。
概念保留。定理4.3表明,可以恢复与数据集M\mathcal{M}M中每个单独文本描述相关联的概念块[zI]B(m)[\mathbf{z}_{\mathrm{I}}]_{\mathcal{B}(\mathbf{m})}[zI]B(m)。此外,它确保来自文本描述任意子集V⊂M\mathcal{V}\subset\mathcal{M}V⊂M的概念[zI]∪m∈VB(m)\mathbf{[z_{\mathrm{I}}]_{\cup_{m\in\mathcal{V}}\mathcal{B}(m)}}[zI]∪m∈VB(m)的并集能够被保留。在图1的运行示例中,我们的公式允许我们通过将概念与两个描述选择性匹配,在图像表示中保留概念(‘‘bear‘,‘pen‘,‘chair‘)(\mathrm{{``b e a r`},{`p e n`},{`c h a i r`}})(‘‘bear‘,‘pen‘,‘chair‘),而像CLIP这样的现有模型可能会丢失“pen\mathrm{pen}pen”和“chair”,因为它们仅在一个描述中被提及。因此,定理4.3有效地解决了目标a。概念解缠。定理4.3中的交集操作使我们能够将表示解缠为潜在原子概念。在图1的示例中,尽管数据集中没有仅包含“bear”的独立描述,但我们仍能将“bear”概念识别为两个文本描述的交集。因此,该部分陈述解决了目标b。我们的结果强调了将每张图像与具有重叠概念的多样化描述集相关联的重要性。
理论贡献。定理4.3扩展了现有的理论框架[9, 43, 49]。值得注意的是,Yao等人[49]为多视图共享表示提供了识别保证,推广了早期仅限于两个视图的结果[9, 43]。当将与相同掩码m\mathbf{m}m相关联的每组文本描述t\mathbf{t}t视为一个独特的视图组时,这种多视图公式
1为简化符号,我们用文本描述及其掩码m\mathbf{m}m来表示。
与我们的设置类似。然而,先前的工作[49]依赖于这些分组的明确知识来训练视图特定的编码器。相比之下,我们的问题设置更具挑战性,因为我们无法获取这些分组信息。具体而言,给定任意两张不同图像的描述,不清楚它们是否源自相同的掩码(即相同的视图组)。因此,先前研究中的识别保证不适用于我们的设置。定理4.3表明,我们的估计模型与学习目标(2)相结合,可以自动推断出必要的分组信息(即掩码)。通过这种方式,我们的方法放宽了先前工作中的识别条件,无需明确的分组知识即可实现有效的表示识别。
5 SmartCLIP:模块化视觉 - 语言对齐
基于第4节中的理论框架,我们提出了SmartCLIP,这是一种旨在实现目标a和目标b的模块化对齐模型。我们讨论了学习目标(2)的实现以及模型架构。通过自适应掩码实现模块化对齐。掩码函数m(⋅)m(\cdot)m(⋅)在我们的模块化对齐目标(2)中起着关键作用。SmartCLIP通过一个transformer模块实现该函数,该模块将字幕表示z^T\hat{\mathbf{z}}_{\mathrm{T}}z^T作为输入,并通过直通估计器[4]输出一个二进制向量m^(z^T)\hat{\mathbf{m}}(\hat{\mathbf{z}}_{\mathrm{T}})m^(z^T)。
模块化对比构造。如第4节所述,常规对比损失[8, 35]中的负样本对所起的作用与可逆性假设(条件4.2 - i)[43, 47]类似。我们用III、TTT分别表示通用的图像、文本表示,用Ppos\mathbf{P}_{\mathrm{p o s}}Ppos、Pneg\mathbf{P}_{\mathrm{n e g}}Pneg分别表示正样本对和负样本对。典型的单边对比损失Lctr [37]\mathcal{L}_{\mathrm{c t r}}\;[37]Lctr[37]定义如下:
Lctr((I(i),T(i))⏟Ppos,(I(i),T(j))⏟Pneg)=−1N∑i=1Nlogexp(sim(I(i),T(i))τ)∑j=1Nexp(sim(I(i),T(j))τ),\begin{aligned}&\mathcal{L}_{\mathrm{c t r}}\bigg(\underbrace{\Big(\mathbf{I}^{(i)},\mathbf{T}^{(i)}\Big)}_{\mathbf{P}_{\mathrm{p o s}}},\underbrace{\Big(\mathbf{I}^{(i)},\mathbf{T}^{(j)}\Big)}_{\mathbf{P}_{\mathrm{n e g}}}\bigg)\\ =&-\frac{1}{N}\sum_{i=1}^{N}\log\frac{\exp\Big(\frac{\mathrm{s i m}(\mathbf{I}^{(i)},\mathbf{T}^{(i)})}{\tau}\Big)}{\sum_{j=1}^{N}\exp\Big(\frac{\mathrm{s i m}(\mathbf{I}^{(i)},\mathbf{T}^{(j)})}{\tau}\Big)},\end{aligned}=Lctr(Ppos (I(i),T(i)),Pneg (I(i),T(j)))−N1i=1∑Nlog∑j=1Nexp(τsim(I(i),T(j)))exp(τsim(I(i),T(i))),
其中,我们用NNN、τ\tauτ和sim(⋅)\operatorname{s i m}(\cdot)sim(⋅)分别表示样本量、温度和余弦相似度。
借鉴CLIP[37]的对称对比损失,我们的对齐损失由两个对比损失项LctrI\mathcal{L}_{\mathrm{c t r I}}LctrI和LctrT\mathcal{L}_{\mathrm{c t r T}}LctrT组成,它们在负样本对上有所不同:
LctrI:=Lctr(Ppos,PnegI), LctrT:=Lctr(Ppos,PnegT),\mathcal{L}_{\mathrm{c t r I}}:=\mathcal{L}_{\mathrm{c t r}}\left(\mathbf{P}_{\mathrm{p o s}},\mathbf{P}_{\mathrm{n e g I}}\right),\;\mathcal{L}_{\mathrm{c t r T}}:=\mathcal{L}_{\mathrm{c t r}}\left(\mathbf{P}_{\mathrm{p o s}},\mathbf{P}_{\mathrm{n e g T}}\right) ,LctrI:=Lctr(Ppos,PnegI),LctrT:=Lctr(Ppos,PnegT),
正样本对和负样本对定义如下:
Ppos:=(z^I(i)⊙m^(z^T(i)), z^T(i)),PnegI:=(z^I(i)⊙m^(z^T(j)), z^T(j)),PnegT:=(z^I(j)⊙m^(z^T(i)), z^T(i)).\begin{aligned}\mathbf{P}_{\mathrm{pos}}&:=\left(\hat{\mathbf{z}}_{\mathrm{I}}^{(i)}\odot\hat{\mathbf{m}}(\hat{\mathbf{z}}_{\mathrm{T}}^{(i)}),\;\hat{\mathbf{z}}_{\mathrm{T}}^{(i)}\right),\\\mathbf{P}_{\mathrm{negI}}&:=\left(\hat{\mathbf{z}}_{\mathrm{I}}^{(i)}\odot\hat{\mathbf{m}}(\hat{\mathbf{z}}_{\mathrm{T}}^{(j)}),\;\hat{\mathbf{z}}_{\mathrm{T}}^{(j)}\right),\\\mathbf{P}_{\mathrm{negT}}&:=\left(\hat{\mathbf{z}}_{\mathrm{I}}^{(j)}\odot\hat{\mathbf{m}}(\hat{\mathbf{z}}_{\mathrm{T}}^{(i)}),\;\hat{\mathbf{z}}_{\mathrm{T}}^{(i)}\right).\end{aligned}PposPnegIPnegT:=(z^I(i)⊙m^(z^T(i)),z^T(i)),:=(z^I(i)⊙m^(z^T(j)),z^T(j)),:=(z^I(j)⊙m^(z^T(i)),z^T(i)).
具体而言,PnegI\mathbf{P}_{\mathrm{n e g I}}PnegI将正样本对中的图像表示z^I(i)\hat{\bf z}_{\mathrm{I}}^{(i)}z^I(i)与随机采样的字幕表示z^T(j)\hat{\mathbf{z}}_{\mathrm{T}}^{(j)}z^T(j)进行对比(见图3中的绿色区域),而PnegT\mathbf{P}_{\mathrm{n e g T}}PnegT将正样本对中的文本表示z^T(i~)\hat{\mathbf{z}}_{\mathrm{T}}^{(\widetilde{i})}z^T(i )与随机采样的图像表示z^I(j)\hat{\mathbf{z}}_{\mathrm{I}}^{(j)}z^I(j)进行对比(见图3中的橙色区域)。
稀疏性惩罚。我们用ℓ1\ell_{1}ℓ1项来实现(2)中的LsparsityL_{\mathrm{s p a r s i t y}}Lsparsity,因为它与深度学习训练兼容:
Lsparsity=∥m^(t)∥1.\mathcal{L}_{\mathrm{s p a r s i t y}}=\left\|\hat{\mathbf{m}}(\mathbf{t})\right\|_{1}.Lsparsity=∥m^(t)∥1.
该项确保文本概念被编码到最少数量的潜在维度中,促进不同文本字幕中不同概念的解耦。
SmartCLIP训练目标。综上所述,SmartCLIP的训练目标是(4)和(8)中损失项的加权和:
L=λalign⋅(LctrI+LctrT)+λsparsity⋅Lsparsity,\mathcal{L}=\lambda_{\mathrm{a l i g n}}\cdot\left(\mathcal{L}_{\mathrm{c t r I}}+\mathcal{L}_{\mathrm{c t r T}}\right)+\lambda_{\mathrm{s p a r s i t y}}\cdot\mathcal{L}_{\mathrm{s p a r s i t y}},L=λalign⋅(LctrI+LctrT)+λsparsity⋅Lsparsity,
其中,λalign\lambda_{\mathrm{a l i g n}}λalign和λsparsity\lambda_{\mathrm{s p a r s i t y}}λsparsity表示权重系数。
6 实验
6.1 实验设置
实现细节。我们遵循Long-CLIP [54],在包含约100万张图像-文本对的ShareGPT4V [7]上对CLIP模型 [37]进行微调。我们采用long-CLIP中的位置编码来处理248个标记(而原始CLIP的标记限制为77个)。与基线CLIP模型相比,我们引入了一个掩码网络rrr。掩码网络被设计为一个单独的transformer模块,它接收来自文本编码器的文本序列嵌入z^T\hat{\mathbf{z}}_{\mathrm{T}}z^T。然后,我们添加一个注意力池化层,将其下采样到与CLIP表示相同的大小,例如ViT-L/14中的768。我们测试了在掩码网络中包含更多transformer模块的情况,但未观察到显著的性能提升。因此,我们坚持使用一个模块,以加快训练和推理速度。与Long-CLIP [54]在每个梯度步骤处理每张图像的所有字幕不同,我们仅为每张图像采样一个字幕,将整体训练时间减少了一半。具体而言,在8张H100 GPU上,使用我们的模型对Vit-B/16模型进行一个epoch的训练大约需要4分钟,而Long-CLIP则需要约7分钟。在池化层之后,我们应用sigmoid函数将输出限制在(0, 1)范围内,并采用直通估计[4]对输出进行二值化。训练批量大小为1024,CLIP组件的学习率为10−610^{-6}10−6,掩码网络的学习率为10−310^{-3}10−3。
评估。我们对以下数据集进行评估:
• 长文本-图像检索数据集:ShareGPT4V验证集[7]和Urban1k [54]。每张图像的标题都很长,详细描述了图像的内容。两个数据集均包含1000个文本-图像对。
• 短文本-图像检索数据集:COCO2017验证集[27]和Flick30K[50]。遵循LongCLIP [54],我们使用30K Flickr训练数据集。
• 零样本图像分类数据集。我们使用以下基准数据集:Country211、Fer2013、Fgvc-aircraft、GTSRB、ImageNet、ImagetNet-V2、VOC2007、VOC2007Multi和SUN397.2
基线模型。在本文中,我们将我们的方法与CLIP[37]和最近的最先进模型Long-CLIP [54]进行了比较。
6.2 与CLIP模型的比较
我们在三个关键任务上展示了实验结果:长文本-图像检索、短文本-图像检索和零样本分类。
长文本-图像检索。表2展示了我们的方法在长文本-图像检索任务上的性能。SmartCLIP相对于基线模型,特别是针对长文本序列设计的最先进的Long-CLIP,取得了显著的性能提升。例如,在Urban1k数据集上,SmartCLIP将性能从78.9%提升至90.0%,实现了14%的显著提升。
短文本-图像检索。如表1所示,在短文本-图像检索任务中,SmartCLIP在各种指标和数据集上的表现均显著优于所有基线模型。令人鼓舞的性能提升表明,SmartCLIP能够在强调主要语义内容的同时,捕捉图像中的详细信息。
零样本分类。为了全面评估我们模型的能力,我们在表3中进行了零样本分类基准测试。标准CLIP模型和SmartCLIP在不同数据集上均表现出优越的性能。值得注意的是,SmartCLIP在分类名称由多个单词组成的数据集上表现出轻微的性能优势,例如GTSRB数据集中的道路标志描述。
这个有趣的食物雕塑将黄瓜变成了一只凶猛的霸王龙。黄瓜构成了霸王龙的主要身体,完整的黄瓜塑造了腿部和尾巴,而切片黄瓜则构成了其中部。更多的黄瓜被巧妙地切割成恐龙的头部形状,另外的黄瓜则排列成肌肉发达的四肢。从它的嘴里喷出壮观的胡萝卜喷泉,细切的胡萝卜丝营造出火焰的效果。这些鲜亮的橙色胡萝卜与绿色蔬菜形成了鲜明的对比。切碎的胡萝卜像火焰一样向下倾泻,而更多的胡萝卜则被精细地切割成火焰般的纹理。胡萝卜的鲜艳颜色使恐龙看起来栩栩如生。新鲜的芹菜叶点缀在雕塑顶部,芹菜叶的细长部分在身体周围增添了装饰效果。更多的芹菜叶形成了自然的背景,而额外的芹菜片则增加了整体的纹理。芹菜的羽毛状外观为整体设计增添了艺术气息。
在ImageNet上的性能下降是意料之中的,因为我们的模型是在以长文本标题为特征的ShareGPT4V数据集上进行微调的,而ImageNet主要由短文本(通常是单个单词)的类别名称组成。然而,SmartCLIP在具有多单词类别名称的数据集上表现出色,例如在GTSRB数据集上,它在准确分类道路标志描述方面取得了最佳性能。
6.3 消融研究
我们分析了模型中的三个关键组件:模块化对齐模块、稀疏性损失以及数据中标题多样性的影响。
模块化对齐。引入掩码网络后,我们用选择性对齐模块替代了标准的对比学习。如图5所示,这一改变显著提升了性能。当使用标准对比学习而非模块化对比模块时(如图5中紫色线所示),性能急剧下降。这是因为掩码信息使网络能够轻松区分正样本对和负样本对,使得负样本的信息量减少。因此,标准对比学习不再有效地帮助模型学习有意义的信息。对齐系数λalign\lambda_{\mathrm{a l i g n}}λalign。我们测试了对齐系数λalign\lambda_{\mathrm{a l i g n}}λalign的影响。图5右侧面板的结果显示,我们的方法在λalign\lambda_{\mathrm{a l i g n}}λalign值范围从0.1到20时均表现良好。这表明我们的方法具有鲁棒性,不需要精确调整λalign\lambda_{\mathrm{a l i g n}}λalign即可取得良好性能。稀疏性系数λsparsity\lambda_{\mathrm{s p a r s i t y}}λsparsity。我们还考察了稀疏性系数λsparsity\lambda_{\mathrm{s p a r s i t y}}λsparsity的影响。图5左侧面板显示,向掩码网络添加稀疏性可提升性能。这支持了我们的观点,即促进稀疏性有助于模型专注于最相关的概念,增强其捕捉详细信息的能力,而不会被无关细节分散注意力。
标题多样性。我们使用COCO数据集[27]评估了在不同标题多样性条件下模型的表现。如表4所示,增加每张图像的标题数量提高了在Flickr30K数据集上的性能,尽管这是以降低长文本-图像检索任务的性能为代价的。当我们将训练数据集与COCO数据集结合时,性能进一步提升。这些结果突显了标题多样性的重要性,以及我们的方法有效处理复杂文本-图像数据集的能力。
6.4 附加结果
可视化。虽然我们的定量结果在各种任务中展示了卓越的性能,但我们还通过可视化学习到的表示来探索模型的定性方面。可视化结果如图6所示。我们采用ScoreCAM方法 [45]进行此目的。对于每张图像,我们生成两个不同的标题,如“一只斑马”和“一只斑马和一只鹿”。然后,我们计算图像嵌入与两个文本嵌入之间的余弦相似度。这些相似度分数作为分类任务的logits,输入到ScoreCAM算法中。SmartCLIP成功学习了模块化表示,准确捕捉了标题之间的相关差异。
即插即用的文本-图像生成。SmartCLIP相对于其他从头开始训练的CLIP模型的一个主要优势是微调的计算成本低。此外,我们微调的文本编码器可以以即插即用的方式替换大规模模型中的CLIP文本编码器。具体而言,我们用Long-CLIP和SmartCLIP替换了SDXL [36]模型中的文本编码器。
7 结论与局限性
在本研究中,我们解决了现有视觉语言模型(如CLIP)中存在的信息不对齐和表示纠缠问题。我们建立了有效将文本表示与原子级视觉特征连接起来的理论条件,并提出了SmartCLIP——一种基于原则、经过优化的视觉语言模型。我们的实验结果既验证了我们的理论成果,也验证了SmartCLIP在推进多模态学习方面的实际有效性。局限性。如前所述,对于某些数据集,与其他数据集相比,其中一部分图像所配对的说明文字数量有限,此时可能会违反条件4.2-ii。在第4节中,我们讨论了缓解此类问题的实用策略。设计替代性的理论条件可能会为充分利用所有配对信息提供更多见解,我们将此作为未来的研究工作。
致谢
我们要感谢美国国家科学基金会(NSF)第2229881号奖项、社会决策人工智能研究所(AI-SDM)、美国国立卫生研究院(NIH)第R01HL159805号合同以及Quris AI、Florin Court Capital和MBZUAI-WIS联合项目的资助。L. Kong的部分工作得到了美国国家科学基金会DMS-2134080通过授予Y. Chi的奖项的支持。