提示调整是一种将预训练的视觉语言模型 (VLM) 适应各种下游任务的宝贵技术
目录
COOP: Prompt Learning for Vision-Language Models
COCOOP: Conditional Prompt Learning for Vision-Language Models
TextRefiner: Internal Visual Feature as Efficient Refiner for Vision-Language Models Prompt Tuning
KgCoOp : Visual-Language Prompt Tuning with Knowledge-guided Context Optimization
MaPLe: Multi-modal Prompt Learning
QNet: PROMPT LEARNING WITH QUATERNION NETWORKS
TCP: Textual-based Class-aware Prompt tuning for Visual-Language Model
MMA: Multi-Modal Adapter for Vision-Language Models
CoPrompt: Consistency-guided Prompt Learning for Vision-Language Models
CasPL: Cascade Prompt Learning for Vision-Language Model Adaptation
PromptKD: Unsupervised Prompt Distillation for Vision-Language Models
KAPT: Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models
Prompt Pre-Training with Twenty-Thousand Classes for Open-Vocabulary Visual Recognition
AWT: Transferring Vision-Language Models via Augmentation, Weighting, and Transportation
ProText: Learning to Prompt with Text Only Supervision for Vision-Language Models
TPT: Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models
Unsupervised Prompt Learning for Vision-Language Models
Towards Difficulty-Agnostic Efficient Transfer Learning for Vision-Language Models
Waffling around for Performance: Visual Classification with Random Words and Broad Concepts
Weak Distribution Detectors Lead to Stronger Generalizability of Vision-Language Prompt Tuning
COOP: Prompt Learning for Vision-Language Models
1️⃣ 论文试图解决的核心难点
🔹 Prompt Engineering 难以手工优化:
- 现有的 CLIP 依赖于 手工设计的 Prompt(Prompt Engineering),但 稍微改变 Prompt 的措辞可能会严重影响模型表现,因此需要 大量试错。
- 设计合适的 Prompt 需要 领域知识,并且不同任务(如医学、遥感)可能需要不同的 Prompt 设计,泛化性较差。
🔹 Zero-shot 任务的 Prompt 泛化能力受限:
- 由于 CLIP 的 Prompt 主要是 固定的文本模板,无法适应不同的数据分布,在特定 下游任务(如图像分类) 时,手工 Prompt 难以在所有类别上泛化。
2️⃣ 论文提出的创新点
✅ 提出 CoOp(Context Optimization),用可训练的 Soft Prompt 代替手工 Prompt
- 通过 可训练的 Prompt 向量(Soft Prompt)替换 CLIP 的手工文本模板:
[P1, P2, P3, ..., Pn, {class}]
- Prompt 的 Context 部分可训练,而 CLIP 本身的权重保持不变,提高适应性。
✅ 提出两种 Prompt 结构,提升适配性
- Unified Context(统一 Prompt):所有类别共享一个 Soft Prompt,适用于小规模任务。
- Class-Specific Context(类别特定 Prompt):不同类别拥有不同的 Prompt,提高类别区分度。
✅ Few-shot 场景下显著超越手工 Prompt
- 在 1-2 Shot 学习下,CoOp 已经优于人工设计的 Prompt。
- 在 16 Shot 任务下,平均提升 15%(最高可达 45%),远超 Zero-shot CLIP。
✅ 无需手动调整 Prompt,且具有良好的领域泛化能力
- 即使是在新领域的数据集上,CoOp 仍能比手工 Prompt 取得更好的泛化性能。
- 解决了 CLIP 迁移到下游任务时对 Prompt 设计的依赖,提高了 Zero-shot 任务的稳健性。
COCOOP: Conditional Prompt Learning for Vision-Language Models
1️⃣ 论文试图解决的核心难点
🔹 CoOp 存在泛化性问题,容易过拟合训练类别
- CoOp 通过学习 固定的 Soft Prompt 适配 CLIP,但其 学习到的 Prompt 对未见类别泛化能力差,仅在训练类别上表现良好。
- 在 Zero-shot 场景中,CoOp 无法有效适应未见类别,导致性能下降。
🔹 静态 Prompt 无法适应不同图像实例
- CoOp 采用 静态的 Soft Prompt,所有类别共享相同的 Prompt,无法根据输入图像动态调整。
- 这种固定的 Prompt 使得模型在类别分布变化时难以适应,影响跨任务迁移能力。
2️⃣ 论文提出的创新点
✅ 提出 CoCoOp(Conditional Context Optimization),引入动态 Prompt 机制
- 在 CoOp 基础上,使用 轻量级神经网络 生成 基于输入图像的动态 Prompt,使 Prompt 可以根据不同的图像实例自适应调整。
✅ 提升 Zero-shot 泛化能力
- 由于 Prompt 不再是静态的,而是 针对每张图像动态变化,CoCoOp 能更好地适应未见类别,减少 CoOp 过拟合训练类别的问题。
✅ 增强跨数据集的迁移能力,提高 Domain Generalization 表现
- 通过动态 Prompt 生成,CoCoOp 在多个数据集上展示出 更强的泛化能力,不仅适用于 Zero-shot 学习,还能在跨领域任务上保持较好的适配性。
TextRefiner: Internal Visual Feature as Efficient Refiner for Vision-Language Models Prompt Tuning
1️⃣ 论文试图解决的核心难点
🔹 现有 Prompt Tuning 采用粗粒度方法,缺乏类别特异性
- 现有方法(如 CoOp)学习到的 Prompt 是全类别共享的,无法针对 类别特定的视觉概念进行区分,导致 对于共享相似视觉特征的类别(如动物品种)区分能力不足。
🔹 现有改进方法依赖外部知识(如 LLMs),计算成本高
- 近期研究尝试通过 大语言模型(LLMs) 生成类别描述增强 Prompt,但这种方法在推理时需要额外的 LLM 调用,推理成本高、效率低。
2️⃣ 论文提出的创新点
✅ 提出 TextRefiner,结合 VLM 内部知识提升 Prompt 表达能力
- 通过 视觉分支中的局部 Token 提取细粒度视觉概念,存入一个 本地缓存模块(Local Cache Module),然后与文本分支对齐,增强 Prompt 细粒度信息,不依赖外部知识。
✅ 无外部依赖,高效优化现有 Prompt 学习方法
- 作为 Plug-and-Play 模块,可直接应用于现有 Prompt 方法(如 CoOp、CoCoOp),无需额外训练外部模型,提高泛化能力。
✅ 提升 Prompt 质量,显著提高下游任务性能
- 在 11 个基准测试 上,将 CoOp 从 71.66% 提高到 76.94%,超越 CoCoOp 的 实例级 Prompt 生成方法。
- 结合 PromptKD 可达到 SOTA 级别,且推理效率更高。
KgCoOp : Visual-Language Prompt Tuning with Knowledge-guided Context Optimization
1️⃣ 论文试图解决的核心难点
🔹 CoOp 生成的可训练 Prompt 泛化能力较差
- CoOp 结合可学习的文本 Token 和类别 Token,但其 学习到的特定任务文本知识对未见类别的泛化能力较差,导致 Zero-shot 任务表现不佳。
- 由于模型只关注可学习 Prompt,会遗忘预训练模型中原本具备的通用文本知识,进一步降低泛化能力。
🔹 现有 Prompt Tuning 方法未能充分保留通用语言知识
- 由于 Prompt 经过训练后偏向特定任务,会与 CLIP 预训练时的手工 Prompt 产生较大偏差,影响在 Zero-shot 任务上的稳定性。
2️⃣ 论文提出的创新点
✅ 提出 KgCoOp(Knowledge-guided Context Optimization),结合手工 Prompt 以增强泛化能力
- 通过 减少可学习 Prompt 与手工 Prompt 之间的差异,避免模型遗忘通用文本知识,提升 Zero-shot 任务表现。
✅ 引入知识约束,平衡任务特定性与通用性
- 在对比学习损失上加入 Prompt 语义对齐约束,让 可训练 Prompt 既能学习任务特定信息,又保留 CLIP 预训练的文本泛化能力。
✅ 提升泛化能力,减少训练成本
- 在多个基准测试上,KgCoOp 在 seen/unseen 任务中均取得更好的性能,且相比 CoOp 训练时间更短,提高了 Prompt Tuning 的效率。
MaPLe: Multi-modal Prompt Learning
1️⃣ 论文试图解决的核心难点
🔹 现有 CLIP 适配方法仅调整单模态(语言或视觉)分支,优化不充分
- 现有 Prompt Tuning 方法(如 CoOp、CoCoOp)仅对 CLIP 的文本分支进行优化,忽略了视觉分支的动态调整,导致 跨模态表示不够协调。
- 这种单模态调整方式 缺乏对视觉和语言信息的联合优化,无法充分利用 VLM 的多模态对齐能力。
🔹 现有方法缺乏对不同层级特征的建模,影响泛化能力
- 现有方法大多在固定层级应用 Prompt,未能逐步建模不同层级的特征交互,限制了对复杂上下文信息的捕捉能力。
2️⃣ 论文提出的创新点
✅ 提出 Multi-modal Prompt Learning (MaPLe),同时优化视觉和语言分支
- 不同于 CoOp/CoCoOp 仅优化文本分支,MaPLe 同时学习视觉和文本 Prompt,确保两者协同优化,从而提升跨模态对齐能力。
- 通过双模态联合优化,增强 CLIP 在下游任务中的适配能力,提高泛化性。
✅ 引入层级化 Prompt 机制,逐步建模不同层级的特征关系
- 在 CLIP 的 不同早期阶段分别学习独立的 Prompt,逐步建模层级特征,使模型能够捕捉更丰富的上下文信息,提升分类性能。
✅ 显著提升 Zero-shot 泛化能力,在多个任务上优于 CoCoOp
- 在 新类别泛化(novel classes) 任务上比 CoCoOp 提高 3.45%,在 整体泛化任务(harmonic mean) 上提高 2.72%,在 11 个图像分类数据集上均表现更优。
- 在 新数据集泛化、新领域迁移 任务上展现更好的适配能力。
DePT: Decoupled Prompt Tuning
1️⃣ 论文试图解决的核心难点
🔹 Prompt Tuning 存在 Base-New Tradeoff(BNT)问题,影响泛化能力
- 现有 Prompt Tuning 方法在适配 Base 任务(训练任务) 时,会导致模型在 New 任务(未见任务) 上的泛化能力下降,即 适配能力和泛化能力存在权衡。
- 这种现象的根本原因在于 模型在 Prompt Tuning 过程中会偏向 Base 任务,导致跨任务共享知识被削弱,影响 Zero-shot 识别能力。
🔹 BNT 现象源于通道偏置(Channel Bias),影响任务共享特征的保持
- 研究发现,在 Prompt Tuning 过程中,大部分特征通道会被 Base 任务的特定知识占据,导致 重要的任务共享特征被压缩甚至丢失,进而降低模型在新任务上的泛化能力。
2️⃣ 论文提出的创新点
✅ 提出 Decoupled Prompt Tuning (DePT) 解决 Base-New Tradeoff(BNT)问题
- 通过 特征空间解耦,在 Prompt Tuning 过程中 将 Base 任务的特定知识从通道中隔离,避免其过度占用模型的特征表示能力。
- 使模型在适配 Base 任务的同时,最大程度保留跨任务共享知识,提高 Zero-shot 任务的泛化能力。
✅ DePT 作为通用框架,可与现有 Prompt Tuning 方法结合
- DePT 与现有的 Prompt Tuning 方法(如 CoOp、CoCoOp、MaPLe)正交,可以无缝集成到这些方法中,提升它们的泛化能力。
✅ 无需额外计算成本,即可显著提升 Zero-shot 任务表现
- 在多个数据集上验证,DePT 在不增加显著计算开销的情况下,增强 Prompt Tuning 任务的灵活性和泛化性,有效缓解 BNT 问题,提高模型在新任务上的适配能力。
QNet: PROMPT LEARNING WITH QUATERNION NETWORKS
1️⃣ 论文试图解决的核心难点
🔹 现有多模态融合策略结构单一,难以捕捉多样化特征模式
- 目前的多模态预训练模型在融合不同模态(如文本和视觉)时,主要依赖显式交互结构,但这些方法在处理细粒度分类和抽象语义对齐时表现不佳。
- 由于缺乏对多模态间复杂特征关系的建模能力,现有方法在 Zero-shot 场景下的泛化能力有限。
🔹 多模态特征融合效率低,参数量大,影响模型适配性
- 现有方法在跨模态学习时通常涉及大量参数,导致计算效率低,尤其在跨数据集迁移和域泛化任务中难以保持稳定性能。
2️⃣ 论文提出的创新点
✅ 提出 QNet(Prompt Learning with Quaternion Networks),利用四元数网络增强多模态语义对齐
- 通过四元数隐藏空间(Quaternion Hidden Space),利用互相正交的虚部轴(Imaginary Axes) 进行多视角特征建模,捕捉多模态间丰富的语义空间关系。
✅ 跨层级特征建模,增强不同模态间的语义依赖
- 采用多层级特征编码机制,整合跨层级特征,增强不同模态之间的深度交互能力,提高 Zero-shot 任务中的细粒度分类能力。
✅ 更少参数、更强泛化能力,在多个任务上超越 SOTA
- 在 11 个数据集上测试,QNet 在 Base-to-Novel 泛化、跨数据集迁移、领域泛化任务上均优于现有 Prompt Learning 方法,同时减少了可训练参数量,提高计算效率。
TCP: Textual-based Class-aware Prompt tuning for Visual-Language Model
1️⃣ 论文试图解决的核心难点
🔹 现有 CoOp 及其改进方法在未见领域(Unseen Domains)上的泛化能力有限
- 现有基于 CoOp 的 Prompt Tuning 方法 依赖可学习的文本 Token,但这些 Token 在新类别分布上无法动态调整,导致在 Unseen Domains 任务上表现不佳。
- 由于 Prompt 设计未考虑类别级别的可区分性(Class Discriminability),使得不同类别之间的区分度降低,影响模型泛化能力。
🔹 缺乏类别感知的文本表示,影响 Zero-shot 任务中的判别能力
- 现有方法主要学习共享或图像条件的 Prompt,未能显式利用类别级别的先验知识,导致对于相似类别(如不同品种的动物),Prompt 难以准确区分。
2️⃣ 论文提出的创新点
✅ 提出 TCP(Textual-based Class-aware Prompt Tuning),引入类别感知的 Prompt 机制
- 通过 Textual Knowledge Embedding (TKE),映射类别级别的文本知识,使 Prompt 具备类别特异性,提高不同类别的区分能力。
✅ 利用 TKE 生成动态类别感知 Prompt,提高 Unseen Domain 任务泛化性
- 在推理阶段,TKE 可动态生成针对未见类别的 Class-aware Prompt,增强 Prompt 适应不同类别分布的能力,提升 Zero-shot 任务表现。
✅ TCP 作为 Plug-and-Play 模块,可无缝集成至现有 Prompt Tuning 方法
- 可轻松结合现有的 Prompt Tuning 方法(如 CoOp、CoCoOp),且减少训练时间的同时提升性能,在多个数据集上实现更优的泛化能力。
MMA: Multi-Modal Adapter for Vision-Language Models
1️⃣ 论文试图解决的核心难点
🔹 VLM(视觉-语言模型)在 Few-shot 任务中面临判别性与泛化性的权衡(Discrimination-Generalization Dilemma)
- 在适配下游任务时,需要同时保持模型的通用知识(General Knowledge)和任务特定知识(Task-Specific Knowledge),但目前缺乏有效的方法来区分和优化这两种表征。
- 过度优化任务特定知识会导致泛化能力下降,而保留过多通用知识又可能影响分类精度。
🔹 视觉与语言分支之间的特征对齐存在语义鸿沟
- 研究发现,语言特征比视觉特征更具判别性,但两者在 Transformer 低层的特征差异较大,导致跨模态对齐困难,影响 Few-shot 任务性能。
2️⃣ 论文提出的创新点
✅ 提出 Multi-Modal Adapter (MMA),优化视觉与语言特征对齐
- MMA 聚合视觉和语言分支的特征,将它们映射到一个共享特征空间,使梯度能够在不同模态间有效传播,增强跨模态交互能力。
✅ 基于层级分析,选择性优化高层 Transformer 层,提高判别性与泛化性平衡
- 通过分析不同层的信息分布,发现高层特征偏向任务特定知识,低层特征更具通用性,因此 MMA 仅在高层 Transformer 中加入适配模块,避免影响模型的通用能力。
✅ 在多个泛化任务上超越 SOTA,提升 Zero-shot 适应能力
- 在 新类别泛化(Novel Classes)、新目标数据集(New Target Datasets)和领域泛化(Domain Generalization) 任务中,MMA 在多个数据集上均优于现有 Prompt Tuning 方法,实现更优的判别性与泛化能力平衡。
CoPrompt: Consistency-guided Prompt Learning for Vision-Language Models
1️⃣ 论文试图解决的核心难点
🔹 VLM 在 Few-shot Fine-tuning 过程中容易过拟合,导致泛化能力下降
- 在小样本(Few-shot)任务中,对 VLM(视觉-语言模型)进行 Fine-tuning 容易导致 对训练集的过拟合,从而影响 Zero-shot 任务和跨域泛化能力。
- 现有 Prompt Tuning 方法 缺乏有效的正则化策略 来防止 Fine-tuning 过程中模型对下游任务数据的过拟合。
🔹 现有方法无法同时兼顾 Prompt Tuning 和 Adapter Tuning 的优势
- Prompt Tuning 在输入空间进行调整,而 Adapter Tuning 通过在模型内部插入小型可训练模块 进行调整,但目前的研究很少考虑如何结合两者的优势,提升泛化能力和适配性。
2️⃣ 论文提出的创新点
✅ 提出 CoPrompt(Consistency-guided Prompt Learning),引入一致性约束以防止过拟合
- 在 Fine-tuning 过程中 引入一致性约束(Consistency Constraint),确保 可训练 Prompt 的预测结果与预训练模型的预测保持一致,防止模型过度拟合 Few-shot 任务数据。
✅ 结合输入扰动一致性(Perturbation Consistency),提升泛化能力
- 通过对输入数据添加不同扰动(Perturbation),让 Fine-tuned 模型在不同的输入条件下保持预测一致,进一步提升模型的鲁棒性和 Zero-shot 泛化能力。
✅ 融合 Prompt Tuning 和 Adapter Tuning,提高 Few-shot 任务适配能力
- 在输入端使用 Prompt 调整输入表征,在模型内部使用 Adapter 进行特征增强,同时优化输入和输出空间,使 VLM 适应不同的下游任务。
- 这种结合方式 提升了 Zero-shot 任务表现,同时增强 Base-to-New 泛化能力。
✅ 在多个任务上超越 SOTA,显著提升泛化能力
- 在 Zero-shot 任务和 11 个数据集的 Harmonic Mean 指标上均取得 SOTA 结果,并在 Base-to-Novel 泛化、领域泛化(Domain Generalization)、跨数据集迁移 等任务中超越现有方法。
CasPL: Cascade Prompt Learning for Vision-Language Model Adaptation
1️⃣ 论文试图解决的核心难点
🔹 现有 Prompt Learning 方法仅适用于单阶段适配,容易导致过拟合
- 目前的可训练 Prompt 主要用于 任务适配(Adapting Prompt),缺乏对通用知识的学习机制,导致模型在下游任务中容易过拟合目标数据分布,影响泛化能力。
- 由于 Prompt 直接在目标任务上训练,无法充分利用无标签数据进行知识提取,导致任务特定信息的学习受限。
🔹 Prompt Tuning 缺乏层次化知识提取,难以同时兼顾通用性和任务特异性
- 现有方法大多采用单一 Prompt 训练方式,难以同时优化通用特征(Domain-General Knowledge)和任务特定特征(Task-Specific Knowledge),影响 Zero-shot 任务的稳定性。
2️⃣ 论文提出的创新点
✅ 提出 Cascade Prompt Learning (CasPL),采用双阶段 Prompt 结构
- 第一阶段:Boosting Prompt —— 通过一个 更强大的 CLIP 教师模型 提取 无标签数据中的通用知识,并对其预测进行对齐,确保 Prompt 具备广泛的领域泛化能力。
- 第二阶段:Adapting Prompt —— 在 冻结第一阶段 Prompt 的基础上,对目标任务进行 Fine-tuning,以学习任务特定特征,从而降低过拟合风险。
✅ 实现通用特征与任务特定特征的解耦,提高泛化能力
- 采用逐步学习的 Prompt 结构,确保模型在任务适配的同时,仍然保留通用知识,提高 Zero-shot 任务的稳健性。
- 这种两阶段 Prompt 设计有效缓解了传统单阶段 Prompt Learning 方法的过拟合问题。
✅ Plug-and-Play 设计,可集成到现有 Prompt Learning 方法中,提升小型 VLM 适配能力
- CasPL 可无缝集成至现有的 Prompt Learning 方法,如 CoOp 和 CoCoOp,在不增加显著计算开销的情况下提升适配能力,适用于资源受限环境的小型 VLM 部署。
- 在 11 个图像分类数据集 上,CasPL 比 PromptSRC 提高 1.85%(Base Classes)、3.44%(Novel Classes)、2.72%(Harmonic Mean),在泛化能力与推理效率之间取得更优平衡。
PromptKD: Unsupervised Prompt Distillation for Vision-Language Models
1️⃣ 论文试图解决的核心难点
🔹 现有 Prompt Learning 主要关注 Prompt 设计,忽略了 Prompt 作为蒸馏器的潜力
- 目前的研究大多集中在 如何优化 Prompt 本身,而缺乏利用 Prompt 进行知识蒸馏(Knowledge Distillation, KD) 的方法,使得小模型难以高效继承大模型的知识。
- 在资源受限的环境下,小型 VLM 需要高效从大型模型中学习,以提升下游任务适应能力,但现有方法很少关注如何在 Prompt 机制下进行模型蒸馏。
🔹 知识蒸馏通常依赖有标签数据,限制了无监督领域适配能力
- 传统蒸馏方法通常需要 有标签数据 来指导学生模型的学习,而在许多领域(如医学、遥感)获取高质量标注数据的成本极高。
- 现有 VLM 适配方法未充分利用 大量无标签数据,导致在特定领域任务上的泛化能力受限。
2️⃣ 论文提出的创新点
✅ 提出无监督领域 Prompt 蒸馏(Unsupervised Domain Prompt Distillation),利用 Prompt 进行知识迁移
- 采用 Prompt 作为蒸馏桥梁,通过 Prompt Learning 让 小型 VLM 直接模仿大型 CLIP 教师模型的预测分布,提高学生模型的适应能力。
- 消除对标注数据的依赖,仅使用 无标签领域数据 进行 Prompt 蒸馏,极大提升领域适配性。
✅ 采用两阶段蒸馏框架,高效传递教师模型的知识
- 第一阶段:对 大型 CLIP 教师模型 进行少量标注数据预训练,并预存教师模型文本编码器生成的类别向量,减少推理阶段的计算开销。
- 第二阶段:在无监督环境下,使用 KL 散度(KL Divergence) 使学生模型的预测概率分布尽可能匹配教师模型,从而提升学生模型的泛化能力。
✅ 首创预存文本特征机制,优化 Prompt 蒸馏的计算效率
- 仅需计算一次文本特征(Class Vectors)并存储,在后续蒸馏过程中,学生模型可直接使用已存储的类别向量进行学习,大幅减少计算成本。
- 这种方法有效提升小型 VLM 的适配性,同时降低推理时的资源消耗,适用于 低算力场景。
KAPT: Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models
1️⃣ 论文试图解决的核心难点
🔹 现有可训练 Prompt 方法容易过拟合已见类别,泛化能力不足
- 现有 Prompt Tuning 方法(如 CoOp、CoCoOp)尽管在已见类别上表现良好,但 在未见类别(Unseen Classes)上的泛化能力较差,限制了 Zero-shot 任务的适用性。
- 这种过拟合现象源于 Prompt 学习时缺乏外部知识的指导,仅依赖任务内数据,导致对新类别的理解能力受限。
🔹 现有方法缺乏知识引导,未充分利用类别相关信息
- 人类在识别新类别时通常会结合外部知识(如文本描述、先验知识),但当前 Prompt 学习仅利用训练数据,忽略了类别外部信息的潜在作用。
- 视觉特征与文本特征的匹配未充分利用类别的区分性特征,导致模型在细粒度分类任务上的表现有限。
2️⃣ 论文提出的创新点
✅ 提出 KAPT(Knowledge-Aware Prompt Tuning),结合外部知识增强 Prompt 泛化能力
- 通过 引入类别相关的外部知识,构建更丰富的文本表征,增强 Prompt 对新类别的适应能力,减少对已见类别的过拟合。
✅ 设计两种互补的知识感知 Prompt,提升文本编码器的知识表达能力
- 离散 Prompt(Discrete Prompt):从类别描述文本中提取关键信息,增强模型的类别感知能力。
- 连续 Prompt(Continuous Prompt):可训练的 Soft Prompt,捕捉全局上下文信息,使 Prompt 具备更好的适配性。
✅ 引入自适应视觉注意力模块,增强视觉特征的判别能力
- 在视觉编码器中加入 自适应特征聚合模块(Adaptation Head),提取关键视觉特征,使视觉表征更加区分性强且任务相关,提高跨类别泛化能力。
✅ 在 Few-shot 任务和未见类别泛化任务上超越 SOTA
- 在 11 个基准数据集 上进行实验,在 Few-shot 任务和 Zero-shot 泛化 任务中优于 CoCoOp,在新类别任务上提升 3.22%,展现更优的跨任务适应能力。
Prompt Pre-Training with Twenty-Thousand Classes for Open-Vocabulary Visual Recognition
prompt learning结合clip预训练
AWT: Transferring Vision-Language Models via Augmentation, Weighting, and Transportation
1️⃣ 论文试图解决的核心难点
🔹 VLM 在适应新概念(New Concept Understanding)时受限于有限类别信息
- 由于 新类别缺乏足够的视觉和文本描述,现有 VLM(如 CLIP)在 Zero-shot 任务中的泛化能力受限,难以充分理解和区分新概念。
- 传统 Prompt Tuning 方法 未能充分利用外部信息来增强类别表征,导致新类别适应性较差。
🔹 缺乏有效的特征对齐机制,影响视觉-语言模型的跨模态泛化能力
- 视觉和语言模态的特征分布可能存在差异,导致 模型难以在多模态空间中发现语义相关性,影响 Zero-shot 和 Few-shot 任务的准确性。
2️⃣ 论文提出的创新点
✅ 提出 AWT(Augment, Weight, then Transport),增强 VLM 在新概念上的适配能力
- Augment(增强输入): 通过 图像变换(Image Transformations) 和 语言模型生成类别描述(LLM-based Class Descriptions),扩充视觉和文本信息,提高新类别的可识别性。
✅ 引入预测熵加权机制(Weighting),动态优化输入贡献
- 基于预测熵(Prediction Entropy)对输入进行动态加权,赋予更可靠的输入更高权重,从而减少低置信度输入的干扰,提高模型的稳定性。
✅ 采用最优传输(Optimal Transport)方法,优化视觉-语言对齐
- 通过 最优传输(Optimal Transport, OT) 挖掘 视觉和文本模态之间的语义关联,确保 VLM 在不同模态之间建立更紧密的联系,提高跨模态泛化能力。
✅ 无需额外训练,可无缝集成到不同 VLM 中,提升 Zero-shot 能力
- AWT 作为通用框架,可直接集成到不同规模和架构的 VLM(如 CLIP),增强其 Zero-shot 图像分类、Few-shot 识别、视频动作识别和 OOD 泛化能力,在多个任务上超越 SOTA 方法。
ProText: Learning to Prompt with Text Only Supervision for Vision-Language Models
1️⃣ 论文试图解决的核心难点
🔹 现有基于视觉信息的 Prompt Tuning 依赖标注数据,泛化能力受限
- 许多现有方法通过视觉信息优化 Prompt,但这需要 大量标注数据,在实际应用中不够高效。
- 由于这些方法主要在 训练数据集上进行优化,容易 过拟合源数据,导致在新数据集上的泛化能力下降。
🔹 基于 LLM 生成的 Prompt 方式存在高成本问题
- 另一类方法使用 大语言模型(LLMs) 生成类别描述,并通过 Prompt Ensembling 提高泛化能力,但这些类别特定(Class-specific)的 Prompt 无法直接迁移到其他类别,导致每个新类别都需要单独生成描述,计算成本高。
2️⃣ 论文提出的创新点
✅ 提出基于文本学习的 Prompt Tuning 方法,无需依赖标注数据
- 通过 仅使用 LLM 生成的文本数据 进行 Prompt 训练,避免对图像数据的依赖,从而减少人工标注成本,提高泛化能力。
- 通过新颖的训练方法,使 Prompt 能够从 LLM 生成的数据中提取丰富的上下文知识,提高 Zero-shot 适配能力。
✅ 实现 Prompt 的 Zero-shot 迁移能力,减少 LLM Prompt 生成成本
- 由于 Prompt 通过文本数据学习,不依赖特定类别的视觉信息,因此可以 直接迁移到新类别和新数据集,相比基于 LLM 逐类别生成 Prompt 的方法 减少计算开销。
✅ 在多个基准测试中超越现有 Prompt Ensembling 方法,并与监督学习方法竞争
- 在 4 个基准数据集 上进行测试,比现有的 LLM-based Prompt Ensembling 方法表现更优,且在 无标注图像的情况下能接近有监督图像 Prompt Tuning 方法的性能,展现强大的 Zero-shot 泛化能力。
1️⃣ 论文试图解决的核心难点
🔹 现有视觉 Prompt Tuning 方法缺乏对最佳视觉 Prompt 设计的系统分析
- 目前在视觉模态(如 CLIP)上的 Prompt Tuning 主要基于 可学习的视觉 Token 或手工设计的文本 Prompt,但对于 如何选择最佳视觉 Prompt 以提升模型性能 研究较少。
- 现有方法 缺乏对 Prompt 质量的量化分析,导致 Prompt 设计往往依赖经验,泛化能力受限。
🔹 视觉 Prompt Tuning 泛化能力较弱,低于纯文本 Prompt 方法
- 现有基于视觉 Prompt 的方法相比 文本 Prompt(Text-only Prompt) 泛化能力较差,尤其在 Few-shot 任务上,难以有效适配新类别。
- 由于视觉模态的信息表达方式不同,现有方法难以让视觉 Prompt 具备和文本 Prompt 相同的可迁移性。
2️⃣ 论文提出的创新点
✅ 提出 LoGoPrompt,使用合成文本图像(Synthetic Text Images)作为视觉 Prompt
- 发现合成的文本图像(Synthetic Text Images)可以成为有效的视觉 Prompt,让 VLM 以图像形式理解类别信息,提高模型的分类能力。
- 通过在图像输入中添加合成文本图像,使 CLIP 直接匹配视觉类别信息,提高分类准确性。
✅ 提出新的 Prompt 选择策略,避免先有 Prompt 还是先分类的“鸡生蛋”问题
- 通过重新定义分类目标,使其转换为最佳视觉 Prompt 的选择问题,从而解决 先选择 Prompt 还是先分类的逻辑悖论。
✅ 在 Zero-shot 和 Few-shot 任务上超越现有 SOTA 方法
- 在 16 个数据集上进行实验,无需训练任何视觉 Prompt 参数,仍能超越当前 Few-shot 视觉 Prompt 方法,证明 LoGoPrompt 作为视觉 Prompt 的有效性和泛化能力。
TPT: Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models
1️⃣ 论文试图解决的核心难点
🔹 现有 Prompt Tuning 依赖下游任务数据,降低模型泛化能力
- 现有方法通常使用 下游任务的标注数据 来训练可学习 Prompt,尽管这提高了特定任务的性能,但会降低模型在新领域和未见类别上的泛化能力。
- 在 跨数据集或自然分布变化(Natural Distribution Shift) 场景中,这种依赖任务数据的 Prompt Tuning 方法表现不稳定,影响 Zero-shot 适应能力。
🔹 现有方法无法在测试时动态调整 Prompt,提高适应性
- 传统 Prompt 学习方法 在训练阶段固定 Prompt,导致测试时无法根据新数据自适应调整,难以适应 未见类别或不同数据分布。
- 目前缺乏 无需额外训练数据的 Prompt 适配方案,使得模型在 Zero-shot 任务中的泛化能力受限。
2️⃣ 论文提出的创新点
✅ 提出 Test-time Prompt Tuning (TPT),在测试时动态调整 Prompt,提高泛化能力
- 在 测试阶段 直接优化 Prompt,而无需额外的训练数据,使得 Prompt 能够在推理时根据新样本自适应调整,提升 Zero-shot 任务的稳定性。
✅ 利用熵最小化(Entropy Minimization)和置信度选择优化 Prompt
- 通过 最小化测试样本的预测熵,确保模型在不同增强视角下的预测结果一致,从而动态调整 Prompt,使其适应不同数据分布。
- 结合 置信度选择(Confidence Selection),确保优化后的 Prompt 能够提高模型的稳定性和准确性。
✅ 在 Zero-shot 任务中超越现有 Prompt Tuning 方法,提升跨数据集泛化能力
- 在自然分布变化任务上,Zero-shot Top-1 准确率提升 3.6%,超越所有需要额外训练数据的 Prompt 方法。
- 在未见类别的跨数据集泛化任务上,TPT 的表现与当前 SOTA 方法相当,但不需要额外的训练数据,展现更高的适配性和部署优势。
Unsupervised Prompt Learning for Vision-Language Models
1️⃣ 论文试图解决的核心难点
🔹 现有 Prompt Tuning 方法依赖目标数据集的标注数据,限制了扩展性
- 方法如 CoOp、CLIP-Adapter、Tip-Adapter 需要 少量标注数据(Few-shot Learning) 来学习优化的 Prompt,但在 无标签(Unlabeled)环境下无法使用,影响其在大规模数据上的适用性。
- 依赖标注数据使这些方法在 Zero-shot 任务和跨数据集泛化(Transfer Learning) 方面受限,降低了 VLM(如 CLIP)的适配能力。
🔹 缺乏无监督 Prompt 学习(Unsupervised Prompt Learning)的方法
- 目前的 Prompt Learning 方法大多采用 监督学习(Supervised Learning),未能探索如何在无监督场景下优化 Prompt,以充分释放 CLIP 的 Zero-shot 能力。
- 现有 Zero-shot 方法依赖 手工 Prompt 设计(Prompt Engineering),无法自动适配不同数据分布,需要大量人工干预。
2️⃣ 论文提出的创新点
✅ 提出 Unsupervised Prompt Learning (UPL),在无标签数据上优化 Prompt
- UPL 是首个引入无监督学习(Unsupervised Learning)到 Prompt Tuning 的方法,无需目标数据集的标注数据即可提升 CLIP 的迁移性能。
- 通过无监督优化策略,使得 CLIP 能够自动学习最优 Prompt,而不依赖手工设计,减少人工干预。
✅ 避免 Prompt Engineering,同时提升 CLIP 的 Zero-shot 泛化能力
- 通过 优化 Prompt 使其适应不同数据分布,UPL 在 Zero-shot 任务中超越 CLIP+手工 Prompt,提高跨数据集适配能力。
- 在 ImageNet 及 10 个其他数据集上均超过 CLIP 的手工 Prompt 结果,表明 UPL 能够有效提升 Zero-shot 识别能力。
✅ UPL 在无监督环境下的表现接近 Few-shot Prompt Tuning 方法
- UPL 的增强版本在多数数据集上可匹敌 8-shot CoOp 和 8-shot TIP-Adapter,表明即使 没有任何标注数据,UPL 仍能在 Few-shot 级别的任务中达到接近 SOTA 的效果,具有更高的扩展性和实用价值。
Towards Difficulty-Agnostic Efficient Transfer Learning for Vision-Language Models
1️⃣ 论文试图解决的核心难点
🔹 现有高效迁移学习(ETL)方法未考虑不同任务的迁移难度差异
- 目前的 Prompt Learning 和 Adapter 方法在迁移 VLM(如 CLIP)到下游任务时,未针对不同任务的难度进行优化,导致方法在某些任务上的适应能力受限。
- 高迁移难度任务(如细粒度分类、跨领域任务) 需要更复杂的调整,而 低迁移难度任务 则可以直接利用预训练模型的知识,但现有方法无法动态适配。
🔹 缺乏优化适应不同迁移难度的 Prompt 和 Adapter 组合策略
- 现有方法通常采用 单一方式(仅使用 Prompt 或 Adapter) 进行 VLM 适配,而没有考虑如何在不同难度任务之间合理分配 Prompt 和 Adapter 资源,导致泛化能力受限。
- 在低难度任务上,过度依赖任务特定适配可能导致信息损失,而在高难度任务上,单独使用 Prompt 或 Adapter 可能不足以提升泛化能力。
2️⃣ 论文提出的创新点
✅ 提出自适应集成方法(Adaptive Ensemble),根据迁移难度优化 Prompt 和 Adapter 组合策略
- 在高迁移难度任务中,强调 视觉 Prompt(Vision Prompt)+ 文本 Adapter(Text Adapter) 的协同作用,提高 VLM 的适配能力。
- 在低迁移难度任务中,更倾向于利用 原始预训练模型的通用知识,减少不必要的适配,保留模型原生的泛化能力。
✅ 采用动态融合策略,自适应调整任务特定知识与通用知识的比例
- 通过 自适应集成(Adaptive Ensemble) 机制,在不同任务上动态调整 任务适配模型(Task-adapted VLMs) 和 原始 VLMs 之间的融合权重。
- 在低难度任务上更多依赖 VLM 原生能力,在高难度任务上强化任务特定适配,确保模型在不同任务间的最优表现。
✅ 在多个基准数据集上超越现有方法,尤其在未见任务(Unseen Tasks)上提升显著
- 该方法在 Zero-shot 任务和跨数据集迁移任务上均超过所有基线方法,尤其在高迁移难度任务上展现出更优的泛化能力,证明其在不同任务中的适应性和有效性。
Waffling around for Performance: Visual Classification with Random Words and Broad Concepts
1️⃣ 论文试图解决的核心难点
🔹 现有 VLM(如 CLIP)结合 LLM 生成的类别描述提升分类性能,但计算成本高
- 研究表明,使用 LLM(如 GPT-3)生成类别描述(如 “waffle, which has a round shape”)可以提高 CLIP 在 Zero-shot 视觉分类任务上的泛化能力。
- 但 依赖 LLM 生成文本的方式计算成本高,需要额外的 API 调用,且 LLM 生成的描述未必始终可靠。
🔹 缺乏对 LLM 生成的语义描述影响的深入分析
- 目前的研究主要关注 LLM 生成的类别描述对视觉分类性能的提升效果,但尚未系统性分析 LLM 生成的语义信息是否真正有效,或者是否可以用更简单的方法替代。
2️⃣ 论文提出的创新点
✅ 提出 WaffleCLIP,用随机字符和单词替代 LLM 生成的类别描述,达到类似提升效果
- 无需调用外部 LLM,仅使用随机字符或无关词汇作为类别描述,即可在 Zero-shot 视觉分类任务中获得与 LLM 生成描述相近的性能提升。
- 证明 LLM 生成的类别描述可能并非真正带来了额外的语义信息,而可能仅仅是增加了类别的文本信息量。
✅ 对 LLM 生成的类别描述进行系统性分析,揭示其局限性
- 通过实验分析,发现 LLM 生成的类别描述 可能并未有效利用高层语义,部分情况下仅相当于一种数据增强。
- 进一步研究 在类别名称存在歧义时,如何更有效地利用 LLM 提供的高层语义,如使用 LLM 来生成更具区分度的概念描述。
✅ 提供低成本替代方案,并作为未来 VLM + LLM 研究的基准
- WaffleCLIP 既是一个 低成本、无需 LLM 依赖的 Prompt 扩展方法,也可以作为 评估未来 LLM 扩展 VLM 方法有效性的基准,防止不必要的 LLM 计算开销。
Weak Distribution Detectors Lead to Stronger Generalizability of Vision-Language Prompt Tuning
1️⃣ 论文试图解决的核心难点
🔹 现有 VLM(如 CLIP)在 Few-shot Fine-tuning 过程中难以兼顾已见类别(Base Classes)和新类别(Novel Classes)的泛化能力
- 传统 Few-shot Fine-tuning 方法(如 CoOp、ProGrad)在训练集类别(Base Classes)上表现良好,但对未见类别(Novel Classes)泛化能力有限,即 Base-to-Novel Generalization(BNT)问题。
- 由于 Fine-tuning 过程中模型的表示会逐渐偏向 Base 类别,导致模型在 Zero-shot 任务中难以有效利用预训练知识。
🔹 缺乏有效的方法来动态调整 Zero-shot 预测与 Fine-tuned 预测的权重
- 现有方法往往固定使用 Fine-tuned 分类器,而没有在测试时考虑当前样本是否更接近预训练分布(Zero-shot)或下游任务分布(Fine-tuned),导致在新类别上的识别能力不足。
2️⃣ 论文提出的创新点
✅ 基于 OOD 检测(Out-of-Distribution Detection)判断样本是否属于 Base 类别或 Novel 类别
- 在测试阶段,引入 OOD 检测方法,预测当前样本是来自预训练数据分布(Base)还是新的数据分布(Novel),从而动态调整分类器的使用方式。
✅ 提出基于竞争得分的动态分类器融合策略,提高 Base-to-Novel 泛化能力
- 竞争得分(Competition-based Scoring Function) 计算 Zero-shot 预测结果与 Fine-tuned 预测结果的偏向性,并利用该得分进行加权融合:
-
- 若样本更可能属于预训练分布(Base Classes),则更偏向 Zero-shot 分类器。
- 若样本可能属于 Novel 类别,则更偏向 Fine-tuned 分类器。
- 这种方法在不影响 Base 类别性能的前提下,提高了新类别的泛化能力。
✅ 方法仅在测试阶段执行,无需额外训练,可直接提升现有 Few-shot Fine-tuning 方法的泛化能力
- 无需重新训练模型,可直接应用于现有 Fine-tuning 方法,如 CoOp 和 ProGrad,在 11 个数据集上 提升 CoOp 2.6% 和 ProGrad 1.5% 的 Harmonic Mean 指标,证明其在 Base-to-Novel 泛化任务上的有效性。