Tokenize Anything via Prompting——通过提示进行任意内容标记化-EW帮帮网

Meta 年初发布的 Segment Anything Model (SAM), 这是第一个致力于图像分割的基础模型。文中表示 SAM 已经学会了关于物体的一般概念，并且它可以为任何图像或视频中的任何物体生成 mask，甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用，可以涵盖广泛的用例，并且可以在新的图像『领域』上即开即用，无需额外的训练。TAP (Tokenize Anything via Prompting), 利用视觉提示同时完成任意区域的分割、识别与描述任务。将基于提示的分割一切基础模型 (SAM) 升级为标记一切基础模型 (TAP)，高效地在单一视觉模型中实现对任意区域的空间理解和语义理解。本文是自己晚上闲暇时间里对TAP论文的阅读记录，感兴趣的话可以参考一下，如果想要进一步了解研究内容详情的话可以移步阅读原英文论文，地址在这里，如下所示：

摘要：我们提出了一种统一的、可提示的模型，能够同时进行分割、识别和标注任何内容。与SAM不同，我们的目标是通过视觉提示在野外构建一种多功能的区域表示。为此，我们使用大规模分割掩码（例如SA-1B掩码）和预训练的具有50亿参数的CLIP模型的语义先验来训练一个可泛化的模型。具体来说，我们通过为每个预测的掩码添加一个语义标记来构建一个可提示的图像解码器。语义标记负责在预定义的概念空间中学习语义先验。通过在掩码标记上的分割和在语义标记上的概念预测的联合优化，我们的模型展示了强大的区域识别和定位能力。例如，一个额外训练的38M参数的因果文本解码器在Visual Genome区域标注任务上以164.7的CIDEr分数创下了新纪录。我们相信这个模型可以成为一个多功能的区域级图像标记器，能够为广泛的视觉感知任务编码通用区域上下文。代码和模型可在https://github.com/baaivision/tokenize-anything获取。

1 引言

视觉感知的一个关键目标是有效地定位和识别感兴趣的任意区域。它需要一个能够理解区域上下文并同时执行分割、识别和标注等感知任务的单一视觉模型。然而，现有模型通常专注于定位类别无关的掩码（例如SAM及其后续的效率优化模型），或者仅提取视觉语义（例如CLIP及其区域级变体）。具体来说，SAM开发了一个通过提示进行分割的基础模型，能够在像素级定位任务中实现强大的泛化能力。另一方面，CLIP通过在网络规模的图像-文本对上进行对比学习训练了一个识别基础模型，展示了强大的零样本识别能力。因此，在SAM的架构中学习CLIP模型的语义先验为实现全面的视觉感知提供了一条有希望的途径。

我们的主要目标是构建一个统一的、可提示的模型，能够同时分割、识别和标注任何内容（图0(a)）。然而，构建这样一个基础模型并非易事，因为1）目前没有能够实现通才感知的可提示框架，2）目前没有公开的具有配对掩码、类别和标注的网络规模数据集，3）目前没有能够有效且高效地将CLIP和SAM的能力整合到一个模型中以理解任意区域的学习方法。本文仔细探索了这一方向，旨在提供一个包括新框架、新数据集和有效学习方法的系统解决方案。

我们首先引入了一个可提示的标记化和标注框架（图3），能够同时进行分割、识别和标注。这需要一个能够抽象通用表示（例如掩码标记和语义标记）的统一模型，给定灵活的提示来提示任何感兴趣的区域。我们遵循SAM的架构，但将其掩码解码器升级为通用图像解码器，为每个预测的掩码添加一个额外的语义标记。掩码标记用于像素级分割，类似于SAM，而语义标记负责区域级识别。通过利用语义标记，模型可以同时通过MLP头解决开放词汇分类任务，并通过轻量级文本解码器使用自回归过程解决可提示的标注任务。我们将这个模型称为TAP，即通过提示进行任意内容标记化，如图0(b)所示。

训练这样一个高性能和可泛化的模型需要一个多样化和大规模的数据集。然而，目前没有可用于同时分割和识别的网络规模数据源。SA-1B构建了1.1B高质量掩码标注用于训练分割基础模型，例如SAM。相反，LAION-2B从网络上收集了2B图像-文本对，促进了可泛化识别模型的训练，例如CLIP。为了解决缺乏对齐数据的问题，我们引入了SemanticSA-1B数据集（见图0(c)）。该数据集隐式地将LAION-2B的网络规模语义集成到SA-1B中。具体来说，对于SA-1B中的每个分割区域，我们提取其在概念词汇表上的概念分布作为其语义先验，这是由在大量LAION图像-文本对上训练的强大CLIP模型预测的。因此，SA-1B数据及其现成的CLIP先验构成了我们的预训练数据集。

使用SemanticSA-1B数据集，我们从一开始就使用真实掩码和相关语义预训练我们的模型，有效地将CLIP的能力集成到SAM的架构中。这通过同时为通用分割和概念预测训练一个可提示的标记器来实现。为了预测每个掩码图像的语义概念，我们进一步提出最小化预测概念分布和目标分布之间的KL散度损失，旨在最大化CLIP知识的转移。这种联合训练目标在定位和识别上都实现了强大的泛化能力，从而促进了通用视觉任务。

我们对TAP模型及其组件进行了广泛评估。TAP在实例分类中展示了强大的零样本性能，例如在具有挑战性的LVIS基准上达到59.1 AP，同时在零样本分割性能上保持竞争力，例如在TAP和SAM上分别为43.0和43.1 AP。值得注意的是，我们在Visual Genome区域标注任务上以显著更少的参数创下了164.7的CIDEr分数新纪录。我们的研究结果表明，标记化的区域级特征在分割和分类任务中都是可泛化的，甚至可以直接提示因果文本生成。最重要的是，我们相信TAP模型可以成为一个多功能的区域级图像标记器，能够为广泛的视觉感知任务编码区域上下文（见图2）。

2 相关工作

2.1 视觉基础模型

视觉基础模型的目标是实现跨广泛视觉任务的强大零样本和少样本泛化能力。从CLIP开始，它同时训练图像和文本编码器以对齐两种模态，许多努力已经出现，以在规模上训练通用视觉-语言表示。此外，一些工作旨在构建视觉通才模型。例如，SAM引入了一个大规模数据集并训练了一个可提示的分割模型。以用户交互为提示，SAM在一般分割任务中展示了强大的零样本性能。与SAM同时，SegGPT将各种分割任务统一为一个上下文分割问题。SegGPT展示了通过上下文推理执行任意分割任务的能力。其他一些工作通过利用多模态数据集来构建通才模型。在这项工作中，我们旨在构建一个视觉基础模型，作为多功能的区域级图像标记器，能够为广泛的感知任务编码通用区域上下文。

2.2 开放词汇分割

与以前在有限词汇表上工作的实例分割和语义分割模型不同，开放词汇分割旨在分类超出训练所用封闭词汇表的区域。许多努力集中在利用预训练的视觉-语言模型（如CLIP）并设计特定的对齐技术，以有效将VLM知识集成到现有分割模型中。例如，LSeg将文本和像素嵌入到一个共同特征空间中，为每个像素分配标签。MaskCLIP构建了一个两阶段模型，无缝集成CLIP视觉编码器。ZegFormer将问题解耦为一个类别无关的分组任务和一个区域级分类任务以利用VLM。通过利用标注数据，一些研究在弱监督方式下将视觉特征与文本对齐。例如，GroupViT在没有像素级标注的情况下在图像-标注对上进行训练，直接基于文本监督进行掩码分组。OVSeg在掩码图像上对CLIP进行微调，使用从图像标注中的名词生成的伪标签。CGG结合了定位和生成损失，彻底探索了图像标注的知识。此外，其他研究在单个网络中联合学习多个任务或研究文本到图像扩散模型。我们的工作与基于CLIP的方法一致，但不同于两阶段模型，后者通常依赖于图像级CLIP来分类掩码。相反，我们的方法专注于开发一个具有区域级语义意识的单一模型。

图3：TAP概述。a) 基于SAM的架构，我们将掩码解码器升级为通用图像解码器，为每个预测的掩码添加一个额外的语义标记[S]。b) 我们的模型在SemanticSA-1B上进行预训练，联合优化概念预测和可提示分割。c) 随后，预训练的可提示标记器（虚线框内）用于区域标注。

2.3 零样本区域理解

以前的工作专注于将VLM的开放词汇能力扩展到目标检测任务。最近的研究旨在将CLIP在开放词汇分类中的熟练度与SAM在分割中的能力结合起来。例如，SAM-CLIP通过重新训练视觉编码器保留了CLIP和SAM的原始优势。RegionSpot通过在检测数据集上训练的适配器统一提示，使SAM的掩码标记能够与从掩码图像段派生的CLIP特征交互。一些工作尝试构建能够在任意区域识别目标的统一模型。SEEM建立在X-Decoder之上，擅长处理各种类型的提示，包括点击、边界框、涂鸦、文本和引用图像段。遵循SAM，ASM创建了一个新数据集（AS-1B），为SA-1B构建了丰富的语义标签、问答对和详细标注。利用这个数据集，他们开发了一个新的模型ASM，用于全景视觉识别。与这些依赖手工多模态数据集的模型不同，我们充分利用了SA-1B的大量分割掩码和高性能CLIP模型的语义先验，旨在开发一个可提示的标记器，能够理解任何给定区域的语义上下文。

3 方法

我们引入了一个新颖的可提示框架，能够高效地分割、识别和标注任意感兴趣的区域。这是通过预训练一个利用大量分割掩码和CLIP先验的可提示标记器（第3.1节），并随后扩展模型的能力以包括可提示标注的生成能力（第3.2节）来实现的。

3.1 可提示标记化

我们的主要目标是使视觉和语言在一个可提示的分割模型中对齐，以增强模型在区域级语义意识。为此，我们介绍了我们的模型架构、预训练数据集、涉及概念预测和可提示分割的学习方法，以及预训练损失。

模型架构：我们的标记器模型包括三个基本模块：图像编码器、提示编码器和图像解码器（见图3）。我们保持SAM的架构，但将其掩码解码器升级为通用图像解码器。此外，为了更高效和有效地实现我们的目标，我们对SAM的架构进行了几处修改。具体来说，图像编码器采用标准的Vision Transformer（ViT），其中使用了一个16×16的非重叠窗口。为了缓解计算强度，我们将图像编码器中的全局注意力替换为跨窗口卷积块，并将基于查询的相对位置嵌入替换为基于索引的相对位置偏置。关于提示编码器，我们没有将前一阶段的掩码预测添加到图像嵌入中，因为它在先前提示（例如草图点）和高级提示（例如交互点）之间引入了差异。因此，提示编码器中的所有掩码嵌入层都被移除。在图像解码器中，我们为每个预测的掩码添加一个额外的语义标记，其中掩码标记用于像素级分割，而语义标记用于区域级识别。因此，我们的图像解码器总共产生4个掩码和9个标记：4个掩码标记、4个语义标记和一个IoU标记。

预训练数据集：传统的视觉-语言对齐方法依赖于图像-文本对，限制了细粒度区域理解。与依赖精心收集或近似区域-文本数据的先前方法不同，我们仅使用分割数据和CLIP先验来对齐图像段与语言。由于SA-1B是一个类别无关的数据集，我们利用高性能的开源CLIP模型EVA-CLIP来计算每个图像段的概念分布Ptarget作为其语义先验。我们首先创建了一个由来自各种流行图像数据集的2560个类别组成的标签列表。然后，我们使用简单的提示模板：“a {}”或“a photo of a {}”来生成文本嵌入TC。同时，对于SA-1B中的每个掩码图像段，我们通过CLIP获得其视觉嵌入VC。概念分布可以定义如下：

我们进一步提出对齐模型预测和CLIP目标之间的概念分布。概念对齐损失可以定义为Ppred和Ptarget之间的KL散度损失，表示为：

与通常最小化预测视觉嵌入和CLIP视觉嵌入之间的负余弦相似性的特征对齐不同，概念对齐最小化两个分布之间的Lconcept。它测量VP和TC之间的相似性，使VP更接近正TC（即相关概念），同时远离负TC（即不相关概念）。这鼓励VP正交，最大化CLIP的开放世界知识的转移。

可提示分割：SAM中的掩码解码器响应输入提示进行通用分割。因此，我们将可提示分割视为解锁语义能力的必要前提。遵循SAM，我们的模型默认预测每个提示的四个掩码，但路由策略选择一个来解决歧义。为了提高大规模SA-1B数据集上的训练效率，我们实现了一个两阶段采样策略，最多9个提示点，因为它在原始SAM中在11个交互阶段执行。在第一阶段，我们从真实掩码中以相等概率采样一个框或点。在随后的阶段，我们从预测和真实掩码之间的错误区域均匀采样1到8个点。为了启用掩码作为先前提示，我们在第二阶段引入了一种非交互式采样方法，概率为50%。这种采样从真实掩码中均匀获取1到9个点，提供了更广泛的提示空间。关于分割损失Lseg，我们采用焦点损失、骰子损失和IoU预测损失的线性组合，权重为20:1:1。IoU预测头使用均方误差损失进行训练，由预测掩码和真实掩码之间的实际IoU监督，遵循SAM。

预训练损失：我们的最终预训练损失是概念预测和可提示分割的联合损失：L = αLconcept + βLseg，其中平衡权重α，β通过搜索并经验设置为（1,1）以充分学习丰富的CLIP语义。使用这种联合损失，我们在SemanticSA-1B上训练一个可提示的标记器。我们的方法概述如图3所示。

3.2 可提示标注

为了评估可提示语义标记的有效性，在SemanticSA-1B上预训练后，我们在模型顶部附加一个额外的轻量级文本解码器，并在Visual Genome（VG）数据集上对其进行微调。我们的文本生成架构概述如图4所示。

图4：可提示标注。语义标记用于提示文本生成。

区域标注任务：许多先前的工作使用CLIP视觉特征和大型语言模型（LLMs）生成区域标注。最近的方法还依赖于SAM解码器特征，也依赖于LLMs来增强弱语义上下文。然而，简单地附加LLMs不仅增加了计算负担，而且对于区域级视觉理解可能是不必要的，因为区域标注通常由少于15个单词组成。在我们构建紧凑视觉模型的努力中，我们开发了一个生成标记器。这是通过扩展我们标记器的能力（第3.1节）以通过因果语言建模进行文本生成来实现的。具体来说，我们训练一个轻量级文本解码器，由我们标记器的语义标记提示生成区域标注。通过利用这种语义感知的视觉标记器，我们的模型高效地端到端训练这个任务，无需LLMs。

因果文本解码器：我们使用一个标准的Transformer，嵌入维度为512，以生成简短的区域描述。这个轻量级的文本解码器如果由语义上下文提示，足以执行掩码到文本的翻译。给定可提示标记器生成的语义标记（参见图3），我们仅对这些语义标记应用线性投影，使其维度与文本嵌入对齐（见图4）。随后，我们将语义标记放在序列的前导位置，后跟一个[BOS]标记和单词标记。旋转嵌入用于集成多模态序列的位置编码。我们采用字节对编码，词汇量为32k。最终，我们通过因果语言建模进行下一个标记预测，使用交叉熵损失。

4 实验

4.1 实验设置

预训练：我们在SemanticSA-1B上预训练TAP模型，其中包括SA-1B数据及其相关CLIP先验。完整的SA-1B包含11M高分辨率图像，每张图像约有100个区域，总计1.1B分割掩码。为了获得SA-1B数据的CLIP先验，我们受到启发，使用EVA-CLIP生成文本嵌入，合并自COCO、ADE20K、LVIS、Objects365、Visual Genome和OpenImagesV4数据集。这导致了一个涵盖2560个类别的概念列表，涵盖了分割的“事物”和“东西”。

评估：我们在COCO和LVIS上评估零样本实例分割性能。对于零样本实例分类，我们优先考虑LVIS，因为它涵盖了1203个类别，而COCO仅涵盖了80个常见类别，与开放世界假设不符。在区域级标注任务中，考虑到SA-1B和Visual Genome（VG）之间的领域差距，我们采用两阶段微调方法。我们首先冻结图像编码器-解码器，仅使用VG v1.0训练集微调文本解码器，记为“部分微调”。随后，我们解冻图像编码器-解码器并端到端微调模型。我们将这种两阶段微调策略标记为“完全微调”。由于没有具有对齐掩码、类别和标注的网络规模数据集，所有消融研究（第4.3节）均在“部分微调”下进行。我们在VG测试集和RefCOCOg验证集上报告以下四个指标：BLEU@4、METEOR、ROUGE和CIDEr。

实现细节：我们在所有实验中使用AdamW优化器（β1=0.9，β2=0.999），基础学习率为1e-3。我们实现了余弦学习率计划。在SemanticSA-1B上预训练期间，应用范围为[0.5, 2.0]的尺度抖动，进行180k次迭代（约4个周期），批量大小为256，分布在256个GPU上。我们在VG上进行微调，不进行数据增强，进行60k次迭代（约50个周期），批量大小为64，分布在64个GPU上。其他超参数包括权重衰减0.1，ViT-B/ViT-L的drop path率为0.1/0.2，图像/文本解码器的dropout率为0.1/0.4。图像编码器从MAE预训练权重初始化，所有其他层从头开始。在所有实验中，我们在每个采样阶段最多采样64个提示。

4.2 主要结果

零样本实例分类：我们使用真实框提示模型，在LVIS上评估裸识别能力。使用真实框作为视觉提示，我们的模型显著超越了RegionCLIP和RegionSpot，这些模型在有限图像区域上进行训练。这些有希望的结果表明，在详尽图像区域上使用概念预测可以有效增强SAM的语义意识。如表1所示，高性能的EVA-CLIP在零样本评估中优于所有其他方法，实现了令人印象深刻的罕见AP。然而，为实时视觉系统部署一个独立的CLIP（5B）模型来计算大量图像裁剪是不切实际的。我们证明，大型CLIP模型的知识可以集成到一个紧凑的标记器（0.1B）中，性能可接受。

表1：LVIS上的零样本实例分类 [12]。所有条目均使用GT框进行公平比较。上标‘R’、‘C’、‘F’分别指LVIS评估中定义的罕见、常见和频繁类别。

区域级标注：我们在Visual Genome和RefCOCOg上评估我们的模型。最初，我们使用真实框提示图像解码器，然后使用生成的语义标记提示文本解码器。评估结果如表2所示。令人惊讶的是，我们的模型在Visual Genome上实现了154.7的CIDEr分数，即使图像编码器-解码器在SA-1B上预训练且之前未见过VG图像（“部分微调”）。通过采用两阶段微调策略（“完全微调”），我们创下了164.7的CIDEr分数新纪录，仅使用轻量级文本解码器。值得注意的是，同期工作ASM在多模态数据集上进行训练，包括大量区域-文本对。我们模型的语义知识从CLIP模型中学习。另一个同期工作SCA额外训练了一个12层图像解码器，学习标注标记以进行文本提示。这些结果表明，我们的语义标记在预训练期间有效地编码了足够的区域级信息以进行标注，支持我们之前的声明，即TAP可以作为一个位置感知的图像标记器。

零样本实例分割：我们在零样本实例分割任务中评估我们的模型，这是原始SAM擅长的任务。遵循常见做法，我们首先从ViTDet-H模型中获取检测边界框。随后，我们使用这些框提示图像解码器，并在COCO和LVIS上比较裸分割性能（即使用框类别）。为了公平比较，我们报告了原始SAM和我们的复现版本的结果（标记为我们的实现）。如表3所示，我们的模型在不同模型规模上实现了与原始SAM相当的分割结果。这表明额外的概念预测和区域标注任务不会损害SAM的原始能力。此外，它表明通用分割作为一个基本的几何任务，可能无法充分利用视觉基础模型中的语义表示。

表2：在Visual Genome [21] 和 RefCOCOg [37] 上的区域标注。使用GT框作为区域提议。

4.3 消融研究

预训练损失：预训练损失的消融研究如表4和表5所示，其中Lseg、Lfeat和Lconcept分别表示仅使用分割、特征预测和概念预测进行预训练。如表4所示，仅使用Lseg预训练时，标注指标显著降低（模型A）。当与语义预测结合时（模型B/C），标注性能显著提高。尽管显示出语义意识，特征预测在分类和标注任务中均不如概念预测。这些发现表明，概念空间对于获取CLIP先验至关重要。我们推测，这个空间有效地促进了模型从CLIP学习负文本嵌入（即TC）。此外，表4中显示的分割结果表明，使用额外的语义预测既不会增强也不会损害COCO和LVIS上的掩码AP。这一观察结果还表明，SAM式的架构可以包含更多任务监督，而不仅仅是分割掩码。

表3：在COCO [31] 和 LVIS [12] 上的零样本实例分割。使用ViTDet-H [27] 获取框提议，这是一种典型的监督检测方法。

语义标记：为了评估语义标记的有效性，我们进行了四项实验。首先，我们使用“预训练”列中列出的损失预训练我们的模型。随后，我们使用“文本提示”中列出的项目，从冻结的预训练模型中生成，微调文本解码器。模型A作为我们的基线，仅使用Lseg进行预训练。在这里，掩码标记直接用于区域级标注任务，类似于使用原始SAM的输出训练文本解码器。模型D是我们的默认模型，联合优化可提示分割和概念预测。语义标记用于提示文本解码器。如表4所示，语义标记在标注任务中始终优于掩码标记，同时在分割任务中实现可比的AP。最终，语义标记被证明是最有效的。这表明语义标记化显著释放了基础模型的潜力，促进了更多感知任务。

表4：预训练损失和文本提示的消融研究。默认设置用灰色标记。

扩展文本解码器：我们沿深度和嵌入维度扩展文本解码器，以消融标注瓶颈。如表6所示，在VG数据集上，增加模型规模没有显著改进。这表明，除非文本长度和数量进一步增加，否则为区域标注使用更大的解码器可能没有必要。

表5：零样本分类的语义预测任务消融研究。默认任务用灰色标记。

表6：文本解码器架构的消融研究。默认设置用灰色标记。

图5：理解开放世界知识的可视化。

4.4 定性结果

我们使用基于点的提示定性评估TAP。通过简单点击或自动提示密集网格点，我们的模型可以同时生成分割掩码、类别名称和文本描述。

图6：人群理解的可视化。最佳观看方式为彩色并放大。

开放世界知识：图5展示了在开放世界场景中具有挑战性的示例实例。由于词汇设计的主观性，难以通过检索（即分类）选择诸如“pepsi”、“cocacola”、“dragon”、“spider-man”和“whisky”等策划概念。然而，我们的模型在这些概念相关的实例中表现出色，表明其处理开放世界知识的能力。

人群理解：图6可视化了人群区域。TAP准确识别和分割拥挤或繁忙环境中的各种元素。分割掩码精确勾勒出人群、食物以及各种不常见商品和文具所占据的不同区域。此外，伴随的标注提供了整体总结。

5 结论

我们提出了TAP，一个可提示的模型，能够同时分割、识别和标注任意区域内的对象。为了构建这样一个基础模型，我们探索了一个系统解决方案，包括1）新数据集：将LAION-2B的语义先验注入SA-1B，2）新框架：可提示标记化，以及3）有效学习方法：概念预测。我们的主要发现包括：a）视觉提示可以促进超越分割的更广泛任务。b）SAM可以通过图像级CLIP增强区域语义意识，而不会损害掩码AP。c）正交空间，如词汇概念空间，对于有效学习CLIP先验至关重要。TAP旨在通过提示将分割任何内容推进到感知任何内容。我们希望这项工作能够激励社区开发更紧凑和重要的视觉基础模型。

附录

本附录包括六个部分：多模态数据预处理的技术实现（第A节），标注微调细节（第B节），使用点提示的额外评估（第C节），更多可视化（第D节），与同类方法的额外比较（第E节），以及局限性（第F节）。

A 预处理细节

视觉：对于SA-1B中的每张图像，我们裁剪其掩码段。每个段被调整大小并粘贴到224×224的空白画布上，形成一个“图像裁剪”。随后，我们使用EVA-CLIP计算每个裁剪的视觉嵌入VC，总计1.1B视觉嵌入，每个嵌入维度为1024（见图7）。这些嵌入存储在键值数据库（例如TFRecord）中，需要约2.25 TB的存储空间，并与SA-1B数据库同步，后者约为10.55 TB。

图7：构建SemanticSA-1B的流程。

语言：我们将来自流行图像数据集的概念整合，得到2560个概念。使用简单的提示模板，如“a {}”，生成CLIP文本嵌入TC。生成文本嵌入的伪代码如算法1所示。这些文本嵌入进一步用于计算概念分布Ppred或Ptarget。

B 标注微调细节

部分微调：为了防止模型从有限的区域标注数据中学习特定的分割偏差，我们在联合掩码和语义预训练后采用部分微调策略。具体来说，我们冻结图像编码器-解码器，仅在Visual Genome数据上训练文本解码器。这种方法允许我们评估语义标记的有效性。因此，在这种设置下，可提示标注不贡献于分割。

完全微调：为了启用端到端训练，具有对齐的掩码、CLIP先验和区域标注，我们使用部分微调模型为Visual Genome数据生成掩码，并使用EVA-CLIP获得其CLIP先验。通过在这种设置下同时启用定位、识别和标注，我们观察到标注性能显著提高（例如，CIDEr：部分微调 vs. 完全微调：154.7 vs. 164.7）。

下一步探索：端到端训练的惊人结果表明，我们的模型可以作为一个数据引擎，生成高质量的区域视觉-语言标注。这是训练大型视觉-语言模型的重要资产。我们将这一潜在探索留给未来的研究。

C 使用点提示的评估

在手稿中，我们使用真实框评估分类和标注性能，以公平比较缺乏点提示的现有方法。我们进一步使用点提示评估我们的模型。具体来说，我们从真实掩码中采样k个松散点，其中k={1,3,5,9}，观察到5点提示与框提示表现相当（例如，1-/3-/5-/9-点/框的48.1/57.4/58.7/58.9/59.1 APcls在LVIS上）。

D 更多可视化

图8提供了使用各种提示的额外可视化。如观察到的，我们的模型能够准确分割、识别和标注对象，即使在艺术图像中也能展示熟练度。

图8：更多可视化。最佳观看方式为彩色并放大。

图9：失败案例的可视化。

E 与SEEM和SAM-CLIP的比较

所有三个模型都旨在找到一个联合视觉-语义空间。SEEM在COCO和LVIS上训练，预测对象查询和语义掩码。相反，我们的TAP预测SA-1B区域的语义掩码。由于缺乏对象查询，我们使用ViTDet框提示TAP。在这种设置下：从查询预测掩码和从CLIP文本嵌入预测类别，TAP在类别特定的实例分割任务中略优于SEEM（表7）。另一方面，SAM-CLIP将CLIP和SAM特征蒸馏到两个任务头中，用于语义分割（例如ADE20K中的分割）和类别无关的实例分割。尽管每个头保留其原始功能，但将它们集成用于类别特定的实例分割并不直接。相比之下，TAP自然执行此分割任务并取得更好结果（表7）。

表7：零样本实例与语义分割。InstSeg：使用ViTDet的框提示；SemSeg：使用16 × 16网格的点提示。

F 局限性

尽管取得了进展，TAP有两个主要限制。它使用人类策划的标签空间进行训练，仍未达到开放世界假设。这一限制还导致推理过程中相似概念的排名不稳定（图9左）。此外，在有限区域标注数据上微调的文本解码器可能限制模型的可扩展性和视觉-语言理解的广度。例如，对象计数无法通过简单标注数量解决（图9右）。扩展标注数据有望指导模型进行复杂理解。

Tokenize Anything via Prompting——通过提示进行任意内容标记化