一、寻求突破
尽管 DINO-X 在物体检测领域取得了显著的进展,但目前包括其在内的目标检测模型基于自然语言描述来精确识别特定个体的能力——即所谓“指代表达理解(Referring Expression Comprehension,REC)”依然存在相当的不足。为了提升目标检测模型在 REC 领域的能力,研究人员决定寻找一个被广泛应用的场景——人——作为突破点,以此试验并探讨目标检测模型未来的 REC 改进方向。
虽然计算机视觉长期以来一直专注于图像中物体的检测和识别,但在大多数现实应用中,人类仍然是核心主体。传统的 REC 方法主要集中在一对一指代上,就好比你只能说“找出穿红衣服的那个人”,而不能说“找出所有穿红衣服的人”。这种局限性无法反映现实情况,在日常生活中,我们经常需要识别符合相同描述的多个人。比如在学校集体照中找出“所有穿校服的学生”,或在派对照片中识别“所有拿着饮料的客人”。
图1 HumanRef 数据集的标注过程。该过程包括:(a) 伪标签,(b) 编写属性列表,(c) 为每个人分配属性,以及 (d) 使用大语言模型转换为指代风格。
来自国际数字经济研究院(IDEA)和华南理工大学(SCUT)的研究人员通过引入“指向任何人(Referring to Any Person)”的新方法解决了这一差距。他们重新定义了 REC 任务使其更贴近人类自然语言习惯,开发了专门针对人物识别的数据集,并创建了结合视觉检测和语言理解的高级模型 RexSeek,由此为 DINO-XSeek 的诞生奠定基础。
二、重新定义 REC
想象一下以下场景:你和朋友看着一张音乐节的照片,你可能会说“找出舞台左侧戴太阳镜的所有人”,或者“指出照片中某乐队的所有成员”。现有的技术很难处理这些看似简单的请求,原因在于当前 REC 方法存在几个关键局限性:
1. 一对一指代的局限:大多数现有模型假设每个指代表达只对应单一物体,比如只能回答“谁是班长”这样的问题,而无法回答“哪些人是班委会成员”这类指向多人的问题,这与现实使用方式不符。
2. 范围有限:当前数据集专注于简单属性或空间关系,忽略了人类描述的复杂性。比如现有系统擅长识别“穿红衣服的人”,但难以理解“看起来很开心的人”或“正在与老人交谈的年轻人”这样的复杂描述。
3. 缺乏拒绝能力:现有模型往往无法识别描述的人不存在于图像中的情况,导致幻觉。如果你问“找出照片中的宇航员”,而照片是家庭聚会场景,现有系统往往会错误地指定某人,而不是诚实地回答“没有宇航员”。
为解决这些问题,《论文》引入了“指向任何人”的概念,该概念包含五个现实场景中常用的描述方式:
1. 属性描述:包括身体特征、服装、配饰,比如“金发碧眼的人”、“戴眼镜且穿西装的男士”或“拿着红色手提包的女士”。
2. 位置描述:空间关系和位置,例如“站在窗户旁边的人”、“舞台中央的歌手”或“坐在最后一排的学生们”。
3. 互动描述:与其他人或物体的行为和关系,比如“正在给孩子拍照的父母”、“与CEO握手的员工”或“正在交谈的两个人”。
4. 推理描述:基于上下文或特征组合的推断,比如“看起来像是这家庭主人的人”、“似乎是团队领导的那个人”。
5. 名人识别:识别知名人物,比如“照片中的汤姆·克鲁斯”或“前排的比尔·盖茨”。
这种重新定义使计算机视觉系统能够处理三种关键功能:
1. 多实例识别:识别所有符合描述的个体的能力,比如找出“所有穿黑色衣服的人”,而不仅仅是其中一个。
2. 人群区分:区分不同人群的能力,比如区分“右侧的学生们”和“左侧的老师们”这样不同的人群。
3. 识别不存在:识别描述的个体不存在的能力,比如当被问及“找出照片中的宇航员”而照片中没有宇航员时,能够诚实地回答“没有符合描述的人”。
这一重新定义将 REC 从简单的一对一映射转变为更具细微差别和实用性的任务,与人类自然交流方式保持一致,大大拓展了计算机视觉的实用性。
三、HumanRef 数据集
为了训练能理解人类复杂描述的系统,研究团队创建了 HumanRef 数据集——这是一本专门用来教机器“理解人类描述”的教科书,共包含 7,302 张图像和 103,028 个指代语句。
图2 HumanRef 数据集中每张图像的人数分布(左)和每个指代表达的真实边界框分布(右)。
该数据集通过三步标注过程进行构建,具体步骤如下:
1. 属性列表:确定可用于指代人物的相关属性,比如"女士,短发,穿黄色连衣裙,站在门口";
2. 属性分配:交互式地为图像中的每个人分配属性;
3. 指代风格重写:使用大语言模型将属性列表转换为自然指代表达。
研究者特意选择了人数较多的场景(平均每张图片包含 9.6 人),确保数据集能够覆盖各种复杂情况。这与之前的数据集有很大不同,之前的数据集就像只教机器认识单个物体,而 HumanRef 则教会机器理解复杂的人物描述和群体识别。
四、RexSeek 模型架构
要理解 RexSeek 模型,可以将其想象为一个拥有超强视力和语言理解能力的助手。当你说“找出照片中所有戴帽子的孩子”时,这个助手会做什么呢?RexSeek 模型的架构和工作流程如下:
1. 视觉编码器:处理输入图像的视觉信息,了解图像的整体内容;
2. 人物检测器 DINO-X:识别图像中所有个体并提供边界框;
3. 大语言模型千问 2.5:解释指代表达并将其与检测到的个体匹配,比如理解"戴帽子的孩子"这个描述的具体含义;
4. 专用 Token 系统:包括定位 token、目标 token 和目标索引 token,该系统将语言描述与视觉元素建立联系,判断哪些人符合描述。
图3 RexSeek 模型架构,展示了视觉编码器、人物检测器和语言模型与专用物体索引 token 的集成。
该模型同时处理图像和指代表达,然后输出所有符合描述的检测个体的索引。如果没有找到匹配项,模型可以识别并指示匹配个体的缺失。与以往主要关注检测或严重依赖语言模型的方法不同,RexSeek实现了两种能力的平衡集成。这种集成对处理人本指代的复杂性至关重要,其中视觉准确性和语言理解都必不可少。
五、训练方法
RexSeek 的开发涉及精心设计的多阶段训练方法,以构建感知和理解能力,其中包括:
1. 模态对齐:使用图像描述数据进行初始训练,对齐视觉和文本模态;
2. 感知训练:使用面向检测的数据增强检测能力;
3. 通用理解:融合多模态数据以提高整体理解能力;
4. 任务特定微调:使用 HumanRef 数据集进行最终优化。
研究人员发现,这种多阶段方法显著优于传统训练方法,使模型能够在视觉感知和语言理解方面建立强大的基础,然后专门用于以人为主的指代表达任务。
六、模型性能
在 HumanRef 基准评估中,RexSeek 相比现有最先进模型展示了显著改进。实验揭示了几个关键发现:
1. 多人识别能力卓越:当大多数现有模型随着目标个体数量增加而表现急剧下降时, RexSeek 在所有场景中都保持了高精确度和召回率。
图4 基于每个指代表达的实例数量,各种模型的精确率和召回率表现。RexSeek 在所有场景下都能保持性能,而其他模型的性能会随着实例数量的增加而下降。
1. 有效的拒绝能力:与其他在指代的人不存在时倾向于产生幻觉的模型不同, RexSeek 成功识别了不存在的情况。
2. 强大的泛化能力:尽管主要针对人物识别进行训练,RexSeek也能理解“找出照片中的狗”或“指出桌子上的咖啡杯”这样的指令,显示了它的通用适应能力。
3. 平衡的精确度和召回率:RexSeek在准确性(不错误识别人物)和全面性(不遗漏符合条件的人)两方面都表现出色。
这些结果验证了研究人员重新定义指代任务的方法,并凸显了其模型架构和训练策略的有效性。RexSeek 在 HumanRef 基准的所有子集上显著优于现有模型,尤其是在涉及多实例和拒绝情况的挑战性场景中。
七、应用场景
RexSeek 的技术突破为众多实际应用开启了可能性,这些应用将改变我们与数字世界的互动方式,其中包括:
1. 人机交互:使机器人能够理解关于周围环境中人物的自然语言指令;
2. 视觉搜索系统:允许用户使用自然语言在照片集合中搜索特定个体;
3. 安全与监控:基于口头描述识别感兴趣人物;
4. 辅助技术:帮助视障人士了解图像中存在的人物;
5. 内容分析:自动识别媒体中的人物,用于内容审核和组织。
结语
RexSeek 的研究通过重新定义系统如何基于自然语言描述识别和定位个体,使机器更接近人类理解视觉世界的方式——从只能识别单个物体,到能够理解多实例的复杂场景,这是质的飞跃。
随着这项技术的发展,我们期待计算机视觉系统能够越来越自然地理解人类世界,不仅看到人,而是更深刻地理解人类世界存在的各个维度的对象之间的复杂关系。这种计算机视觉能力将使技术更加直观、更加自然地融入我们的生活。
== 彩蛋 ==
1. 论文《Referring to Any Person》,作者:Qing Jiang, Lin Wu, Zhaoyang Zeng, Tianhe Ren, Yuda Xiong, Yihao Chen, Qin Liu, Lei Zhang。链接:https://arxiv.org/abs/2503.08507
2. 调用最新 DINO 家族 API 请前往 DINO-X 开放平台:https://cloud.deepdataspace.com/
3. 在线体验最新的 DINO-XSeek 模型,请前往 DINO-X Playground:
https://cloud.deepdataspace.com/playground/dino-x?referring_prompt=0