51c自动驾驶~合集42

发布于:2024-12-22 ⋅ 阅读:(13) ⋅ 点赞:(0)

我自己的原文哦~   https://blog.51cto.com/whaosoft/12888355

#DriveMM

六大数据集全部SOTA!最新DriveMM:自动驾驶一体化多模态大模型(美团&中山大学)

近年来,视觉-语言数据和模型在自动驾驶领域引起了广泛关注。许多精心设计和标注的数据集用于微调多模态大模型,使模型不仅能理解视觉输入并生成文本回答,更能适用于自动驾驶多种应用场景。由于驾驶场景的复杂多变以及驾驶行为的多样性,现有的自动驾驶模型和数据往往专注于单一场景和任务。虽然这些方法表现出了显著的性能,但模型的适用性局限于特定场景和任务,比如特定的输入类型和数据集特定的任务。一方面,我们注意到不同数据集的收集方法是由其特定任务决定的。例如,专注于极端情况和特殊物体感知的数据集只需要前视图图像,而与车辆行为预测和自车决策相关的任务则需要多视角甚至视频的输入。另一方面,每个数据集都聚焦于特定子任务。因此,在单一数据集上训练的专有模型缺乏处理现实世界中复杂多样任务所需的通用能力和迁移至新场景新任务的泛化能力。为了解决这些问题,本文提出了DriveMM,一种通用的大型多模态模型,旨在处理多种数据输入,如图像和多视角视频,同时执行广泛的自动驾驶任务,包括感知、预测和决策。

图片

总结来说,本文的主要贡献如下:

  • 提出了一种新型的一体化多模态大模型DriveMM,它具有执行各种AD任务的通用能力和有效转移到新数据集的泛化能力。
  • 介绍了评估自动驾驶LMM的综合基准,其中包括六个公共数据集、四种输入类型和十三个具有挑战性的任务。据我们所知,这是首次使用多个基准来评估自动驾驶LLM。
  • 提出了一个大模型原则,用于对不同的多模态数据和AD数据进行预训练和微调。DriveMM展示了最先进的性能,并在所有评估的基准测试中始终优于在单个数据集上训练的模型。

图片

相关工作回顾Vision-Language Driving Datasets

近年来,已经开发了许多视觉语言驱动数据集,旨在训练和评估为AD场景设计的LMM。DRAMA、CODA-LM和DriveVLM专注于风险目标和极端情况学习。除了单视图数据外,许多研究还基于nuScenes数据集构建了多视图数据。例如,NuScenes QA为3D对象关系引入了自由形式的问答注释。DriveLM、OmniDrive和NuInstruct使用原始标注和LLM生成视觉问答对,涵盖感知、推理和计划。此外,MAPLM集成了多视图数据和LiDAR数据来分析和识别路面状况。在这篇论文中,我们扩充和标准化了多个驾驶数据集,为不同的自动驾驶场景训练了一个全面的LMM。

LMMs for Autonomous Driving

LMM在各种任务中表现出了令人印象深刻的表现。最近,研究人员开始探索LLM在AD领域的潜力。早期的工作,DiLu和GPT Driver试图利用GPT-3.5和GPT-4作为驾驶规划工具。随后,DriveGPT4和RDA Driver引入了端到端的LMM,可以生成控制信号或轨迹。与通过语言处理驾驶操作的方法不同,LMDrive和DriveMLM使用解码器从隐藏的嵌入中预测控制信号。为了提高感知和推理能力,有几种方法旨在改进模型架构。Reason2Drive提出了一种先验标记器来提取局部图像特征,BEV-InMLLM将鸟瞰图(BEV)表示注入到LMM中。OmniDrive使用Q-Former3D将2D预训练知识与基本的3D空间理解相结合。ELM包含一个时间感知令牌选择模块,用于准确查询时间线索。尽管这些方法已经证明了令人满意的性能,但它们的适用性仅限于特定的场景和任务,例如特定的数据类型或特定于数据集的任务。有鉴于此,我们提出了一种一体化的LMM,旨在有效地处理AD中的各种驾驶场景和任务。​

DriveMM方法详解

概览

本文提出的DriveMM是一种一体化的LMM,旨在有效地处理AD中的各种驾驶数据和任务。形式上,给定车辆传感器捕获的视觉信号Xv和用户指令Xt,DriveMM F(·)提供了与驾驶相关的分析和建议:

图片

Xv可以表示各种数据格式,包括单目、环视图像或LiDAR捕获的图像、多图像、视频和多视频,而Xt则包含与感知、预测、推理、决策等有关的问题。通过整合不同的数据和任务,DriveMM可以在广泛的AD视觉语言数据上进行训练,从而在不同的数据集和任务之间实现相互改进。此外,一旦经过训练,DriveMM可以有效地部署在各种现实世界的AD场景中,例如不同的相机和雷达系统配置,以及各种AD任务。

在接下来的部分中,我们首先描述DriveMM的架构,它能够处理不同传感器捕获的多种类型的数据。为了促进模型对AD场景的理解,我们收集了具有多种数据格式和任务的不同数据集,然后增强和标准化它们的问答对,以加强不同数据集之间的协作。为了在各种数据集和任务上有效地训练DriveMM,我们采用了一种课程学习方法来逐步提高模型的能力。

Model Architecture

图片

我们的目标是设计一个高效的模型架构,可以同步处理广告场景中的单幅图像、多幅图像、单视图视频和多视图视频。如图2所示,DriveMM遵循了LLaVA等主要LMM的设计。它由三个部分组成:视觉编码器Fe(·)、投影仪Fp(·)和LLM Fl(·)。

视觉编码器SigLIP:

图片

之后,投影仪将图像特征投影到单词嵌入空间中:

图片

基于视觉标记Hv和用户指令Xt,LLM逐步计算目标单词的概率:

图片

视角感知提示。在方程式(4)中,典型的LMM[2,26]会使LLM输入的视觉特征变平,无法区分视角(如前视图或后视图)和格式(如图像或视频)。为了解决这个问题,我们提出了一种感知视角的提示。如表2所示,我们使用不同的占位符(即image和video)进行图像和视频输入,其中占位符在输入LLM之前将被相应的令牌替换。我们还为具有不同视角的图像/视频分配了数字标签,并在文中解释了每种图像/视频的具体相机或激光雷达。为了提高计算效率,我们对视频特征Hv应用2×2的空间池,然后将它们展平为视觉标记。DriveMM结合了视角和数据格式的信息,可以更好地解释复杂的交通状况,识别多个对象及其空间关系,并做出更明智的决策。

图片

数据

在LMM的训练中,数据在启用和激活LLM理解多模态信息的能力方面发挥着至关重要的作用。为了提高DriveMM在多模态AD场景中的理解和推理能力,我们构建了三个不同的数据集:传统多模态数据、感知数据和自动驾驶数据。

Conventional Multimodal Data

最近的研究表明,随着数据量的增加,LMM可以实现更高的性能。然而,与在线可用的丰富图像文本数据相比,AD图像文本数据明显有限。为了提高DriveMM的性能,我们使用广泛的多模态数据预训练了一个基础模型,从而能够使用单幅图像、多幅图像和视频进行推理。

具体来说,我们构建了一个多模态数据集,其中包括图像-文本对和各种视觉指令调整数据。图像-文本对的目标是对齐视觉编码器和LLM,使模型能够对图像有基本的理解。我们使用了多个数据集,包括LCS-558K、COCO118K、CC3M。为了增强模型处理各种传感器配置(如单视图和多视图相机)中的视觉数据的能力,我们利用OneVision数据中的视觉指令调整数据,包括图像、多图像和视频。

Perception Data

为了使DriveMM具备AD感知能力,我们创建了一个全面的基础数据集,包括各种数据格式。对于单幅图像数据,我们使用COCO和Object365数据集。我们从图像中随机选择一个类别,并使用基础提示(例如,“检测图像中的所有<category>”)来提示模型检测该类别中的所有对象。我们用边界框[xmin,ymin,xmax,ymax]或区域中心[xcenter,ycenter]表示对象的位置。基于图像的大小,x和y值在0到100的范围内进行归一化。对于多视图图像和多视图视频,我们采用nuScenes[3]数据集。为了给模型注入空间意识,我们希望它不仅能预测物体边界框,还能估计相机的视角。因此,我们用[cam,xmin,ymin,xmax,ymax]或[cam,xcenter,ycenter]表示对象的位置,其中cam表示相机视角,如“cam BACK”。图3左下角展示了感知数据的一个示例。

图片

Autonomous Driving Data

在这里,我们收集了不同的数据集来训练一个一体化的LMM,该LMM可以同步处理不同场景中的各种AD任务。具体来说,我们使用了六个自动驾驶数据集:CODA-LM、MAPLM、DriveLM、LingoQA、OmniDrive和NuInstruct。表1显示了六个数据集的详细描述。这些数据集包括各种传感器配置,如摄像头和激光雷达,以及不同的AD任务,包括感知、预测和规划。值得一提的是,不同的数据集可能会表现出不同的问题模态。为了促进协作增强,我们对问答对进行了如下扩充和标准化。问答增强。一些数据集仅限于一组固定的模板。例如,CODA-LM仅包含三个问题模板,而MAPLM则使用了五个。这阻碍了模型推广的潜力。为了克服这一局限性,我们使用GPT-4o-mini来增强问答对并增加其多样性。此外,很大一部分问题是开放式的。为了进一步增强多样性,我们将一些开放式问题随机转换为多项选择题。图3右下角展示了一个增强示例。

问答标准化。不同的数据集可能在问答风格上表现出不一致。例如,DriveLM使用“<c6,CAM BACK,1088.3,497.5>”来表示一个对象,其中“c6”表示类ID。相比之下,NuInstruct使用“<car>[c6,139,343,1511,900]”的格式,其中“c6”表示相机ID。为了确保跨数据集的兼容性,我们标准化了对象的表示并明确指定了表示格式。此外,为了适应不同大小的图像中的边界框,我们根据图像的大小将边界框的坐标标准化为0到100的范围。例如,对于NuInstruct数据集,我们将对象重新表示为“<car>[CAM BACK RIGHT,8.688,38.111,94.438,100.000]”,并在问题末尾添加格式化指令,如图3右下角所示。

训练

在本节中,我们将介绍一种课程学习方法,以逐步提高模型在各种AD数据和任务上的性能,从而形成一体化的自动驾驶模型DriveMM。具体来说,我们逐渐增加数据的复杂性,从单个图像到多个视频,以及从图像字幕到驾驶推理的任务复杂性,以训练DriveMM。如图3所示,训练过程分为四个步骤:

第一阶段:语言图像对齐。这一阶段的目标是为预训练的法学硕士提供多模态理解的基本能力。为了实现这一点,我们训练投影仪与LLM的单词嵌入空间对齐。我们冻结了视觉编码器和LLM,只优化了LCS-558K上的投影仪。

第二阶段:单幅图像预训练。在这个阶段,我们通过集体优化整个模型来进一步增强模型理解单个图像的能力。我们使用所概述的图像-文本对并优化模型的所有参数,以提高LLM对多模态任务的适用性。

第三阶段:多能力预训练。为了获得训练AD系统的稳健基础模型,我们增强了模型在不同场景下的推理和感知能力。为此,我们利用所描述的视觉指令调优数据来增强模型,以推理基本的视觉元素。此外,我们使用所描述的感知数据来促进模型的感知能力。值得注意的是,训练数据包括多种数据格式,包括单图像、单视频、多视图图像和多视图视频。通过为模型配备处理各种数据和任务的能力,我们为训练一体化AD模型奠定了基础。

第四阶段:Driving微调。为了使DriveMM能够处理广泛的AD任务,我们在不同的驾驶数据集上进一步微调了模型。具体来说,我们利用了六个增强和标准化的自动驾驶数据集。在这个阶段,我们优化了模型的所有参数。一旦经过训练,所提出的一体化DriveMM可以有效地部署在各种AD场景中,例如不同的摄像头和雷达系统配置,以及各种AD任务。​

实验结果

图片

图片

结论

本文提出了一种一体化的大型多模态自动驾驶模型DriveMM,它可以处理各种类型的数据,并在现实世界中执行多种驾驶任务,表现出出色的通用性和鲁棒性。据我们所知,我们是第一个开发AD综合模型并在各种AD场景中跨多个数据集评估模型的公司。通过增强和标准化几个开源数据集并设计与数据相关的提示,我们从头开始对模型进行多步预训练和微调。DriveMM在现实场景中的各种数据和任务中实现了最先进的性能。

#SFPNet

迈向通用Lidar分割!取代Transformer的新架构SFPNet

迈向通用激光雷达语义分割(),取代Transformer的新架构SFPNet,新数据集S.MID

论文标题:SFPNet: Sparse Focal Point Network for Semantic Segmentation on General LiDAR Point Clouds
论文地址:https://arxiv.org/abs/2407.11569
数据集网站:https://www.semanticindustry.top
代码地址:https://github.com/Cavendish518/SFPNet

背景

激光雷达因其在包括低光照条件在内的多种环境下的精确距离检测能力而成为自动驾驶汽车和机器人的热门选择。激光雷达点云能够精准表征真实场景,通过语义分割实现对三维场景的直接理解,相比基于二维图像的分割,这些优势能够更有效地支持后续的定位、规划等任务。

摘要

现有激光雷达语义分割的SOTA方法通常包含专门为机械旋转激光雷达设计的归纳偏置。这限制了模型在其他类型激光雷达技术中的通用性,并使超参数调整变得更加复杂。为了解决这些问题,上海交通大学团队提出了一种通用的框架SFPNet,用稀疏焦点机制代替窗口注意力机制,以适应市场上流行的各种类型的激光雷达。SFPNet能够提取多层上下文信息,并使用门控机制动态聚合不同层次的信息。作者还提出了一种针对工业机器人应用场景的新型混合固态激光雷达语义分割数据集S.MID。SFPNet在nuScenes 和SemanticKITTI等机械旋转激光雷达数据集中展示了具有竞争力的性能,在固态激光雷达数据集PandaSet和混合固态激光雷达数据集S.MID上表现优于现有方法。

动机

图片

图1不同类型的激光雷达点云分布和FOV对比。

对于激光雷达分割任务的backbone网络,它需要解决的三个主要挑战是稀疏性大规模性点云密度的非均匀变化。先前的研究将归纳偏置(特殊分区或特殊窗口和位置编码)引入到单一类型的激光雷达(通常是机械旋转激光雷达)来解决上述三个挑战(图2)。这会限制模型对其他类型激光雷达的通用性,并使超参数调整更加复杂。在这种背景下作者提出了稀疏焦点机制来替换窗口注意机制。

图片

图2窗口注意力机制(左上,左下),圆柱分区(右上)和稀疏焦点机制(右下)的直观对比。

方法

稀疏焦点模块可以替换窗口注意力机制,直接插入现有的网络中。稀疏焦点模块具有如下形式:

图片

稀疏焦点模块具有两条性质1)包含上下文信息的显式局部性 2)平移不变性。

图片

图3 稀疏焦点模块。

方法具体实现如下,给定一个激光雷达特征序列X。
先进行多级上下文提取:

图片

图片

然后进行自适应特征聚合:

图片

最后实现通道信息查询:

图片

数据集

作者使用装备了Livox Mid-360的工业机器人在电站场景采集并标注了38904 帧数据。数据集场景如下:

图片

图4 S.MID数据集中的累计点云图。

和传统benchmark,nuScenes 和SemanticKITTI的对比:

图片

表1 数据集对比。

实验结果

作者在不同类型的激光雷达数据集nuScenes ,SemanticKITTI, PandaSet和S.MID上进行了实验,SFPNet均取得了非常好的分割效果,表现出了很好的通用性和鲁棒性。

图片

表2 和现有backbone类型的网络在不同类型激光雷达数据集上的效果对比。

图片

表3 nuScenes验证集。

特别地,针对混合固态激光雷达点云分布的随机性,SFPNet有较好的结果,而前人的方法和标准稀疏卷积网络相比效果没有明显提升,即前人设计的模块失效。印证了方法的通用性。

图片

表4 S.MID验证集。

作者还给出了可解释性的可视化验证。消融实验验证了各个模块的必要性。

图片

图5 可解释性分析。某一个点(红星)和周围特征()的相关性。

图片

表5 消融实验。

总结

作者提出了一种新的通用的激光语义分割网络SFPNet。该方法可以替换现有主流网络中的窗口注意机制。SFPNet在各种类型激光雷达的数据集上表现出出色的性能,并具有良好的可解释性。作者还构建了一个全新的基于混合固态激光雷达的数据集S.MID。

#蔚来官宣上交校友出任萤火虫总裁

蔚来“小车”总裁曝光了。

蔚来第三品牌萤火虫亮相前夕,该品牌总裁金舸走向前台。

这位出自油车世家,长期深耕油车的老汽车人,在预判到时代趋势,和李斌交流对话后,毅然转型,已悄然主导“蔚来版MINI”近3年之久。

三年间,新能源渗透率翻倍增长,中国车市格局大变,新势力走向成熟,扬帆出海。

萤火虫就是乐道之后,蔚来重获增长,拓展海外市场的又一张牌。

新品牌引发关注,争议随之而来。

为什么萤火虫要独立换电体系?

萤火虫,或许将推出增程???

出身汽车世家的工程师

金舸,蔚来副总裁、firefly萤火虫总裁,1980年出生于湖北,来自“汽车世家”。

他的父母都是东风汽车的老人,18岁那年考入上海交通大学后,其高考志愿也是在一位“东风元老”的建议下,放弃机械工程专业,转而填报电子信息。

2002年,金舸本科毕业后前往美国特拉华大学,攻读电子工程硕士学位。美团创始人王兴此时也在特拉华大学读研,不清楚两人是否有交际。

2005年,金舸离开校园参加工作。

颇让人意外地是,他先去了香港,在汇丰银行做了2年管培生和客户经理。

然后在2007年7月又回到上海,加入上汽,转行成为一名工程师。

在上汽一待就是十四年,平均每2年就会换一个岗位。

2009年1月,金舸被派往上汽通用英国技术中心,担任总经理助理,此后金舸便一直在上汽通用品牌工作。

金舸在英国大大扩充了技术栈,从专业的电子电气人才,转变为了解底盘、内外饰、动力总成等各个方面技术的T字形人才。

2年以后,金舸调回国内,升任上汽通用总经理助理,开始全面接触整车产业链。

此后八年,金舸历任豪车组副主管、GEM平台项目主管、紧凑型、MPV和高端车型等多个产品线执行总监。

先后负责过MG3小车、别克GL8、凯迪拉克CT5等多款车型的研发,曾长期领导开发的GEM平台,后来荣获上汽年度技术创新奖

或许是因为负责开发的车型很全面,再加上有海外经历,2021年年底,金舸接到了蔚来的邀请,想约着聊一聊。

和谁聊?

蔚来001号员工、产品副总裁李天舒,蔚来执行副总裁周欣,以及李斌

恰好,金舸早在2014年就预感到行业“可能会变天”,对电动车很感兴趣。

于是他欣然赴约,用两个月的时间,和三位高管合计聊了六轮后,金舸决定加盟,在2022年开始主导萤火虫项目。

2024年9月,金舸升任蔚来副总裁,近期又正式以萤火虫总裁身份走向台前,与李斌一起透露了许多关于萤火虫的信息。

萤火虫已公开的信息

萤火虫定位“高端智能小车”,对标宝马MINI和奔驰Smart,该品牌在国内只有一款车,firefly萤火虫既是品牌名,也是车名,

车的尺寸介于MINI和Smart之间,定价会参考宝马纯电MINI。

从目前透露的信息来看,这款车主要有三大卖点:

  • 外观“灵动”,先吸引人上车
  • 内部“巧思”,上车后会发现很多“巧思”,“小车大空间”。
  • 智能化,或许会有自动泊车和城市通勤NOA。

不过相比乐道,蔚来对这款车在国内的销量预期并不高,预期月销只有几千辆。

蔚来认为,高端智能电动小车在国内暂时属于“未打开的市场”,这款车立项时主要面向的是欧洲。

金舸认为,欧洲可称得上“小车王国”,小车市场份额大概在400万辆左右。

其他地区蔚来也在考虑,明年萤火虫就会进入全球25个国家

出海带来了新的可能。

最值得关注的是,萤火虫很可能会是蔚来的首款增程车型——但李斌也明确表示,国内肯定是纯电——按照之前被解读的说法,蔚来如果有增程方面的车型,更多可能还是在中东地区的特供车型,毕竟蔚来有来自石油国度的重要支持。以及更主要的是海外纯电基建落后,需要有配套的其他考虑。

不过,尽管萤火虫在国内仍然支持换电,但换电体系独立于现有网络

蔚来表示,由于萤火虫是小车,电池规格也小,如果加入现有的换电体系,那换电站就要添加新的SKU,拉低换电效率

此外,蔚来认为,由于萤火虫的场景主要是城区代步,所以补能焦虑相对比较小。

有车主对“独立换电站”的操作感到迷惑,在车主社区发声:

直觉上投入产出算不过来

这篇帖子一下成为蔚来社区近期的热文,于是,李斌出来回应了:

李斌表示,萤火虫的换电站会更小,成本更低,不会成为财务包袱

此前金舸也认为,萤火虫一定是赚钱的项目

因为萤火虫会和乐道一样,复用很多蔚来的资源,甚至包括销售体系,“成本边界比乐道还低”。

萤火虫不会像乐道那样,单开门店,会直接在蔚来门店卖。

萤火虫亮相的时间,恰逢蔚来十周年。

坚守高端纯电十年后,蔚来在今年,开始将技术势能下放。

正在产能爬坡的乐道,算得上初战告捷,也为萤火虫提供了成功经验。

比如,蔚来透露,为了保证交付,萤火虫会先攒一点库存。

手握三大品牌的蔚来,将迎来新的增长曲线。

萤火虫小车,也已经明确在本周六NIO DAY现场发布,按照MINI目前20万以内的定位,萤火虫在换电政策下应该能到15万左右的售价水平。

会打动一波小车需求用户吗?

参考链接:

​https://weibo.com/7967928769/P5pj3xbQv​

​https://www.pingwest.com/a/300952​

​https://tech.ifeng.com/c/8fPxKmCyNsO​

#HyperSeg

清华和美团提出:通用分割框架

首个基于视觉大语言模型(VLLM)的通用分割模型,能够处理像素级的图像和视频感知任务,并具备复杂的推理和对话能力。HyperSeg在多个分割任务中刷新了10项SOTA(State of the Art),展现了其在视觉-语言推理感知任务中的卓越性能。模型和代码已开源。

近来,视觉大语言模型(VLLM)在多种视觉-语言理解任务中表现出色的推理和对话能力。然而,这些方法基于全局的视觉-语言对齐,限制了其在视觉感知任务中细节理解能力,如图像和视频域的像素级分割。近期的研究使VLLM能够进行细粒度的视觉理解,如指代分割(RES)和推理分割(ReasoningSeg)。尽管这些方法的表现令人瞩目,目前仍缺乏基于VLLM的通用分割框架,可以同时处理图像和视频域的诸多视觉感知任务,以及更复杂的推理分割任务,并且同时具备VLLM本身强大的对话推理能力。

清华和美团的研究团队针对VLLM在细粒度视觉感知任务中的局限性,提出了统一的通用分割框架:HyperSeg。HyperSeg是首个基于VLLM的通用分割模型,可以同时处理像素级图像和视频感知,并具有复杂的推理和对话能力。HyperSeg在需要丰富世界知识的复杂视觉-语言推理感知任务中表现出色,这对于现实世界的理解和交互具有重要意义。HyperSeg把诸多感知任务划分为两种统一的prompt格式:(1)文本提示(类别名称、推理问题和指代语句),(2)视觉提示(框、掩码等)。得益于对多样分割任务和不同视觉域数据的协同训练,HyperSeg可以学习不同指令和视觉概念之间复杂关联。

图片

HyperSeg贡献如下:

  • 首个基于视觉大语言模型(VLLM)的通用分割模型,用于像素级的图像和视频感知,涵盖了诸多常见分割任务、复杂推理分割任务以及基于对话的视觉-语言理解任务。
  • 将混合实体识别和细粒度视觉感知策略整合到VLLM中,充分利用VLLM的语义识别能力以及注入更多细粒度的视觉信息。此外,得益于时序适配器的设计,模型能够处理更具挑战性的视频感知任务,提升通用分割能力。
  • 模型性能优异,在多项通用分割任务中展示了强大的性能,对于开放分割以及多模态对话任务也展示出了令人瞩目的能力。

HyperSeg的模型和代码已开源:

图片

论文:https://arxiv.org/abs/2411.17606

代码:​​https://github.com/congvvc/HyperSeg​

模型实现:

HyperSeg的架构包含一个细粒度的金字塔视觉编码器、一个轻量级的视觉大语言模型(VLLM),一个细粒度视觉感知器(FVP)和一个分割预测器。模型根据视觉输入(图像或视频)和prompt输入(视觉或文本),输出分割掩码、类别得分和实例嵌入(用于视频实例跟踪)。FVP模块将多尺度高分辨率视觉特征融合于细粒度tokens,为LLM注入细粒度的视觉信息。LLM接收三种类型的输入:由CLIP编码器编码的视觉tokens、细粒度tokens以及多样化的prompt tokens。分割预测器接收语义增强的mask tokens、prompt 特征嵌入以及多尺度视觉特征作为输入,输出对应prompt下的分割结果。

图片

细粒度视觉感知器(FVP)设计。以往的视觉感知器往往使用的是粗糙的单尺度CLIP视觉特征, 相比之下FVP将多尺度的细粒度视觉特征融入LLM,更加适配细粒度视觉感知任务。

图片

混合实体识别策略。相比于以往的generation-only (a) 方法以及decode-only (b) 方法,混合实体识别策略 (c) 结合语义类别识别以及类别相似度计算两种方式,得到每个分割掩码的得分。

图片

模型性能对比

对于广泛使用的指代分割 (RES) 任务,HyperSeg在RefCOCO, RefCOCO+和RefCOCOg上均取得了最先进的性能,此外在G-RES基准gRefCOCO上也取得了令人瞩目的zero-shot性能。

图片

对于更加复杂且具有挑战性的推理分割任务来说,HyperSeg以更少的模型参数(3B)大幅领先于先前最先进的方法,尤其是在ReVOS-Reasoning上带来了+12.1的性能提升。

图片

此外,HyperSeg在传统的全景分割、语义分割、以及开放词汇分割任务的多个数据集上,无论是与以往的分割专家模型或是基于VLLM的分割模型相比,也取得了最先进或具有竞争力的结果。

图片

HyperSeg在常见的视频分割任务如视频目标分割,指代视频目标分割及视频实例分割上也取得了令人印象深刻的性能表现。

图片

最后,HyperSeg在常见的多模态问答任务上也有着不错的表现,展现了其在推理和对话方面的卓越能力。

图片

下图展示了 HyperSeg在多个视觉分割任务上的可视化结果,如全景分割、指代分割、推理分割等。

图片

总结

HyperSeg是首个基于视觉大语言模型(VLLM)的通用分割模型,专为像素级图像和视频感知设计,涵盖了广泛的通用分割和复杂推理任务。通过一些专有模块的设计,HyperSeg能灵活处理不同类型以及不同视觉域的分割任务,并且保留了强大的对话推理能力。HyperSeg拓展了VLLM在视觉感知以及推理任务中的可能性,并为未来可能的研究提供了一些insight。