AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.09.15-2024.09.20

发布于:2025-03-25 ⋅ 阅读:(18) ⋅ 点赞:(0)

文章目录~

1.Exploring Fine-Grained Image-Text Alignment for Referring Remote Sensing Image Segmentation

标题:探索用于参考遥感图像分割的细粒度图像文本对齐技术

author:Sen Lei, Xinyu Xiao, Heng-Chao Li, Zhenwei Shi, Qing Zhu

date Time:2024-09-20

paper pdf:http://arxiv.org/pdf/2409.13637v1

摘要
给定语言表达,参考遥感图像分割(RRSIS)旨在识别图像中的地面物体并分配像素标签。这项任务面临的主要挑战之一是通过文本-图像配准捕捉多模态特征。然而,现有的 RRSIS 方法使用的是一种虚构的粗对齐方式,即直接提取语言表达与视觉特征进行融合。本文认为,"细粒度图像-文本配准 "可以改善多模态信息的提取。为此,我们提出了一种新的遥感图像分割方法,称为 FIANet,它能充分利用视觉和语言表征。具体来说,原始参考表达被视为上下文文本,并进一步解耦为地面物体文本和空间位置文本。所提出的细粒度图像-文本配准模块(FIAM)将同时利用输入图像和相应文本的特征,学习更好的多模态判别表征。同时,为了处理遥感中不同尺度的地面物体,我们引入了文本感知多尺度增强模块(TMEM),以自适应地执行跨尺度融合和交叉。我们在两个公共参考遥感数据集(包括 RefSegRS 和 RRSIS-D)上评估了所提方法的有效性,结果表明我们的方法比几种最先进的方法性能更优。代码将公开发布。

2.Region Prompt Tuning: Fine-grained Scene Text Detection Utilizing Region Text Prompt

标题:区域提示调整:利用区域文本提示进行精细场景文本检测

author:Xingtao Lin, Heqian Qiu, Lanxiao Wang, RUihang Wang, Linfeng XU, Hongliang Li

date Time:2024-09-20

paper pdf:http://arxiv.org/pdf/2409.13576v1

摘要
提示调整方面的最新进展成功地将对比语言图像预训练(CLIP)等大规模模型应用于场景文本检测等下游任务。通常情况下,文本提示是对文本编码器输入的补充,侧重于全局特征,而忽略了细粒度细节,导致在场景文本检测任务中忽略了细粒度文本。本文提出了用于细粒度场景文本检测的区域提示调整(RPT)方法,其中提出的区域文本提示有助于关注细粒度特征。区域提示调整法将区域文本提示分解为单个字符,并将视觉特征图分割为区域视觉标记,在字符和标记之间建立一一对应关系。这样,字符就能匹配标记的局部特征,从而避免遗漏细节特征和细粒度文本。为此,我们引入了共享位置嵌入,将每个字符与其对应的标记联系起来,并采用双向距离损耗将每个区域文本提示字符与目标 "文本 "对齐。为了完善细粒度信息,我们在编码前后实现了字符与标记的交互。我们提出的方法将图像-文本处理过程中产生的总分图与字符-令牌匹配过程中产生的区域分图结合在一起,最终产生的分图可以平衡全局和局部特征,并输入 DBNet 以检测文本。在 ICDAR2015、TotalText 和 CTW1500 等基准测试中,RPT 的表现令人印象深刻,凸显了其在场景文本检测中的有效性。

3.FullAnno: A Data Engine for Enhancing Image Comprehension of MLLMs

标题:FullAnno:增强 MLLM 图像理解能力的数据引擎

author:Jing Hao, Yuxiang Zhao, Song Chen, Yanpeng Sun, Qiang Chen, Gang Zhang, Kun Yao, Errui Ding, Jingdong Wang

publish:7 pages, 5 figures, 2 tables

date Time:2024-09-20

paper pdf:http://arxiv.org/pdf/2409.13540v1

摘要
多模态大语言模型(MLLMs)凭借其强大的推理和泛化能力,在广泛的视觉语言任务中大显身手。然而,它们在很大程度上依赖于监督微调(SFT)阶段的高质量数据。现有的方法旨在通过 GPT-4V 收集高质量数据,但由于 GPT-4V 的商业性质和用于指导模型的提示的简单性,这些方法无法扩展。为此,我们设计了 FullAnno 系统,它是一个数据引擎,可以生成大规模、高质量和细粒度的图像注释,包括对象的类别和位置、区域描述、文本信息以及图像密集标题。该引擎的特点是其级联注释流程,涉及多个专家模型,并采用丰富的提示来指导 LLM 生成密集的图像标题。我们使用 FullAnno 系统对 COCO 和 Visual Genome 数据集进行了重新标注,对象标注的数量增加了两倍,原始图像标题的长度增加了 15 倍。实验表明,重新生成的注释可以显著提高 LLaVA-v1.5 在多个基准测试中的性能。重新标注的数据可在以下网址获取: https://arcana-project-page.github.io

4.DAP-LED: Learning Degradation-Aware Priors with CLIP for Joint Low-light Enhancement and Deblurring

标题:DAP-LED:利用 CLIP 学习劣化感知优先级,实现联合弱光增强和去模糊

author:Ling Wang, Chen Wu, Lin Wang

date Time:2024-09-20

paper pdf:http://arxiv.org/pdf/2409.13496v1

摘要
自动驾驶汽车和机器人在夜间往往难以获得可靠的视觉感知,原因是照度低和 RGB 摄像机长时间曝光造成的运动模糊。现有的方法通过依次连接现成的预训练低照度增强和去模糊模型来应对这一挑战。遗憾的是,这些方法往往会在曝光过度的区域产生明显的伪影(eg、色彩失真),或者难以学习暗部的运动线索。在本文中,我们有趣地发现视觉语言模型(\eg)、对比语言-图像预训练(CLIP)可以全面感知夜间的不同衰减程度。有鉴于此,我们提出了一种新颖的基于变换器的联合学习框架,命名为 DAP-LED,它可以联合实现低光增强和去模糊,从而有利于深度估计、分割和黑暗中检测等下游任务。其关键之处在于利用 CLIP 自适应地学习夜间图像的劣化程度。这巧妙地学习了丰富的语义信息和视觉表征,从而优化了联合任务。为此,我们首先引入了一个由 CLIP 引导的交叉融合模块,以从图像嵌入中获取多尺度斑块退化热图。然后,通过设计的 CLIP 增强变压器块融合热图,以保留有用的退化信息,从而实现有效的模型优化。实验结果表明,与现有方法相比,我们的 DAP-LED 在黑暗环境中实现了最先进的性能。同时,增强后的结果证明对三个下游任务有效。有关演示和更多结果,请查看项目页面:\url{https://vlislab22.github.io/dap-led/}.

5.Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution

标题:Oryx MLLM:按需理解任意分辨率的时空信息

author:Zuyan Liu, Yuhao Dong, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao

date Time:2024-09-19

paper pdf:http://arxiv.org/pdf/2409.12961v1

摘要
视觉数据的形式多种多样,小到只有几个像素的图标,大到长达数小时的视频。现有的多模态 LLM 通常将这些不同的视觉输入标准化为视觉编码器的固定分辨率,并为 LLM 生成类似数量的标记。这种方法对于多模态理解来说不是最佳选择,而且在处理长短视觉内容的输入时效率低下。为了解决这个问题,我们提出了 Oryx,一种用于图像、视频和多视角 3D 场景时空理解的统一多模态架构。Oryx 提供了一种按需解决方案,通过两项核心创新,无缝、高效地处理任意空间大小和时间长度的视觉输入:1) 预训练的 OryxViT 模型,可将任何分辨率的图像编码为 LLM 友好的视觉表示;2) 动态压缩器模块,可根据请求对视觉标记进行 1x 至 16x 压缩。这些设计功能使 Oryx 能够以较低的分辨率和较高的压缩率处理视频等超长的视觉上下文,同时以原始分辨率和无压缩率保持较高的识别精度,以完成文档理解等任务。除了架构上的改进之外,增强的数据整理功能以及长语境检索和空间感知数据方面的专门训练,也有助于 Oryx 同时实现图像、视频和三维多模态理解方面的强大功能。我们的工作开源于 https://github.com/Oryx-mllm/Oryx。

6.Evaluating Image Hallucination in Text-to-Image Generation with Question-Answering

标题:评估文本到图像生成中的图像幻觉与问题解答

author:Youngsun Lim, Hojun Choi, Hyunjung Shim

publish:20 pages

date Time:2024-09-19

paper pdf:http://arxiv.org/pdf/2409.12784v1

摘要
尽管文本到图像(TTI)生成模型取得了令人瞩目的成功,但现有研究忽略了这些模型是否能准确传达事实信息这一问题。在本文中,我们将重点关注图像幻觉问题,即生成模型创建的图像无法忠实地描述事实内容。为了解决这个问题,我们引入了 I-HallA(带问题解答的图像幻觉评估),这是一种新颖的自动评估指标,通过视觉问题解答(VQA)来衡量生成图像的真实性。我们还为此推出了 I-HallA v1.0,这是一个经过策划的基准数据集。作为这一过程的一部分,我们开发了一个管道,利用多个基于 GPT-4 Omni 的代理生成高质量的问答对,并由人工进行判断以确保准确性。我们的评估协议通过测试现有文本到图像模型中的图像能否正确回答这些问题来衡量图像幻觉。I-HallA v1.0 数据集包含 1.2K 个不同的图像-文本对,涵盖 9 个类别,以及 1,000 个经过严格策划的问题,涵盖各种构图挑战。我们使用 I-HallA 评估了五种文本到图像模型,发现这些最先进的模型往往无法准确传达事实信息。此外,我们还证明了我们的度量标准与人类判断之间存在很强的斯皮尔曼相关性(rho=0.95),从而验证了我们的度量标准的可靠性。我们相信,我们的基准数据集和度量标准可以作为开发准确的文本到图像生成模型的基础。

7.EventDance++: Language-guided Unsupervised Source-free Cross-modal Adaptation for Event-based Object Recognition

标题:EventDance++:语言引导的无监督无源跨模态适应,用于基于事件的物体识别

author:Xu Zheng, Lin Wang

publish:arXiv admin note: text overlap with arXiv:2403.14082

date Time:2024-09-19

paper pdf:http://arxiv.org/pdf/2409.12778v2

摘要
在本文中,我们在不访问任何标记源图像数据的情况下,解决了基于事件识别的跨模态(图像到事件)适应这一具有挑战性的问题。由于图像和事件之间存在巨大的模态差距,这项任务十分艰巨。由于只有预先训练好的源模型可用,关键的挑战在于如何从该模型中提取知识,并有效地将知识转移到基于事件的领域。受语言在不同模态间传递语义的自然能力的启发,我们提出了 EventDance++,这是一个新颖的框架,可从语言引导的角度解决这一无监督无源跨模态适应问题。我们引入了语言引导的基于重构的模态桥接(L-RMB)模块,该模块以自我监督的方式从事件中重构强度帧。重要的是,它利用视觉语言模型提供进一步监督,丰富了代理图像并增强了模态桥接。这样就能创建代用图像,从源模型中提取知识(即标签)。在此基础上,我们提出了多表征知识适配(MKA)模块,利用多种事件表征充分捕捉事件的时空特征,将知识转移到目标模型。我们对 L-RMB 模块和 MKA 模块进行了联合优化,以实现弥合模态差距的最佳性能。在三个基准数据集上进行的实验表明,EventDance++ 的性能与利用源数据的方法相当,从而验证了我们的语言引导方法在基于事件的识别中的有效性。

8.LARE: Latent Augmentation using Regional Embedding with Vision-Language Model

标题:LARE:利用视觉语言模型进行区域嵌入的潜在增强技术

author:Kosuke Sakurai, Tatsuya Ishii, Ryotaro Shimizu, Linxin Song, Masayuki Goto

publish:10 pages, 4 figures

date Time:2024-09-19

paper pdf:http://arxiv.org/pdf/2409.12597v1

摘要
近年来,人们对同时处理图像和文本数据的视觉语言模型进行了大量研究;这些模型正被应用于各种下游任务,如 “图像相关聊天”、"指令图像识别 "和 “回答视觉问题”。视觉语言模型(VLM),如对比语言-图像预训练(CLIP),也是一种高性能图像分类器,正被开发成领域适应方法,可利用语言信息扩展到未见领域。然而,由于这些 VLM 将图像作为单点嵌入统一的嵌入空间,因此分类准确性还有待提高。因此,在本研究中,我们提出了使用区域嵌入的潜在增强(LARE),它将图像作为一个区域嵌入到由 VLM 学习到的统一嵌入空间中。通过在该潜在区域内对增强图像嵌入进行采样,LARE 可以将数据增强到各种未知领域,而不仅仅是特定的未知领域。LARE 利用增强图像嵌入对 VLM 进行微调,从而在域内和域外实现稳健的图像分类。我们证明,在三个基准测试中,LARE 的图像分类准确性优于之前的微调模型。我们还证明,LARE 是一种更稳健、更通用的模型,在多种条件下都有效,如未见领域、少量数据和不平衡数据。

9.End-to-end Open-vocabulary Video Visual Relationship Detection using Multi-modal Prompting

标题:利用多模态提示进行端到端开放词汇视频视觉关系检测

author:Yongqi Wang, Shuo Yang, Xinxiao Wu, Jiebo Luo

date Time:2024-09-19

paper pdf:http://arxiv.org/pdf/2409.12499v1

摘要
开放词汇视频视觉关系检测旨在通过检测视频中可见和未可见物体之间的未知关系,将视频视觉关系检测扩展到注释类别之外。现有方法通常使用在封闭数据集上训练的轨迹检测器来检测物体轨迹,然后将这些轨迹输入大规模预训练视觉语言模型,以实现开放词汇分类。这种对预训练轨迹检测器的严重依赖限制了它们泛化到新物体类别的能力,从而导致性能下降。为了应对这一挑战,我们建议将物体轨迹检测和关系分类统一到端到端开放词汇框架中。在此框架下,我们提出了关系感知开放词汇轨迹检测器。它主要由一个基于查询的 Transformer 解码器和一个轨迹关联器组成,前者是对 CLIP 的视觉编码器进行提炼,用于按帧进行开放词汇对象检测。为了在轨迹检测过程中利用关系上下文,我们在 Transformer 解码器中嵌入了关系查询,并相应地设计了辅助关系损失,使解码器能够明确感知对象之间的关系。此外,我们还提出了一种开放词汇关系分类器,利用 CLIP 丰富的语义知识来发现新的关系。为了使 CLIP 能够很好地适应关系分类,我们设计了一种多模态提示方法,在视觉表示中采用时空视觉提示,在语言输入中采用视觉引导的语言提示。在两个公共数据集 VidVRD 和 VidOR 上进行的广泛实验证明了我们的框架的有效性。我们的框架还被应用于难度更大的跨数据集场景,以进一步证明其通用能力。

10.Mixture of Prompt Learning for Vision Language Models

标题:视觉语言模型的混合提示学习

author:Yu Du, Tong Niu, Rong Zhao

date Time:2024-09-18

paper pdf:http://arxiv.org/pdf/2409.12011v1

摘要
随着功能强大的预训练视觉语言模型(VLM)(如 CLIP)越来越受到重视,许多研究都尝试将 VLM 结合起来,用于下游任务。其中,提示学习已被证实是适应新任务的有效方法,只需要少量参数。然而,目前的提示学习方法面临两个挑战:首先,单一的软提示难以捕捉数据集中的各种风格和模式;其次,对软提示进行微调容易造成过拟合。为了应对这些挑战,我们提出了一种混合软提示学习方法,其中包含一个路由模块。该模块能够捕捉数据集的各种风格,并为每个实例动态选择最合适的提示。此外,我们还引入了一种新颖的门控机制,确保路由器根据提示语与硬提示语模板的相似度来选择提示语,从而既保留了硬提示语中的知识,又提高了选择的准确性。我们还实施了语义分组文本级监督,用人工设计的该组模板的标记嵌入来初始化每个软提示,并在生成的文本特征和硬提示编码的文本特征之间应用对比损失。这种监督确保了从软提示中得出的文本特征与相应硬提示中的文本特征保持接近,从而保留了初始知识并减少了过拟合。我们的方法已在 11 个数据集上进行了验证,与现有的基线相比,我们的方法在少量学习、领域泛化和从基点到新基点泛化等方面都有明显改善。代码将发布在 \url{https://anonymous.4open.science/r/mocoop-6387} 网站上。

11.LLM-wrapper: Black-Box Semantic-Aware Adaptation of Vision-Language Foundation Models

标题:LLM-wrapper:视觉语言基础模型的黑盒语义感知适配

author:Amaia Cardiel, Eloi Zablocki, Oriane Siméoni, Elias Ramzi, Matthieu Cord

publish:EVAL-FoMo workshop, ECCV 2024

date Time:2024-09-18

paper pdf:http://arxiv.org/pdf/2409.11919v1

摘要
视觉语言模型(VLM)在许多任务中都表现出令人印象深刻的性能,但与专用模型或微调模型相比,它们的零拍摄能力可能有限。然而,对 VLM 进行微调也有其局限性,因为这需要 "白盒 "访问模型的架构和权重,以及设计微调目标和优化超参数的专业知识,而这些都是每个 VLM 和下游任务所特有的。在这项工作中,我们提出了 LLM-wrapper,这是一种通过利用大型语言模型(LLM)以 "黑盒 "方式调整 VLM 的新方法,从而对其输出进行推理。我们展示了 LLM-wrapper 在引用表达理解(REC)上的有效性,这是一项具有挑战性的开放词汇任务,需要空间和语义推理。我们的方法大大提高了现成模型的性能,与传统的微调方法相比,结果极具竞争力。

12.Recent Advances in OOD Detection: Problems and Approaches

标题:OOD 检测的最新进展:问题与方法

author:Shuo Lu, Yingsheng Wang, Lijun Sheng, Aihua Zheng, Lingxiao He, Jian Liang

publish:First Submitted in May 2024

date Time:2024-09-18

paper pdf:http://arxiv.org/pdf/2409.11884v2

摘要
分布外检测(OOD)旨在检测训练类别空间之外的测试样本,这是构建可靠的机器学习系统的重要组成部分。现有的 OOD 检测综述主要侧重于方法分类学,通过对各种方法进行分类,对该领域进行调查。然而,最近的许多作品都集中在非传统的 OOD 检测场景上,如测试时间适应、多模态数据源和其他新情况。在本调查中,我们首次从问题场景的角度独特地回顾了 OOD 检测的最新进展。根据训练过程是否完全可控,我们将 OOD 检测方法分为训练驱动型和训练无关型。此外,考虑到预训练模型的快速发展,基于大型预训练模型的 OOD 检测也被视为一个重要类别,并进行了单独讨论。此外,我们还讨论了评估场景、各种应用以及若干未来研究方向。我们相信,这份带有新分类法的调查报告将有助于提出新方法和扩展更多实用场景。Github 存储库中提供了相关论文的精选列表: https://github.com/shuolucs/Awesome-Out-Of-Distribution-Detection

13.NVLM: Open Frontier-Class Multimodal LLMs

标题:NVLM:开放的前沿类多模态 LLMs

author:Wenliang Dai, Nayeon Lee, Boxin Wang, Zhuoling Yang, Zihan Liu, Jon Barker, Tuomas Rintamaki, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping

date Time:2024-09-17

paper pdf:http://arxiv.org/pdf/2409.11402v1

摘要
我们介绍了前沿级多模态大语言模型(LLM)系列 NVLM 1.0,它在视觉语言任务上取得了最先进的结果,可与领先的专有模型(如 GPT-4o)和开放存取模型(如 Llama 3-V 405B 和 InternVL 2)相媲美。值得注意的是,经过多模态训练后,NVLM 1.0 的纯文本性能比其 LLM 骨干模型有所提高。在模型设计方面,我们对纯解码器多模态 LLM(如 LLaVA)和基于交叉注意力的模型(如 Flamingo)进行了全面比较。基于这两种方法的优缺点,我们提出了一种新颖的架构,既提高了训练效率,又增强了多模态推理能力。此外,我们还针对基于瓦片的动态高分辨率图像引入了一维瓦片标记设计,从而显著提高了多模态推理和 OCR 相关任务的性能。在训练数据方面,我们精心策划并提供了多模态预训练和监督微调数据集的详细信息。我们的研究结果表明,在所有架构中,即使在预训练阶段,数据集的质量和任务多样性也比规模更为重要。值得注意的是,我们为 NVLM-1.0 模型开发了生产级多模态,使其在视觉语言任务中表现出色,同时与 LLM 骨干相比,保持甚至提高了纯文本性能。为了实现这一目标,我们精心设计了一个高质量的纯文本数据集,并将其与大量多模态数学和推理数据整合到多模态训练中,从而增强了跨模态的数学和编码能力。为了推动该领域的研究,我们将发布模型权重,并为社区开源代码:https://nvlm-project.github.io/。

14.CAST: Cross-modal Alignment Similarity Test for Vision Language Models

标题:CAST:视觉语言模型的跨模态对齐相似性测试

author:Gautier Dagan, Olga Loginova, Anil Batra

date Time:2024-09-17

paper pdf:http://arxiv.org/pdf/2409.11007v1

摘要
视觉语言模型(VLM)通常通过视觉问题解答(VQA)任务进行评估,这些任务评估模型对场景的理解能力。良好的 VQA 表现被认为是该模型在需要视觉和语言输入的更广泛任务中表现良好的证据。然而,场景感知 VQA 并不能完全捕捉输入偏差,也不能评估由模态间错位引起的幻觉。为了解决这个问题,我们提出了跨模态对齐相似性测试(CAST),以检测 VLM 在不同模态间的自洽性。该测试包括要求模型通过纯文本、纯图像或两者识别两个场景之间的相似性,然后评估它们生成的相似性的真实性。由于没有基本事实可与之比较,因此这项评估并不关注客观准确性,而是关注 VLM 的输出是否具有内在一致性。我们认为,虽然并非所有自洽模型都是有效或准确的,但所有有效的 VLM 都必须是自洽的。

15.Less is More: A Simple yet Effective Token Reduction Method for Efficient Multi-modal LLMs

标题:少即是多:一种简单而有效的标记减少方法,可实现高效的多模态 LLM

author:Dingjie Song, Wenjun Wang, Shunian Chen, Xidong Wang, Michael Guan, Benyou Wang

publish:9 pages, 3 figures, 6 tables

date Time:2024-09-17

paper pdf:http://arxiv.org/pdf/2409.10994v1

摘要
多模态大语言模型(MLLMs)的快速发展使其在各个领域都取得了卓越的性能。然而,在取得进步的同时,这些模型的资源消耗也大幅增加。为了解决这一紧迫问题,我们引入了一种新方法–使用 CLIP 度量(TRIM)的标记减少法(Token Reduction using CLIP Metric),旨在提高 MLLM 的效率,同时不影响其性能。受视觉问题解答(VQA)任务中人类注意力模式的启发,TRIM 为图像标记的选择和减少提供了一个全新的视角。TRIM 方法已在 12 个数据集上进行了广泛测试,结果表明在保持性能水平一致的同时显著降低了计算开销。这项研究标志着高效 MLLM 开发迈出了关键的一步,促进了高性能模型的更大可及性和可持续性。

16.KALE: An Artwork Image Captioning System Augmented with Heterogeneous Graph

标题:KALE:利用异构图增强的艺术品图像字幕系统

author:Yanbei Jiang, Krista A. Ehinger, Jey Han Lau

publish:Accepted at IJCAI 2024

date Time:2024-09-17

paper pdf:http://arxiv.org/pdf/2409.10921v1

摘要
探索美术绘画所传达的叙事内容是图像标题制作中的一项挑战,其目标是生成不仅能准确表达视觉内容,还能深入诠释艺术作品内涵的描述。由于不同艺术流派和艺术风格对艺术品图像的解释和审美原则各不相同,因此这项任务对于艺术品图像来说尤为复杂。为此,我们提出了 KALE 知识–用于艺术品阐释的增强视觉语言模型(Knowledge-Augmented vision-Language model for artwork Elaborations),这是一种新颖的方法,通过整合艺术品元数据作为附加知识来增强现有的视觉语言模型。KALE 通过两种方式整合元数据:首先是直接输入文本,其次是通过多模态异构知识图谱。为了优化图表征的学习,我们引入了一种新的跨模态对齐损失,使图像与其相应元数据之间的相似性最大化。实验结果表明,在多个艺术品数据集上,KALE 的性能(尤其是在使用 CIDEr 进行评估时)超过了现有的最先进技术。该项目的源代码可从 https://github.com/Yanbei-Jiang/Artwork-Interpretation 获取。

17.Fuse4Seg: Image-Level Fusion Based Multi-Modality Medical Image Segmentation

标题:Fuse4Seg:基于图像级融合的多模态医学图像分割

author:Yuchen Guo, Weifeng Su

date Time:2024-09-16

paper pdf:http://arxiv.org/pdf/2409.10328v2

摘要
虽然多模态医学影像分割通过整合不同的成像模态,在增强复杂疾病的诊断和理解方面具有巨大潜力,但现有方法主要依赖于特征级融合策略。我们认为,目前的特征级融合策略容易出现语义不一致和各种成像模式的错位,因为它在神经网络的中间层合并特征,而没有评估控制。为了缓解这一问题,我们引入了一种基于图像级融合的新型多模态医学图像分割方法 Fuse4Seg,它是一种双层学习框架,旨在模拟医学图像分割和医学图像融合之间相互交织的依赖关系。通过分层优化方法,图像级融合过程被无缝地用于指导和增强分割结果。此外,从分割模块获得的知识可有效增强融合模块。这就确保了融合后的图像是一个连贯的表征,能准确融合来自所有模态的信息。此外,我们还基于 BraTS 数据集构建了 BraTS-Fuse 基准,其中包括 2040 张配对原始图像、多模态融合图像和地面实况。该基准不仅用于图像级医学分割,也是迄今为止最大的医学图像融合数据集。在多个公共数据集和我们的基准上进行的广泛实验证明,我们的方法优于之前的最先进(SOTA)方法。

18.MotionCom: Automatic and Motion-Aware Image Composition with LLM and Video Diffusion Prior

标题:MotionCom:利用 LLM 和视频扩散先验进行自动运动感知图像合成

author:Weijing Tao, Xiaofeng Yang, Miaomiao Cui, Guosheng Lin

date Time:2024-09-16

paper pdf:http://arxiv.org/pdf/2409.10090v1

摘要
本作品介绍了 MotionCom,这是一种基于图像合成的免训练运动感知扩散技术,能够自动、无缝地将目标对象整合到新场景中,并产生动态连贯的结果,无需微调或优化。该领域的传统方法有两个显著的局限性:它们需要手动规划物体的位置,而且生成的静态合成往往缺乏运动的真实感。MotionCom 利用大型视觉语言模型 (LVLM) 进行智能规划,并利用视频扩散先验技术进行运动图像合成,简化了合成过程,从而解决了这些问题。我们的多模式思维链(CoT)提示与 LVLM 配合使用,可自动进行前景物体的战略位置规划,同时考虑到它们在场景中的潜在运动和互动。作为补充,我们提出了一种新方法 MotionPaint,在生成阶段从预先训练的视频扩散模型中提炼运动感知信息,确保这些物体不仅能无缝整合,而且具有逼真的运动效果。广泛的定量和定性结果凸显了 MotionCom 的优越性,展示了它在简化规划流程方面的效率,以及生成真实描绘运动和互动的合成作品的能力。

19.DAE-Fuse: An Adaptive Discriminative Autoencoder for Multi-Modality Image Fusion

标题:DAE-Fuse:用于多模态图像融合的自适应判别式自动编码器

author:Yuchen Guo, Ruoxiang Xu, Rongcheng Li, Zhenghao Wu, Weifeng Su

date Time:2024-09-16

paper pdf:http://arxiv.org/pdf/2409.10080v1

摘要
多模态图像融合旨在将不同成像模态的互补数据信息整合到单一图像中。现有的方法通常要么生成模糊的融合图像,丢失细粒度的语义信息,要么生成不自然的融合图像,在感知上显得与输入图像有偏差。在这项工作中,我们提出了一种新颖的两阶段判别式自动编码器框架,称为 DAE-Fuse,可生成清晰自然的融合图像。在对抗特征提取阶段,我们在编码器-解码器架构中引入了两个判别块,提供额外的对抗损失,通过重建源图像更好地指导特征提取。而在注意力引导的跨模态融合阶段,这两个判别块会进行调整,以区分融合输出与源输入之间的结构差异,从而为结果注入更多自然性。在公共红外可见光、医学图像融合和下游物体检测数据集上进行的大量实验证明了我们的方法在定量和定性评估中的优越性和通用性。


网站公告

今日签到

点亮在社区的每一天
去签到