多模态大语言模型arxiv论文略读(十六)

发布于:2025-04-14 ⋅ 阅读:(27) ⋅ 点赞:(0)

在这里插入图片描述请添加图片描述

Towards Improving Document Understanding: An Exploration on Text-Grounding via MLLMs

➡️ 论文标题:Towards Improving Document Understanding: An Exploration on Text-Grounding via MLLMs
➡️ 论文作者:Yonghui Wang, Wengang Zhou, Hao Feng, Keyi Zhou, Houqiang Li
➡️ 研究机构: 中国科学技术大学 (University of Science and Technology of China)
➡️ 问题背景:在文档理解领域,多模态大语言模型(MLLMs)通过指令跟随数据的微调,在多种任务中展现了显著的进步。然而,这些模型在处理文本丰富的场景时,由于缺乏相关的指令跟随数据,无法识别和理解图像中的文本,导致在处理文本丰富的图像时存在显著的局限性。
➡️ 研究动机:现有的研究虽然在多模态大语言模型的文本检测、识别和定位任务上取得了显著成果,但文本定位(text-grounding)能力在文档理解中的潜力尚未得到充分探索。本研究旨在通过增强MLLMs的文本定位能力,提高模型在文本丰富场景中的理解和解释能力。
➡️ 方法简介:研究团队提出了一种文本定位的文档理解模型TGDoc,通过增强MLLMs的文本定位能力,使其能够识别图像中文本的空间位置。为此,研究团队构建了一个包含99K PowerPoint演示文稿的数据集,用于图像-文本对齐,并通过GPT-4生成12K高质量的多轮对话,以促进视觉编码器和大语言模型之间的协同对齐。
➡️ 实验设计:实验在多个文本丰富的基准数据集上进行,包括视觉问答(VQA)和关键信息提取(KIE)任务。实验设计了不同的任务类型,如文本检测、识别和定位,以全面评估模型在文本丰富场景中的表现。实验结果表明,TGDoc在多个文本丰富的基准测试中达到了最先进的性能,验证了方法的有效性。

ADriver-I: A General World Model for Autonomous Driving

➡️ 论文标题:ADriver-I: A General World Model for Autonomous Driving
➡️ 论文作者:Fan Jia, Weixin Mao, Yingfei Liu, Yucheng Zhao, Yuqing Wen, Chi Zhang, Xiangyu Zhang, Tiancai Wang
➡️ 研究机构: MEGVII Technology、Waseda University、University of Science and Technology of China、Mach Drive
➡️ 问题背景:当前的自动驾驶系统通常采用模块化设计,分为感知、预测、规划和控制四个部分。这种设计虽然可解释性强,但引入了大量的冗余。近年来,多模态大语言模型(MLLM)和扩散技术在理解和生成能力方面表现出色。本文提出了一种基于MLLM和扩散模型的通用世界模型ADriver-I,用于自动驾驶,旨在统一视觉特征和控制信号的格式,直接预测当前帧的控制信号,并基于预测的控制信号生成未来的场景。
➡️ 研究动机:现有的自动驾驶系统通常依赖于模块化设计,这虽然提高了系统的可解释性,但也引入了大量冗余。人类驾驶员则能够直接基于视觉信息采取行动,并预测近未来的场景。受此启发,研究团队提出了ADriver-I,旨在构建一个能够直接输出控制信号并预测未来场景的系统,类似于人类驾驶员的行为模式。
➡️ 方法简介:ADriver-I基于多模态大语言模型(MLLM)和视频扩散模型(VDM)。MLLM通过历史视觉-动作对和当前视觉令牌作为输入,自回归地预测当前帧的控制信号。预测的控制信号进一步用作VDM的条件先验,以生成未来的场景。生成的下一帧被用作“当前帧”输入到MLLM中,以生成下一帧的控制信号,这一过程可以无限重复,实现自动驾驶在自生成的世界中的无限行驶。
➡️ 实验设计:在nuScenes和大规模私有数据集上进行了实验。实验评估了ADriver-I在控制信号预测和未来场景生成任务上的性能。实验结果表明,ADriver-I在控制信号预测的L1误差和不同阈值下的准确性方面优于多个基线模型。此外,ADriver-I在生成未来场景的质量上也表现出色,FID和FVD指标分别为5.52和97。

HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data

➡️ 论文标题:HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data
➡️ 论文作者:Qifan Yu, Juncheng Li, Longhui Wei, Liang Pang, Wentao Ye, Bosheng Qin, Siliang Tang, Qi Tian, Yueting Zhuang
➡️ 研究机构: 浙江大学、华为云、中国科学院计算技术研究所
➡️ 问题背景:多模态大语言模型(MLLMs)在多种多模态理解和生成任务中展现了卓越的性能。然而,机器生成的数据中固有的幻觉(hallucinations)可能导致MLLMs产生不准确的输出。这些幻觉包括对象幻觉、关系幻觉和属性幻觉,它们在大规模机器生成的视觉指令数据集中普遍存在,严重影响了MLLMs的性能和准确性。
➡️ 研究动机:现有的研究主要集中在收集额外的补救训练数据或利用附加模型来减轻推理过程中的幻觉。然而,这些方法要么增加了训练成本,要么延长了推理时间,且未能从根本上解决视觉指令数据中的幻觉问题。本研究旨在系统地定义和调查视觉指令数据集中的各种幻觉,并提出一种自动检测和消除幻觉的方法,以提高MLLMs的准确性和鲁棒性。
➡️ 方法简介:研究团队提出了一个名为HalluciDoctor的幻觉检测和消除框架,该框架基于交叉验证范式,能够自动检测并消除各种幻觉。HalluciDoctor通过三个子过程实现:1) 答案块提取:从生成的描述中提取所有对象、关系和属性;2) 基于答案的问题生成:为每个答案生成相应的细粒度问题;3) 一致性交叉验证:从多个MLLMs中获取图像导向的候选答案,并验证描述导向的答案块与其对应图像导向答案之间的一致性。此外,研究团队还提出了一种基于跷跷板策略的反事实视觉指令扩展方法,通过平衡长尾对象共现分布,进一步减少幻觉的影响。
➡️ 实验设计:研究团队在三个公开数据集上进行了实验,包括LLaVA-Instruction-158K和MiniGPT4-Instruction。实验设计了不同的评估指标,如CHAIRobj、CHAIRrel和CHAIRattri,以全面评估模型在不同条件下的幻觉检测和消除能力。实验结果表明,HalluciDoctor成功地减少了44.6%的幻觉,并且在性能上保持了竞争力。

MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria

➡️ 论文标题:MLLM-Bench: Evaluating Multimodal LLMs with Per-sample Criteria
➡️ 论文作者:Wentao Ge, Shunian Chen, Guiming Hardy Chen, Junying Chen, Zhihong Chen, Nuo Chen, Wenya Xie, Shuo Yan, Chenghao Zhu, Ziyue Lin, Song Dingjie, Xidong Wang, Anningzhe Gao, Zhang Zhiyi, Jianquan Li, Xiang Wan, Benyou Wang
➡️ 研究机构: 深圳大数据研究院、香港中文大学(深圳)
➡️ 问题背景:多模态大语言模型(MLLMs)扩展了AI应用的范围,尤其是在处理视觉和语言数据的复杂任务中。然而,现有的自动评估方法主要集中在客观查询上,未能充分考虑真实世界用户体验和多模态任务的细微差别,尤其是在创意和关联性任务中。
➡️ 研究动机:为了克服现有评估方法的局限性,研究团队提出了一种新的评估范式,即使用强大的MLLMs作为评估者,并结合每个样本的具体标准(per-sample criteria)来评估MLLMs。这种方法旨在为开放性任务提供更灵活、更准确的评估标准,同时确保评估结果与人类标准的一致性。
➡️ 方法简介:研究团队构建了一个名为MLLM-Bench的基准测试套件,该套件涵盖了42个不同的MLLM功能方面,分布在六个关键能力层次上,包括感知、理解、应用、分析、评估和创造。每个问题都附有1-3个具体的评估标准,这些标准与问题和模型的响应相结合,以更准确和情境化的方式评估模型性能。
➡️ 实验设计:研究团队在21个流行的MLLMs上进行了成对比较评估,使用GPT-4V作为评估者。评估标准基于响应的质量、与图像的相关性以及给定的每个样本标准。实验结果显示,不同模型在各个能力层次上的表现差异显著,且该基准测试在88.02%的情况下与人类评估结果一致,验证了该评估范式的有效性和可行性。

Charting New Territories: Exploring the Geographic and Geospatial Capabilities of Multimodal LLMs

➡️ 论文标题:Charting New Territories: Exploring the Geographic and Geospatial Capabilities of Multimodal LLMs
➡️ 论文作者:Jonathan Roberts, Timo Lüddecke, Rehan Sheikh, Kai Han, Samuel Albanie
➡️ 研究机构: University of Cambridge, University of Göttingen, The University of Hong Kong
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种任务中展现了卓越的能力,但其在地理和地理空间领域的知识和能力尚未得到充分探索。这些模型的地理和地理空间能力对于导航、环境研究、城市开发和灾害响应等领域具有潜在的广泛应用价值。
➡️ 研究动机:尽管纯语言模型的地理和地理空间能力已有研究,但多模态大语言模型在这些领域的表现尚未得到系统评估。本研究旨在通过一系列视觉实验,探索这些模型在地理和地理空间任务中的表现,特别是前沿模型GPT-4V的能力,并与开源模型进行对比,以提供一个全面的性能评估。
➡️ 方法简介:研究团队设计了一系列视觉地理实验,包括定性和定量实验,以评估MLLMs在自然图像、抽象图像(如地图/旗帜)和遥感图像(如卫星图像)等不同类型的视觉输入上的地理和地理空间知识和推理能力。实验数据集部分包含新生成的样本,以减少测试集污染的风险。
➡️ 实验设计:实验包括定位任务、遥感任务、地图理解任务等。定位任务中,模型需要根据图像推断拍摄地点;遥感任务中,模型需要对卫星图像进行分类、变化检测、分割和目标检测;地图理解任务中,模型需要识别地图上的地理实体、定位点和注释地图。实验结果表明,GPT-4V在大多数任务中表现最佳,但在多对象图像处理和精确定位任务中表现不佳。其他模型如Qwen-VL和LLaVA-1.5在某些任务中也表现出色。


网站公告

今日签到

点亮在社区的每一天
去签到