多模态大语言模型arxiv论文略读(154)

发布于:2025-07-10 ⋅ 阅读:(21) ⋅ 点赞:(0)

在这里插入图片描述

Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models

➡️ 论文标题:Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models
➡️ 论文作者:Zhen Zeng, Leijiang Gu, Xun Yang, Zhangling Duan, Zenglin Shi, Meng Wang
➡️ 研究机构: Hefei University of Technology, University of Science and Technology of China, Hefei Comprehensive National Science Center
➡️ 问题背景:当前的知识编辑方法主要集中在大型语言模型(LLMs)上,旨在高效且成本效益地纠正不准确信息和更新过时信息。然而,随着多模态大型语言模型(MLLMs)的兴起,这些模型集成了文本和视觉信息,带来了新的编辑复杂性。现有的多模态知识编辑方法主要关注文本导向的粗粒度场景,未能解决多模态环境下的独特挑战。
➡️ 研究动机:为了应对多模态知识编辑中的复杂挑战,研究团队提出了一种视觉导向的细粒度多模态知识编辑任务,旨在精确编辑图像中的多个交互实体。研究团队还引入了Fine-Grained Visual Knowledge Editing (FGVEdit) 基准,以评估这一任务。此外,研究团队提出了Multimodal Scope Classifier-based Knowledge Editor (MSCKE) 框架,该框架通过结合视觉和文本信息,实现对特定实体的精确知识更新。
➡️ 方法简介:MSCKE框架基于SERAC方法进行了改进,通过引入多模态范围分类器(Multimodal Scope Classifier),结合视觉和文本信息,准确识别和更新与特定实体相关的知识。该框架包括四个主要组件:多模态编辑记忆(Multimodal Edit Memory)、多模态范围分类器、基础多模态模型(Base Multimodal Model)和反事实多模态模型(Counterfactual Multimodal Model)。在编辑过程中,MSCKE不会修改基础模型的参数,而是将编辑示例存储在多模态编辑记忆中。当接收到新输入时,多模态范围分类器会评估输入与存储的编辑示例的相关性,并决定是否调用编辑信息。
➡️ 实验设计:研究团队在FGVEdit基准上进行了广泛的实验,评估了MSCKE框架在细粒度视觉知识编辑任务中的表现。实验设计了多个评估指标,包括特异性(Specificity)、可靠性(Reliability)、局部性(Locality)和泛化性(Generality),以全面评估模型的编辑性能。实验结果表明,MSCKE框架在这些指标上均优于现有方法,展示了其在解决多模态知识编辑复杂挑战方面的有效性。

Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving

➡️ 论文标题:Hints of Prompt: Enhancing Visual Representation for Multimodal LLMs in Autonomous Driving
➡️ 论文作者:Hao Zhou, Zhanning Gao, Maosheng Ye, Zhili Chen, Qifeng Chen, Tongyi Cao, Honggang Qi
➡️ 研究机构: UCAS、HKUST、DeepRoute.AI
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在自动驾驶的视觉问答(VQA)任务中面临挑战,尤其是在复杂交互和长尾场景的表示上。尽管CLIP等模型在视觉编码器中表现出色,但它们在实例级结构和领域特定语义信息的表示上存在不足,导致在复杂驾驶场景中的表现不佳。
➡️ 研究动机:为了提高MLLMs在自动驾驶VQA任务中的表现,研究团队提出了“提示的暗示”(Hints of Prompt, HoP)框架,通过引入三种增强提示(Affinity hint、Semantic hint、Question hint)来丰富视觉表示,增强模型对复杂驾驶场景的理解和响应能力。
➡️ 方法简介:HoP框架通过Affinity hint捕捉实例级结构,通过Semantic hint引入领域特定的高层次语义信息,通过Question hint将视觉特征与问题上下文对齐,确保模型关注与问题相关的关键区域。这些提示通过一个简单的Hint Fusion模块融合,与视觉令牌结合,经过适配器处理后传递给大语言模型(LLM)生成答案。
➡️ 实验设计:研究团队在LingoQA、DRAMA和BDD-X三个数据集上进行了实验,评估了HoP框架在不同任务(如物体识别、场景描述、驾驶推理等)中的表现。实验设计了不同的提示类型和融合策略,以验证每种提示对模型性能的贡献,并探索了高效版本的HoP方法,通过轻量级头部结构提取提示信息,减少计算负担。
➡️ 实验结果:实验结果表明,HoP框架在所有关键指标上显著优于现有方法,特别是在LingoQA数据集上,HoP取得了67.8的Lingo-Judge得分,刷新了该数据集的最新记录。此外,HoP在DRAMA和BDD-X数据集上也表现出色,展示了其在不同难度场景下的鲁棒性和有效性。

DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving

➡️ 论文标题:DriveMLLM: A Benchmark for Spatial Understanding with Multimodal Large Language Models in Autonomous Driving
➡️ 论文作者:Xianda Guo, Ruijun Zhang, Yiqun Duan, Yuhang He, Chenming Zhang, Shuai Liu, Long Chen
➡️ 研究机构: 武汉大学计算机学院、中国科学院自动化研究所、Waytous、悉尼科技大学HAI中心、AAII计算机科学学院、牛津大学计算机科学系、TikTok、西安交通大学人工智能与机器人研究所
➡️ 问题背景:自动驾驶需要全面理解3D环境,以支持高层次任务,如运动预测、规划和地图构建。尽管在基于对象的识别任务中取得了巨大进展,但自动驾驶中的对象间空间关系推理仍被忽视,这对实现全面的3D场景理解至关重要。现有的多模态大语言模型(MLLMs)在处理这些复杂的空间关系方面存在局限性。
➡️ 研究动机:为了评估MLLMs在自动驾驶中的空间理解能力,研究团队提出了DriveMLLM基准测试。该基准测试旨在评估MLLMs在处理绝对和相对空间关系任务中的表现,揭示当前模型的局限性,并推动更高级的MLLM空间推理方法的发展。
➡️ 方法简介:研究团队基于nuScenes数据集构建了DriveMLLM基准测试,该数据集包含880张前视摄像头图像和多样化的自然语言问题。DriveMLLM引入了绝对空间推理和相对位置关系推理任务,以全面评估模型的空间理解能力。研究团队还提出了新的评估指标,以更准确地衡量模型的性能。
➡️ 实验设计:研究团队在DriveMLLM基准测试上评估了多种最先进的MLLMs,包括GPT-4o、GPT-4o-mini、LLaVA-ov-7b、LLaVA-ov-72b、Qwen2-vl-7b、Qwen2-vl-72b和Gemini-1.5-flash。实验设计了零样本、单样本和五样本学习三种设置,以评估模型在不同条件下的表现。评估指标包括准确性、效率和综合评分,以全面评估模型的空间理解能力和输出格式的合规性。

AdaptAgent: Adapting Multimodal Web Agents with Few-Shot Learning from Human Demonstrations

➡️ 论文标题:AdaptAgent: Adapting Multimodal Web Agents with Few-Shot Learning from Human Demonstrations
➡️ 论文作者:Gaurav Verma, Rachneet Kaur, Nishan Srishankar, Zhen Zeng, Tucker Balch, Manuela Veloso
➡️ 研究机构: Georgia Institute of Technology, J.P. Morgan AI Research
➡️ 问题背景:当前的多模态网络代理(Multimodal Web Agents)虽然在处理用户指令和与图形用户界面(GUI)交互方面表现出色,但它们在未见过的网站和领域中的泛化能力有限,这限制了它们在企业特定和专有平台上的应用。现有的方法主要依赖于大规模预训练和微调,但这些方法成本高昂且效率低下。
➡️ 研究动机:为了提高多模态网络代理在未见过的网站和领域中的适应能力,研究团队提出了一种新的框架——AdaptAgent,该框架通过少量的人类演示(1-2个示例)来快速适应新的环境。研究旨在探索多模态网络代理是否可以通过少量的人类演示来提高其在未见过的网站和领域中的任务成功率。
➡️ 方法简介:AdaptAgent框架结合了上下文学习(In-Context Learning, ICL)和元学习(Meta-Learning)两种方法。对于专有模型(如GPT-4o),通过在上下文中加入多模态人类演示来实现快速适应;对于开源模型(如CogAgent),则通过元学习来优化模型的初始参数,然后使用少量的人类演示进行微调,以实现快速适应。
➡️ 实验设计:研究团队在两个广泛使用的基准数据集——Mind2Web和VisualWebArena上进行了实验。实验设计了不同数量的演示示例(1个或2个),以评估模型在不同条件下的适应能力和任务成功率。实验结果表明,使用少量的人类演示可以显著提高任务成功率,特别是在未见过的网站和领域中。具体来说,AdaptAgent框架在Mind2Web和VisualWebArena上的任务成功率分别提高了3.36%到7.21%,相对提高了21.03%到65.75%。
➡️ 主要贡献:

  • 提出了AdaptAgent框架,使最先进的多模态网络代理能够通过少量的人类演示快速适应新的网站和领域。
  • 通过在Mind2Web和VisualWebArena上的广泛实验,验证了AdaptAgent框架的有效性,特别是在未见过的网站和领域中。
  • 进行了额外的分析,提供了关于多模态演示与文本演示的效果对比、元学习中不同数据选择策略的影响以及少量示例数量对代理性能的影响的见解。

Decompose and Leverage Preferences from Expert Models for Improving Trustworthiness of MLLMs

➡️ 论文标题:Decompose and Leverage Preferences from Expert Models for Improving Trustworthiness of MLLMs
➡️ 论文作者:Rui Cao, Yuming Jiang, Michael Schlichtkrull, Andreas Vlachos
➡️ 研究机构: University of Cambridge、Nanyang Technological University、Queen Mary University of London
➡️ 问题背景:多模态大语言模型(MLLMs)通过与人类偏好对齐,可以增强其可信度。然而,现有的方法在利用评估模型生成偏好数据时面临挑战,尤其是在处理MLLMs的长且复合的响应时,这些响应往往需要多样的推理技能,而单一评估模型可能不具备这些技能。此外,大多数现有方法依赖于闭源模型作为评估者,这既昂贵又限制了透明度。
➡️ 研究动机:为了克服上述限制,研究团队提出了DecompGen,一个可分解的框架,利用开源专家模型的集合来生成高质量的反馈。DecompGen通过将每个响应分解为原子验证任务,并将每个任务分配给适当的专家模型,生成细粒度的评估。这些评估用于自动构建偏好数据集DGPref,以优化MLLMs的偏好学习,从而显著提高其可信度。
➡️ 方法简介:DecompGen框架包括两个步骤:响应分解和专家模型执行。首先,给定一个响应,DecompGen会生成一个响应特定的布局,将响应分解为原子验证任务(如对象存在验证和空间关系验证)。然后,根据布局动态组装和执行专家模型,每个模型负责一个特定的原子验证任务。通过专家模型的执行,生成细粒度的反馈,这些反馈用于构建偏好数据集DGPref。
➡️ 实验设计:研究团队在三个基准数据集上进行了实验,包括ObjHal、MMHal和AMBER,这些数据集分别评估了对象幻觉、信息量和幻觉率等多个维度。实验设计了不同的响应生成指令和偏好数据的分类方法,以全面评估MLLMs在偏好学习后的表现。实验结果表明,使用DGPref进行偏好学习的MLLMs在减少幻觉的同时,保持了较高的信息量和覆盖率,显著提高了模型的可信度。


网站公告

今日签到

点亮在社区的每一天
去签到