Can We Edit Multimodal Large Language Models?
➡️ 论文标题:Can We Edit Multimodal Large Language Models?
➡️ 论文作者:Siyuan Cheng, Bozhong Tian, Qingbin Liu, Xi Chen, Yongheng Wang, Huajun Chen, Ningyu Zhang
➡️ 研究机构: 浙江大学、浙江大学-蚂蚁集团联合实验室、东海实验室、腾讯平台与内容组
➡️ 问题背景:随着大规模语言模型(LLMs)的广泛应用,维护这些模型的知识准确性和时效性变得尤为重要。然而,重新训练模型以更新知识的成本高昂且难以实施。因此,研究者们提出了模型编辑方法,旨在高效准确地修改模型中存储的事实知识。与单模态模型编辑相比,多模态LLMs的编辑任务更具挑战性,因为错误输出可能源自多种模态的协同效应。
➡️ 研究动机:现有的模型编辑方法主要针对单模态场景,多模态模型编辑领域存在研究空白。为了填补这一空白,研究团队构建了一个新的基准——MMEdit,用于评估多模态模型编辑方法的可靠性、局部性和泛化能力。
➡️ 方法简介:研究团队提出了MMEdit基准,包括两个子任务:编辑视觉问答(E-VQA)和编辑图像描述(E-IC)。通过构建可靠性、局部性和泛化性的评估指标,研究团队系统地评估了不同编辑方法在多模态LLMs上的表现。
➡️ 实验设计:实验在多个数据集上进行,包括VQAv2和COCO Caption。实验设计了不同的编辑方法,如微调、MEND、Knowledge Editor、SERAC和In-Context Knowledge Editing,以评估这些方法在多模态模型编辑中的效果。实验结果表明,当前的编辑方法在文本模块的编辑上表现较好,但在视觉模块的编辑上效果不佳,显示出多模态模型编辑的潜在难度和机会。
From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language Models
➡️ 论文标题:From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language Models
➡️ 论文作者:Dongsheng Jiang, Yuchen Liu, Songlin Liu, Jin’e Zhao, Hao Zhang, Zhen Gao, Xiaopeng Zhang, Jin Li, Hongkai Xiong
➡️ 研究机构: Huawei Cloud、Shanghai Jiao Tong University、Yunding Technology
➡️ 问题背景:多模态大语言模型(Multi-modal Large Language Models, MLLMs)通过整合视觉感知接口,显著扩展了大语言模型(LLMs)的能力。然而,现有的MLLMs通常依赖于CLIP或其变体作为视觉分支,主要提取深层特征,这限制了模型在细粒度任务中的表现,如区域描述和推理,以及严重的对象幻觉问题。
➡️ 研究动机:尽管CLIP的视觉编码器在图像-文本对比学习中表现良好,但其对像素级信息的学习能力有限,这可能阻碍MLLMs的细粒度感知能力。此外,现有的MLLMs在视觉和语言编码器之间存在不平衡,视觉模型的性能提升成为瓶颈。因此,研究团队对不同的视觉编码器进行了广泛的调查,旨在通过多层特征融合策略,增强MLLMs的视觉能力。
➡️ 方法简介:研究团队提出了一个名为COMM的多层特征融合策略,该策略结合了CLIP和DINOv2的视觉嵌入,以增强MLLMs的视觉能力。COMM通过线性投影层对不同层的特征进行对齐,并使用层尺度(Layerscale)方法合并多层特征。此外,DINOv2的特征通过多层感知器(MLP)模块与文本嵌入空间对齐,以提高模型的细粒度视觉理解能力。
➡️ 实验设计:研究团队在多个基准数据集上进行了广泛的实验,包括视觉指代表达理解(Referring Expression Comprehension, REC)、对象幻觉基准(Object Hallucination Benchmark, POPE)、视觉指代表达生成(Referring Expression Generation, REG)、视觉问答(Visual Question Answering, VQA)和图像描述(Image Captioning)。实验结果表明,COMM在这些任务上均优于现有的方法,展示了其在视觉理解方面的显著优势。
MM-BigBench: Evaluating Multimodal Models on Multimodal Content Comprehension Tasks
➡️ 论文标题:MM-BigBench: Evaluating Multimodal Models on Multimodal Content Comprehension Tasks
➡️ 论文作者:Xiaocui Yang, Wenfang Wu, Shi Feng, Ming Wang, Daling Wang, Yang Li, Qi Sun, Yifei Zhang, Xiaoming Fu, Soujanya Poria
➡️ 研究机构: 东北大学(中国)、南京理工大学(中国)、哥廷根大学(德国)、新加坡科技设计大学(新加坡)
➡️ 问题背景:多模态大语言模型(MLLMs)在多种多模态任务中表现出色,但现有的评估研究主要集中在单模态(视觉)内容的理解和推理上,忽视了多模态(视觉-语言)内容理解的性能评估。多模态内容理解任务不仅需要模型具备传统的视觉-语言多模态能力,如知识推理、空间推理、OCR识别等,还需要对多模态内容有深刻的理解。
➡️ 研究动机:为了填补这一研究空白,研究团队对20个公开可用的模型(包括14个MLLMs)进行了全面评估,涵盖了6个多模态内容理解任务。研究旨在评估不同MLLMs在多模态内容理解任务中的表现,并为这些任务建立基准。此外,研究还探讨了不同指令对模型性能的影响,以及模型和指令之间的适应性。
➡️ 方法简介:研究团队提出了一个全面的评估框架——MM-BigBench,该框架包含多种度量指标,用于评估不同模型和指令在多模态内容理解任务中的表现。MM-BigBench不仅评估了模型在不同数据集上的最佳性能,还通过“平均相对增益”(Mean Relative Gain, MRG)和“稳定性”(Stability)等指标,评估了模型和指令的整体性能和适应性。
➡️ 实验设计:研究在14个数据集上进行了实验,涵盖了6个多模态内容理解任务,包括多模态情感分析(MSA)、多模态基于方面的情感分析(MABSA)、多模态仇恨言论识别(MHMR)、多模态讽刺识别(MSR)、多模态关系抽取(MRE)和带有文本上下文的视觉问答(VQA)。实验设计了10种不同的指令格式,以评估不同指令对模型性能的影响。研究结果表明,基于Flan-T5-XXL的模型在多模态内容理解任务中表现优于LLaMA系列模型,且“问题-答案”格式的指令表现更好。
RoboLLM: Robotic Vision Tasks Grounded on Multimodal Large Language Models
➡️ 论文标题:RoboLLM: Robotic Vision Tasks Grounded on Multimodal Large Language Models
➡️ 论文作者:Zijun Long, George Killick, Richard McCreadie, Gerardo Aragon Camarasa
➡️ 研究机构: University of Glasgow
➡️ 问题背景:机器人视觉应用通常需要执行多种视觉感知任务,如目标检测、分割和识别。尽管这些任务的专项模型已经取得了显著进展,但将这些模型集成到统一的视觉流水线中仍然面临显著的工程挑战和成本。最近,多模态大型语言模型(MLLMs)作为多种下游任务的新骨干模型出现,其大规模预训练能力使得简化框架成为可能,从而减少了对任务特定编码器的需求。
➡️ 研究动机:现有的研究主要集中在多模态大型语言模型在对话代理等领域的应用,而其在机器人视觉领域的潜力尚未得到充分探索。本文旨在探讨MLLMs如何改善特定于机器人领域的视觉任务,特别是在处理大规模、复杂的真实世界场景时的表现。
➡️ 方法简介:研究团队提出了RoboLLM框架,该框架利用预训练的MLLMs(如BEiT-3)作为骨干,以应对复杂的机器人视觉任务,包括目标实例分割、目标识别和缺陷检测。通过在ARMBench数据集上进行评估,RoboLLM不仅在性能上超越了现有基线模型,还显著减少了模型选择和调优的工程负担。
➡️ 实验设计:实验在ARMBench数据集上进行,该数据集涵盖了三个关键的机器人视觉感知任务:目标实例分割、目标识别和缺陷检测。实验设计了不同的任务变体,如使用预取和后取图像进行目标识别,以及处理不同类型的缺陷检测任务,以全面评估RoboLLM在不同条件下的表现。实验结果表明,RoboLLM在所有三个任务上均取得了最先进的性能,特别是在目标识别任务中,达到了97.8%的Recall@1。
Benchmarking Sequential Visual Input Reasoning and Prediction in Multimodal Large Language Models
➡️ 论文标题:Benchmarking Sequential Visual Input Reasoning and Prediction in Multimodal Large Language Models
➡️ 论文作者:Mingwei Zhu, Leigang Sha, Yu Shu, Kangjia Zhao, Tiancheng Zhao, Jianwei Yin
➡️ 研究机构: 浙江大学、滨江研究院
➡️ 问题背景:多模态大语言模型(MLLMs)在感知和解释任务中展现出巨大潜力,但其在预测推理方面的能力尚未得到充分探索。当前的MLLMs主要基于单张图像-文本对进行训练,这引发了关于这些模型是否能够处理多张图像输入并预测未来的问题。
➡️ 研究动机:为了填补这一研究空白,研究团队提出了一种新的基准测试,旨在评估MLLMs在不同场景下的预测推理能力。该基准测试涵盖了三个重要领域:抽象模式推理、人类活动预测和物理交互预测。研究团队还开发了三种基于大语言模型的评估方法,以稳健地量化模型的预测推理能力。
➡️ 方法简介:研究团队构建了三个任务,每个任务包含多个数据集,分别针对抽象模式推理、人类活动预测和物理交互预测。这些任务要求模型不仅能够处理多张图像输入,还需要利用常识世界知识生成高概率的结果。此外,研究团队提出了三种评估方法:单金标准评估器(SGAE)、概率预测评估器(PPE)和多金标准评估器(MGAE),以全面评估模型的预测推理能力。
➡️ 实验设计:研究团队在三个任务上对六种流行的MLLMs进行了测试,包括抽象模式推理、人类活动预测和物理交互预测。实验结果验证了所提出的任务和评估方法的有效性,并揭示了当前流行MLLMs在预测推理任务中的优缺点。实验结果还显示,简单的模型如LLaVA在预测推理任务中表现出最强的泛化能力,但与性能上限相比,当前MLLMs的能力仍有较大差距。