SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension
➡️ 论文标题:SEED-Bench: Benchmarking Multimodal LLMs with Generative Comprehension
➡️ 论文作者:Bohao Li, Rui Wang, Guangzhi Wang, Yuying Ge, Yixiao Ge, Ying Shan
➡️ 研究机构: Tencent AI Lab、ARC Lab, Tencent PCG
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在理解和生成任务中表现出色,但缺乏一个全面、客观的基准来评估这些模型的性能。现有的评估方法要么依赖于有限的定性示例,要么使用不适合评估MLLMs的旧基准,导致模型性能评估的不准确性和主观性。
➡️ 研究动机:为了全面评估MLLMs的生成理解能力,研究团队开发了一个名为SEED-Bench的基准。SEED-Bench包含19,000个多项选择题,覆盖了12个评估维度,包括图像和视频模态。通过这个基准,研究团队旨在揭示现有MLLMs的局限性,并为未来的研究提供有价值的见解。
➡️ 方法简介:研究团队设计了一个复杂的管道,用于生成针对特定评估维度的多项选择题。该管道包括自动过滤机制和人工验证过程,以确保问题的质量和答案的准确性。对于图像,团队使用各种基础模型提取视觉信息,包括图像级描述、实例级描述和文本元素。对于视频,团队利用原始的人工注释提供视觉信息。然后,将这些视觉信息输入ChatGPT/GPT-4,生成问题和四个候选答案,其中一个为正确答案。
➡️ 实验设计:研究团队在SEED-Bench上评估了18个模型,包括LLMs、ImageLLMs和VideoLLMs,覆盖了所有12个评估维度。实验设计了多个评估维度,包括场景理解、实例身份、实例属性、实例位置、实例计数、空间关系、实例交互、视觉推理、文本识别、动作识别、动作预测和过程理解。通过分析不同模型在这些维度上的表现,研究团队全面比较了现有多模态模型在空间和时间理解能力上的差异。
RegionBLIP: A Unified Multi-modal Pre-training Framework for Holistic and Regional Comprehension
➡️ 论文标题:RegionBLIP: A Unified Multi-modal Pre-training Framework for Holistic and Regional Comprehension
➡️ 论文作者:Qiang Zhou, Chaohui Yu, Shaofeng Zhang, Sitong Wu, Zhibing Wang, Fan Wang
➡️ 研究机构: 香港科技大学(广州)、北京工业大学、德雷塞尔大学、牛津大学
➡️ 问题背景:当前的多模态大语言模型(MLLMs)在多种任务中展现了卓越的能力,尤其是在图像和点云模态的全局和区域理解方面。然而,现有的MLLMs在处理区域对象时存在局限性,如需要对语言模型进行微调以理解区域位置描述,这增加了模型训练的复杂性和成本。
➡️ 研究动机:为了克服现有MLLMs在区域对象理解上的局限性,研究团队提出了一种新的框架——RegionBLIP,该框架通过引入位置辅助的特征提取模块(PaFE)和增量预训练策略,使得MLLMs能够更高效地扩展到新的模态和区域对象的理解,同时保留了对图像模态的理解能力。
➡️ 方法简介:RegionBLIP框架包括三个主要模块:模态特征提取、模态特征对齐和LLM理解。模态特征提取模块从图像和点云中提取特征;模态特征对齐模块将这些特征与文本嵌入对齐,以便LLM理解;LLM理解模块则利用对齐后的特征生成最终的文本理解。研究团队还提出了一种位置辅助的特征提取(PaFE)模块,用于从规则的图像特征和不规则的点云特征中有效提取区域特征。
➡️ 实验设计:研究团队在多个数据集上进行了实验,包括图像-文本、图像-区域-文本、点云-文本和点云-区域-文本数据。实验评估了RegionBLIP在不同模态和区域对象理解任务上的性能,结果表明,RegionBLIP不仅保留了对图像模态的理解能力,还能有效扩展到点云和区域对象的理解。此外,实验还验证了PaFE模块在区域理解任务中的有效性。
SciGraphQA: A Large-Scale Synthetic Multi-Turn Question-Answering Dataset for Scientific Graphs
➡️ 论文标题:SciGraphQA: A Large-Scale Synthetic Multi-Turn Question-Answering Dataset for Scientific Graphs
➡️ 论文作者:Shengzhi Li, Nima Tajbakhsh
➡️ 研究机构: 香港科技大学(广州)、北京工业大学、德雷塞尔大学、牛津大学
➡️ 问题背景:当前的多模态生成模型(Multimodal Large Language Models, MLLMs)在多种生成任务中展现了卓越的能力。特别是在科学文献中,图表、图示和图像等视觉元素承载了大量复杂的数据信息,理解和解释这些图表需要大量的时间和精力。然而,现有的多模态模型在处理科学图表时的表现并不理想,尤其是在零样本(zero-shot)设置下。
➡️ 研究动机:为了评估和提升多模态模型在科学图表理解任务上的表现,研究团队构建了SciGraphQA,一个大规模的合成多轮问答数据集,专门用于科学图表。该数据集不仅规模庞大,而且支持开放词汇的问答,旨在为多模态模型提供一个科学问答的基准测试平台。
➡️ 方法简介:研究团队通过收集290,000篇计算机科学和机器学习领域的ArXiv论文,提取了其中的图表,并使用Palm-2生成了295,000个多轮问答对话。每个对话都包含了图表的标题、摘要、引用段落以及图表本身的内容。为了提高模型的零样本性能,研究团队还引入了DePlot模型,该模型可以从图表中提取数据表,并将其作为额外的上下文信息提供给多模态模型。
➡️ 实验设计:研究团队在SciGraphQA数据集上对多个流行的多模态模型进行了零样本评估,包括LLaVa、mPLUG-owl、BLIP-2和OpenFlamingo。评估指标包括CIDEr、BLEU-4和ROUGE。此外,研究团队还对LLaVa-13B进行了微调,以进一步提升其在科学图表理解任务上的表现。实验结果表明,通过微调和使用DePlot提取的数据表作为提示增强,LLaVa-13B的性能显著提升,CIDEr得分从0.08提高到了0.26。
Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions
➡️ 论文标题:Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions
➡️ 论文作者:Juncheng Li, Kaihang Pan, Zhiqi Ge, Minghe Gao, Wei Ji, Wenqiao Zhang, Tat-Seng Chua, Siliang Tang, Hanwang Zhang, Yueting Zhuang
➡️ 研究机构: 浙江大学、新加坡国立大学、南洋理工大学
➡️ 问题背景:当前的多模态大语言模型(MLLMs)在处理单图像指令方面表现出色,如生成详细的图像描述和回答图像相关问题。然而,这些模型在处理包含多个、交错和多模态指令的示范性指令时表现不佳。例如,一个示范性指令可能包含交错的视觉和文本上下文,要求模型根据提供的官方图像判断另一张图像的真实性。
➡️ 研究动机:现有的MLLMs在处理示范性指令时存在不足,主要原因是视觉提示生成器(VPG)在训练过程中过于关注主要视觉内容,而忽略了其他细节。这导致模型在理解示范性指令时表现不佳。研究团队提出了一种轻量级的视觉提示生成器完整模块(VPG-C),旨在推断和补充理解示范性指令所需的缺失细节,并通过合成判别训练策略对VPG-C进行微调,以提高模型的零样本性能。
➡️ 方法简介:研究团队提出了VPG-C模块,该模块通过拦截传统VPG提取的主要内容的中间LLM输出,生成指令特定的引导,然后指导VPG恢复缺失的视觉残差细节。这些残差细节通过跳过连接无缝重新整合到中间LLM层中,从而提高模型对示范性指令的理解能力。此外,研究团队还提出了一种合成判别训练策略,通过在忽略的区域进行编辑生成合成图像,挑战VPG-C恢复缺失细节的能力。
➡️ 实验设计:研究团队构建了DEMON基准,涵盖31个不同任务,涉及7个类别,用于评估模型在示范性指令理解上的表现。实验结果表明,VPG-C在DEMON基准上显著优于现有的MLLMs,尤其是在多模态对话等复杂任务上。此外,VPG-C在其他多模态指令基准上的零样本评估也显示出显著的改进。
Link-Context Learning for Multimodal LLMs
➡️ 论文标题:Link-Context Learning for Multimodal LLMs
➡️ 论文作者:Yan Tai, Weichen Fan, Zhao Zhang, Feng Zhu, Rui Zhao, Ziwei Liu
➡️ 研究机构: SenseTime Research、Institute of Automation, CAS、S-Lab, Nanyang Technological University
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在处理未见过的图像和理解新概念方面存在挑战。尽管这些模型在大规模数据集上进行了训练,但它们在零样本或少样本学习任务中的表现仍然有限,尤其是在处理完全未见过的图像和新概念时。
➡️ 研究动机:为了提高MLLMs在处理未见过的图像和新概念方面的能力,研究团队提出了一种新的学习方法——链接上下文学习(Link-Context Learning, LCL)。LCL通过在对话中引入因果关系,使模型能够从少量示例中学习新概念,并在后续的推理中保持这些知识,从而提高模型的泛化能力和准确性。
➡️ 方法简介:研究团队提出了一种系统的方法,通过构建ISEKAI数据集来评估MLLMs在链接上下文学习任务中的表现。ISEKAI数据集包含了一系列完全生成的图像和虚构的概念,这些图像和概念在现实世界中不存在,从而确保模型在评估过程中不会受到已有知识的干扰。LCL通过在支持集和查询集之间建立因果关系,使模型能够更好地理解和处理新概念。
➡️ 实验设计:研究团队在ISEKAI数据集和ImageNet-100数据集上进行了实验。ISEKAI数据集包含20组40个类别,每个类别包含至少32张图像,用于评估模型在处理完全未见过的图像和新概念时的表现。实验设计了不同的训练策略,包括[2-way]、[2-way-random]、[2-way-weight]和[mix]策略,以全面评估模型在不同条件下的表现。实验结果表明,LCL方法在ISEKAI和ImageNet-100数据集上均显著优于现有的ICL方法。