On Pre-training of Multimodal Language Models Customized for Chart Understanding
➡️ 论文标题:On Pre-training of Multimodal Language Models Customized for Chart Understanding
➡️ 论文作者:Wan-Cyuan Fan, Yen-Chun Chen, Mengchen Liu, Lu Yuan, Leonid Sigal
➡️ 研究机构: University of British Columbia、Microsoft、Vector Institute for AI、CIFAR AI Chair
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在特定领域的任务中展现出了显著的成果,尤其是在科学图表理解领域。这些研究通常利用专门的数据集进行视觉指令调优,以提高图表领域的问答(QA)准确性。然而,这些研究往往忽视了自然图像-标题预训练数据与数字图表图像-QA数据之间的根本差异,特别是在模型提取图表中潜在数值的能力方面。
➡️ 研究动机:现有的研究和模型在处理未标注数值的图表时表现不佳,这表明在视觉-语言对齐方面存在差距。为了弥补这一差距,本研究探讨了必要的训练过程,以提高MLLMs对图表的理解能力。研究团队通过三个关键发现,提出了CHOPINLLM,这是一种专为深入图表理解设计的多模态大语言模型。
➡️ 方法简介:研究团队提出了一种系统的方法,通过结合原始数据值的对齐预训练、在端到端微调中随机替换图表图像为纯文本表示,以及在微调阶段要求模型先提取图表数据再回答问题,来增强MLLMs的图表理解能力。此外,研究团队还建立了一个新的基准,以评估MLLMs对不同图表类型和理解层次的性能。
➡️ 实验设计:研究在四个经典基准上进行了实验,包括ChartQA、PlotQA、Pew和Statista数据集。实验设计了不同类型的图表和问题,以全面评估模型在图表理解任务中的表现,包括图表到表格(Chart-to-Table)、图表到文本(Chart-to-Text)等任务。实验结果表明,CHOPINLLM在理解标注和未标注的图表方面表现出色,能够有效提取图表中的潜在数据,并进行准确的推理。
Navigation Instruction Generation with BEV Perception and Large Language Models
➡️ 论文标题:Navigation Instruction Generation with BEV Perception and Large Language Models
➡️ 论文作者:Sheng Fan, Rui Liu, Wenguan Wang, Yi Yang
➡️ 研究机构: 浙江大学 (Zhejiang University)
➡️ 问题背景:导航指令生成任务要求智能体根据一系列视觉输入生成自然语言指令,以准确描述导航路径。现有方法主要依赖于2D视角特征,这导致在复杂3D环境中生成的指令缺乏准确性和相关性。此外,多模态大语言模型(MLLMs)虽然在多种视觉-语言任务中表现出色,但在零样本条件下生成导航指令时仍存在不足。
➡️ 研究动机:为了提高导航指令生成的准确性和相关性,研究团队提出了一种新的方法——BEVInstructor,该方法结合了鸟瞰图(BEV)感知和多模态大语言模型(MLLMs),以更好地理解3D环境并生成详细的导航指令。
➡️ 方法简介:BEVInstructor通过构建一个Perspective-BEV Visual Encoder来融合2D视角特征和BEV特征,从而丰富视觉表示。然后,通过Perspective-BEV Prompt Tuning对MLLMs进行参数高效的微调,以增强模型的跨模态对齐能力。此外,BEVInstructor还采用了一个实例引导的迭代优化流程,逐步提高生成指令的质量。
➡️ 实验设计:研究团队在三个公开数据集(R2R、REVERIE和UrbanWalk)上进行了实验,评估了BEVInstructor在不同场景下的性能。实验结果表明,BEVInstructor在所有数据集上均优于现有的导航指令生成算法,特别是在REVERIE数据集的val seen和unseen分割上,分别取得了12.6%和8.3%的CIDEr提升。这表明BEV特征有效地将3D场景信息整合到MLLMs中,从而建立了现实世界感知与人类语言之间的联系。
DOPRA: Decoding Over-accumulation Penalization and Re-allocation in Specific Weighting Layer
➡️ 论文标题:DOPRA: Decoding Over-accumulation Penalization and Re-allocation in Specific Weighting Layer
➡️ 论文作者:Jinfeng Wei, Xiaofeng Zhang
➡️ 研究机构: 东北大学、上海交通大学
➡️ 问题背景:多模态大型语言模型(MLLMs)在处理视觉数据和基于图像语义内容的流畅交流方面取得了重大进展。然而,这些模型在处理视觉输入时仍面临一个深刻的问题:幻觉(hallucination)。幻觉指的是MLLMs在处理视觉输入时生成不准确或不连贯的响应,错误地识别图像中不存在的对象、属性或关系。这种错误在高风险应用中(如自动驾驶)可能导致生命危险。
➡️ 研究动机:尽管已提出多种方法来解决幻觉问题,但这些方法通常需要昂贵的干预措施,如使用标注数据进行微调、整合辅助模型或利用外部知识源。本研究旨在不依赖补充数据、外部模型或专门知识的情况下,解决MLLMs推理过程中的幻觉问题。研究团队发现,生成序列中的“摘要标记”(summary tokens)在注意力权重上过早积累,导致模型过度依赖这些标记,从而产生幻觉。
➡️ 方法简介:研究团队提出了DOPRA,一种创新的解码框架,包含两个核心策略:特定注意力层的过度积累惩罚(Decoding Over-accumulation Penalization)和重新分配(Re-allocation)。DOPRA通过在束搜索过程中应用加权分数来惩罚过度依赖的标记,从而防止生成幻觉内容。此外,DOPRA还实现了一种回溯重新分配策略,当累积惩罚分数达到预定义阈值时,回溯到摘要标记的位置,重新选择候选标记,以避免过度积累模式。
➡️ 实验设计:研究团队在多个基准数据集上进行了广泛的实证评估,使用特定的幻觉度量指标测试了先进的MLLMs。实验结果表明,DOPRA在各种MLLM架构中普遍减少了幻觉现象,提高了模型的可信度和可靠性。
MIBench: Evaluating Multimodal Large Language Models over Multiple Images
➡️ 论文标题:MIBench: Evaluating Multimodal Large Language Models over Multiple Images
➡️ 论文作者:Haowei Liu, Xi Zhang, Haiyang Xu, Yaya Shi, Chaoya Jiang, Ming Yan, Ji Zhang, Fei Huang, Chunfeng Yuan, Bing Li, Weiming Hu
➡️ 研究机构: 中国科学院自动化研究所、中国科学院大学人工智能学院、阿里巴巴集团、中国科学技术大学、北京大学、上海科技大学
➡️ 问题背景:基于大语言模型(LLMs)的多模态大语言模型(MLLMs)在各种视觉-语言任务中取得了显著的性能。然而,大多数现有的MLLMs和基准测试主要集中在单图像输入场景,而对处理现实世界中多图像输入的性能探索不足。虽然一些基准测试考虑了多图像,但它们的评估维度和样本非常有限。
➡️ 研究动机:现有的多图像基准测试要么规模较小,要么评估维度有限,无法全面评估MLLMs在多图像场景中的能力。为了填补这一空白,研究团队提出了一个大规模的多图像基准测试MIBench,旨在全面评估MLLMs在多图像场景中的细粒度能力。
➡️ 方法简介:MIBench将多图像能力分为三个场景:多图像指令(MII)、多模态知识寻求(MKS)和多模态上下文学习(MIC),并构建了13个任务,包含13K个标注样本。数据构建过程中,研究团队从现有数据集中抽取图像,转换原始注释为问题和正确选项,并使用GPT-4生成具有挑战性的干扰项。
➡️ 实验设计:研究团队在MIBench上评估了多个开源和闭源的MLLMs,包括GPT-4、LLaVA-1.5、Idefics2和mPLUG-Owl等。实验设计了多种评估指标,如多选题的准确率和简答题的精确匹配,以全面评估模型在多图像场景中的表现。实验结果表明,当前的MLLMs,尤其是开源模型,在多图像输入场景中存在显著的不足,如细粒度感知、多图像推理和上下文学习能力较弱。
Addressing Out-of-Distribution Challenges in Image Semantic Communication Systems with Multi-modal Large Language Models
➡️ 论文标题:Addressing Out-of-Distribution Challenges in Image Semantic Communication Systems with Multi-modal Large Language Models
➡️ 论文作者:Feifan Zhang, Yuyang Du, Kexin Chen, Yulin Shao, Soung Chang Liew
➡️ 研究机构: The Chinese University of Hong Kong, University of Macau
➡️ 问题背景:随着无线网络技术的发展,语义通信成为下一代无线网络的关键技术。然而,传统的机器学习模型在处理未见任务时面临分布外(Out-of-Distribution, OOD)问题,这可能导致语义压缩的完整性受损。例如,当模型遇到训练数据中未包含的对象时,可能会错误地识别这些对象,从而引入语义失真。
➡️ 研究动机:现有的研究主要集中在提高图像传输的像素级保真度,而忽略了图像的元素级语义表示。为了克服OOD问题并提高语义通信系统的性能,研究团队提出了一种利用多模态大语言模型(MLLMs)的方法,通过结合MLLMs的广泛知识和传统ML模型的领域专长,增强系统的OOD处理能力。
➡️ 方法简介:研究团队提出了一种“Plan A - Plan B”框架,该框架在语义编码过程中利用MLLMs辅助传统ML模型处理OOD数据。具体而言,当传统ML模型对某个对象的识别置信度低于预设阈值时,系统将任务交给MLLMs进行处理。此外,研究团队还提出了一种基于贝叶斯优化的输出层设计,通过利用图像的上下文信息优化MLLMs的输出概率分布,进一步提高语义压缩的准确性。
➡️ 实验设计:实验在多个数据集上进行,包括图像语义通信任务。实验设计了不同类型的OOD数据和噪声环境,以全面评估系统的性能。实验结果表明,该框架在处理OOD数据时显著提高了分类准确率,特别是在纯OOD数据上,分类准确率从接近0%提高到71.9%。此外,研究团队还提出了一种“生成-批评”框架,利用多个MLLMs的合作提高图像重建的可靠性,实验结果显示该框架将正确图像生成的概率提高了约20%。