多模态大语言模型arxiv论文略读(153)

发布于:2025-07-10 ⋅ 阅读:(23) ⋅ 点赞:(0)

在这里插入图片描述

AtomThink: A Slow Thinking Framework for Multimodal Mathematical Reasoning

➡️ 论文标题:AtomThink: A Slow Thinking Framework for Multimodal Mathematical Reasoning
➡️ 论文作者:Kun Xiang, Zhili Liu, Zihao Jiang, Yunshuang Nie, Runhui Huang, Haoxiang Fan, Hanhui Li, Weiran Huang, Yihan Zeng, Jianhua Han, Lanqing Hong, Hang Xu, Xiaodan Liang
➡️ 研究机构: Sun Yat-sen University、Hong Kong University of Science and Technology、Shanghai Jiaotong University、University of Hong Kong、Huawei Noah’s Ark Lab
➡️ 问题背景:多模态数学推理任务(Multimodal Mathematical Reasoning)长期以来一直是多模态大语言模型(MLLMs)面临的挑战。尽管现有的方法通过直接或快速思考来解决这些问题,但这些方法在处理复杂推理任务时仍存在局限性。研究发现,通过构建长链思考(CoT)并逐步执行,可以显著提高模型的推理能力。
➡️ 研究动机:现有的多模态模型在处理复杂推理任务时,主要依赖于贪婪解码策略,这限制了它们的性能。此外,现有的方法虽然能够激发模型的CoT能力,但未能充分考虑每个中间步骤的质量。因此,研究团队提出了一种全面的慢思考框架——AtomThink,旨在通过提高每个原子步骤的质量来增强MLLMs的推理能力。
➡️ 方法简介:研究团队提出了AtomThink框架,该框架包括三个关键模块:(i)多模态CoT注释引擎,用于自动生成高质量的CoT注释;(ii)原子步骤微调策略,通过逐步掩码训练集来优化MLLMs的推理能力;(iii)四种不同的搜索策略,用于在推理过程中找到最优的预测节点。此外,研究团队还构建了一个大规模的多模态长CoT数据集——AtomMATH,以及一个原子能力评估指标,用于评估模型在数学任务中的推理质量。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括MathVista和MathVerse。实验设计了不同的搜索策略(如多数投票、最佳N选)和原子步骤微调策略,以全面评估模型在不同条件下的推理能力和准确性。实验结果表明,AtomThink显著提高了基线MLLMs的性能,特别是在MathVista和MathVerse数据集上,分别提高了9.6%和18.8%的准确率。

Leveraging MLLM Embeddings and Attribute Smoothing for Compositional Zero-Shot Learning

➡️ 论文标题:Leveraging MLLM Embeddings and Attribute Smoothing for Compositional Zero-Shot Learning
➡️ 论文作者:Xudong Yan, Songhe Feng, Yang Zhang, Jian Yang, Yueguan Lin, Haojun Fei
➡️ 研究机构: 北京交通大学计算机科学与技术学院、奇虎科技
➡️ 问题背景:组合零样本学习(Compositional Zero-Shot Learning, CZSL)旨在通过已知的属性和对象组合来识别新的属性-对象组合。现有的CZSL方法在处理未见过的组合时存在三个主要问题:背景噪声的影响、属性与对象的复杂纠缠以及现有词嵌入无法捕捉复杂的多模态语义信息。
➡️ 研究动机:为了克服现有方法的局限性,研究团队提出了一种新的框架,利用多模态大语言模型(MLLM)嵌入和属性平滑引导的解缠(TRIDENT),旨在提高模型在未见过的组合上的泛化能力。
➡️ 方法简介:TRIDENT框架包括三个主要模块:视觉特征提取、属性-对象解缠和特征对齐。视觉特征提取模块通过特征自适应聚合(FAA)模块减少背景噪声的影响,并利用可学习的条件掩码捕获多粒度特征。属性-对象解缠模块通过共享和独占权重来解缠属性和对象。特征对齐模块利用MLLM的最后隐藏状态作为词嵌入,并通过属性平滑策略生成辅助属性,以减少模型对已知属性的过度自信。
➡️ 实验设计:研究团队在三个CZSL基准数据集上进行了广泛的实验,评估了TRIDENT在不同条件下的性能。实验设计了不同的因素(如背景噪声、属性与对象的纠缠程度)和不同类型的辅助属性,以全面评估模型的泛化能力和鲁棒性。实验结果表明,TRIDENT在多个基准数据集上取得了最先进的性能。

Thinking Before Looking: Improving Multimodal LLM Reasoning via Mitigating Visual Hallucination

➡️ 论文标题:Thinking Before Looking: Improving Multimodal LLM Reasoning via Mitigating Visual Hallucination
➡️ 论文作者:Haojie Zheng, Tianyang Xu, Hanchi Sun, Shu Pu, Ruoxi Chen, Lichao Sun
➡️ 研究机构: University of Pennsylvania、Columbia University、Lehigh University、Independent Researcher
➡️ 问题背景:多模态大型语言模型(Multimodal Large Language Models, MLLMs)在视觉和语言任务中展现了卓越的能力。然而,这些模型在跨模态理解中容易产生幻觉,即生成与输入不一致或错误的信息。当前的方法,如链式思维(Chain of Thought, CoT)推理,虽然增强了大型语言模型(LLMs)的推理能力,但在多模态场景中应用时,由于视觉输入的误导,幻觉问题变得更加严重。
➡️ 研究动机:现有的多模态CoT方法在处理视觉输入时,推理过程与视觉输入同时进行,这导致了显著的幻觉问题,影响了模型的可靠性和准确性。为了克服这一问题,研究团队提出了一种新的方法——视觉推理链(Visual Inference Chain, VIC),该方法在引入视觉输入之前,先通过文本上下文构建推理链,从而减少跨模态偏差,提高多模态推理的准确性。
➡️ 方法简介:研究团队提出了VIC框架,该框架通过在引入视觉输入之前,仅使用文本上下文构建推理链,来减少视觉输入对推理过程的影响。VIC框架包括三个主要步骤:1) 生成视觉推理链,2) 提取视觉推理链的合理性,3) 基于提取的合理性生成最终答案。这种方法通过解耦视觉和文本输入,减少了幻觉问题,提高了模型的推理能力。
➡️ 实验设计:研究团队在六个基准数据集上进行了实验,包括幻觉检测基准(如HallusionBench、MMVP、POPE)和通用多模态能力基准(如MME、SEED-Bench、MathVista)。实验设计了不同的模型(如Gemini 1.5 Flash、Gemini 1.5 Pro、GPT-4o、GPT-4o mini)和不同的基线方法(如原始模型、零样本CoT),以全面评估VIC方法的有效性和鲁棒性。实验结果表明,VIC方法在多个基准数据集上显著提高了模型的性能,特别是在幻觉检测任务中表现尤为突出。

Med-2E3: A 2D-Enhanced 3D Medical Multimodal Large Language Model

➡️ 论文标题:Med-2E3: A 2D-Enhanced 3D Medical Multimodal Large Language Model
➡️ 论文作者:Yiming Shi, Xun Zhu, Ying Hu, Chenyi Guo, Miao Li, Ji Wu
➡️ 研究机构: 清华大学电子工程系、清华大学人工智能学院
➡️ 问题背景:3D医学图像分析在现代医疗中至关重要,但传统的任务特定模型由于在不同临床场景中的泛化能力有限,逐渐显得不足。多模态大语言模型(MLLMs)为这些挑战提供了有希望的解决方案。然而,现有的MLLMs在充分利用3D医学图像中丰富的层次信息方面存在局限性。
➡️ 研究动机:受临床实践中放射科医生同时关注3D空间结构和2D平面内容的启发,研究团队提出了Med-2E3,这是一种新的3D医学图像分析MLLM,集成了3D和2D编码器。为了更有效地聚合2D特征,研究团队设计了一个文本引导的切片间评分模块(TG-IS),该模块根据切片内容和任务指令对每个2D切片的注意力进行评分。据研究团队所知,Med-2E3是第一个集成了3D和2D特征的3D医学图像分析MLLM。
➡️ 方法简介:Med-2E3通过3D和2D编码器分别提取互补特征,并通过TG-IS评分模块计算每个切片的注意力评分,然后根据这些评分聚合2D特征,与3D特征结合。最终,2D增强的3D特征与文本特征结合,输入到大语言模型(LLM)中生成响应。
➡️ 实验设计:研究团队在大规模的3D医学多模态基准数据集上进行了实验,包括报告生成和医学视觉问答(VQA)任务。实验设计了不同的任务,如报告生成、开放式VQA和封闭式VQA,以全面评估Med-2E3在不同任务中的表现。实验结果表明,Med-2E3在报告生成任务中比现有模型提高了14%,在医学VQA任务中提高了5%,展示了其在处理复杂多模态临床任务中的潜力。

Visual Cue Enhancement and Dual Low-Rank Adaptation for Efficient Visual Instruction Fine-Tuning

➡️ 论文标题:Visual Cue Enhancement and Dual Low-Rank Adaptation for Efficient Visual Instruction Fine-Tuning
➡️ 论文作者:Pengkun Jiao, Bin Zhu, Jingjing Chen, Chong-Wah Ngo, Yu-Gang Jiang
➡️ 研究机构: 香港科技大学(广州)、北京工业大学、德雷塞尔大学、牛津大学
➡️ 问题背景:多模态大型语言模型(MLLMs)在多种任务中展现了强大的能力,但存在两个主要限制:1) 视觉投影器预训练阶段主要依赖于高层视觉特征,忽略了低层和细粒度的细节,限制了视觉理解能力;2) 指令调优阶段,随着下游任务的多样性和复杂性增加,数据冲突变得更加显著。
➡️ 研究动机:为了克服现有MLLMs的局限性,研究团队提出了一种高效细调框架,包括视觉线索增强(VCE)和双低秩适应(Dual-LoRA)两个模块。VCE通过整合多层视觉特征来增强视觉投影器的细粒度视觉特征捕捉能力,而Dual-LoRA通过将学习解耦为技能低秩空间和任务激活低秩空间,有效缓解数据冲突,提高模型的适应性和效率。
➡️ 方法简介:研究团队提出了一种两阶段的高效视觉指令调优框架。第一阶段是增强视觉投影器预训练,通过VCE模块整合多层视觉特征,增强视觉线索。第二阶段是双低秩适应视觉指令细调,通过Dual-LoRA模块将学习解耦为技能低秩空间和任务激活低秩空间,实现精确控制和高效适应。
➡️ 实验设计:实验在UniFood数据集和多个通用MLLM基准上进行,评估了模型在食材识别、食谱生成和营养估计等任务上的表现。实验设计了不同的配置,包括不同的LoRA秩和激活方法,以全面评估模型的性能和适应性。实验结果表明,所提出的方法在多个任务上均取得了显著的性能提升。


网站公告

今日签到

点亮在社区的每一天
去签到