Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE
➡️ 论文标题:Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE
➡️ 论文作者:Zeren Chen, Ziqin Wang, Zhen Wang, Huayang Liu, Zhenfei Yin, Si Liu, Lu Sheng, Wanli Ouyang, Yu Qiao, Jing Shao
➡️ 研究机构: Shanghai AI Laboratory, School of Software, Beihang University, Institute of Artificial Intelligence, Beihang University, University of Sydney
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种任务中展现出强大的零样本泛化能力。然而,随着更多模态和下游任务的引入,任务间的冲突和干扰可能对性能产生负面影响。这种现象在MLLMs中尤为严重,尤其是在模态特征对齐困难、任务粒度差异大以及生成符合特定模态要求的文本响应复杂的情况下。
➡️ 研究动机:现有的研究对MLLMs中任务干扰问题的关注不足。为了缓解这一问题,研究团队提出了一种新的框架Octavius,通过结合Mixture-of-Experts (MoE) 和LoRA技术,设计了一种新的LLM解码器LoRA-MoE,旨在有效解决多模态学习中的任务干扰问题。
➡️ 方法简介:研究团队提出了LoRA-MoE,这是一种结合了MoE和LoRA技术的新型解码器。LoRA-MoE通过实例级门控路由策略,将不同的下游任务分配给独立的专家,以获取特定任务的知识,从而减轻多模态学习中的干扰。此外,研究团队还设计了针对2D图像和3D点云模态的编码器,以支持更广泛的多模态应用。
➡️ 实验设计:研究团队在三个模态设置下对Octavius进行了微调:i.) 图像模态,ii.) 点云模态,iii.) 图像和点云模态。实验评估了这些模型在多种下游任务上的零样本性能,包括视觉问答(VQA)、分类、图像描述等。实验结果表明,LoRA-MoE在多种任务上显著提升了性能,平均提升约20%,同时仅增加了少量的可训练参数。
ChEF: A Comprehensive Evaluation Framework for Standardized Assessment of Multimodal Large Language Models
➡️ 论文标题:ChEF: A Comprehensive Evaluation Framework for Standardized Assessment of Multimodal Large Language Models
➡️ 论文作者:Zhelun Shi, Zhipin Wang, Hongxing Fan, Zhenfei Yin, Lu Sheng, Yu Qiao, Jing Shao
➡️ 研究机构: Shanghai Artificial Intelligence Laboratory、Beihang University、The University of Sydney
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在与视觉内容的交互中展现了令人印象深刻的能力,能够处理多种潜在的下游任务。然而,尽管已经提出了多个基准测试,但MLLMs的能力和局限性仍未得到全面理解,缺乏一个标准化的综合评估框架。
➡️ 研究动机:为了全面理解MLLMs的能力和局限性,并为未来的安全防护提供有价值的见解和方法,研究团队提出了第一个综合评估框架(Comprehensive Evaluation Framework, ChEF),旨在全面评估每个MLLM,并公平地比较不同的MLLMs。ChEF通过四个模块化组件(Scenario、Instruction、Inferencer、Metric)构建,能够灵活地适应任何新模型或任务的评估。
➡️ 方法简介:研究团队设计了ChEF,包括四个模块化组件:Scenario(多模态任务的可扩展数据集)、Instruction(灵活的指令检索公式)、Inferencer(可靠的问答策略)和Metric(指示性的任务特定评分函数)。基于这些组件,ChEF能够在一个标准化的框架中进行多方面的评估,并且可以通过设计新的Recipe(这四个组件的系统选择)来构建新的评估。
➡️ 实验设计:研究团队在9个不同的场景和6个期望能力(desiderata)上对9个突出的MLLMs进行了大规模评估。这些期望能力包括校准、上下文学习、指令遵循、语言性能、幻觉和鲁棒性。评估结果揭示了MLLMs在不同场景下的泛化能力和多模态交互所需的综合能力。
mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration
➡️ 论文标题:mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration
➡️ 论文作者:Qinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Anwen Hu, Haowei Liu, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou
➡️ 研究机构: Alibaba Group
➡️ 问题背景:多模态大型语言模型(MLLMs)在各种开放任务中展示了令人印象深刻的指令能力。然而,先前的方法主要集中在增强多模态能力上。mPLUG-Owl2 通过有效利用模态协作,改进了文本和多模态任务的性能。
➡️ 研究动机:现有的多模态大型语言模型(MLLMs)在处理不同模态的任务时,存在模态干扰的问题,即不同模态之间的信息可能会相互干扰,导致性能下降。mPLUG-Owl2 旨在通过引入模态自适应模块(Modality-Adaptive Module, MAM)来解决这一问题,从而在保持模态特定特征的同时,促进模态之间的协作。
➡️ 方法简介:mPLUG-Owl2 采用模块化网络设计,其中语言解码器作为管理不同模态的通用接口。具体来说,mPLUG-Owl2 引入了共享功能模块以促进模态协作,并引入了模态自适应模块以保持模态特定特征。视觉和语言模态被投影到共享的语义空间中进行跨模态交互,同时模态自适应模块帮助保持模态特定特征。
➡️ 实验设计:mPLUG-Owl2 在多个公开数据集上进行了实验,包括图像-文本对和单模态及多模态指令数据。实验设计了不同的数据集和任务,如图像描述、视觉问答等,以全面评估模型在不同条件下的表现。实验结果表明,mPLUG-Owl2 在多个经典视觉-语言基准测试中取得了最先进的性能,并在多个零样本多模态基准测试中表现出色。
u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model
➡️ 论文标题:u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model
➡️ 论文作者:Jinjin Xu, Liwu Xu, Yuzhe Yang, Xiang Li, Fanyi Wang, Yanchun Xie, Yi-Jie Huang, Yaqian Li
➡️ 研究机构: OPPO AI Center
➡️ 问题背景:尽管多模态大语言模型(MLLMs)在视觉理解方面取得了显著进展,但它们在区域级和像素级任务上的表现仍不尽如人意。这些任务需要模型具备更细粒度的感知能力,而现有方法往往侧重于全局或区域理解,忽视了像素级任务的需求。
➡️ 研究动机:为了弥补这一不足,研究团队提出了u-LLaVA,一个统一的多任务框架,旨在通过整合像素、区域和全局特征来提升MLLMs的感知能力。该框架不仅提高了模型在多种任务上的表现,还为未来的多模态模型开发提供了新的思路。
➡️ 方法简介:u-LLaVA通过两个阶段实现其目标。第一阶段,通过高效的模态对齐策略,利用图像和视频数据增强模型的基础理解能力。第二阶段,通过任务特定的投影器和解码器进行联合指令调优,以实现区域和像素级理解。此外,研究团队还构建了一个包含277K样本的新型掩码多任务数据集(ullava-277K),用于评估模型的细粒度感知能力。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括视觉-语言理解(VLP)、图像到图像(I2I)任务、视觉问答(VQA)、区域表达理解(REC)和显著对象分割(SOD)等任务。实验设计了不同的任务类型和数据集组合,以全面评估u-LLaVA在不同任务上的表现。实验结果表明,u-LLaVA在多个基准测试中取得了最先进的性能,尤其是在像素级和区域级任务上表现突出。
InfMLLM: A Unified Framework for Visual-Language Tasks
➡️ 论文标题:InfMLLM: A Unified Framework for Visual-Language Tasks
➡️ 论文作者:Qiang Zhou, Zhibin Wang, Wei Chu, Yinghui Xu, Hao Li, Yuan Qi
➡️ 研究机构: HKUST (GZ)、BJUT、Drexel University、University of Oxford
➡️ 问题背景:大型语言模型(LLMs)在处理各种语言中心应用方面展现了卓越的多功能性。为了扩展LLMs的能力,使其能够处理更广泛的模态输入,多模态大型语言模型(MLLMs)引起了越来越多的兴趣。本研究旨在使LLMs能够处理更多的视觉-语言相关任务,特别是图像描述、视觉问答(VQA)和视觉定位。
➡️ 研究动机:从零开始开发MLLM是一个具有挑战性的任务,需要大量的训练资源和高质量的训练数据。现有的MLLMs通常采用微调策略,利用预训练的LLMs和多模态数据进行微调。本研究提出了一种渐进的训练策略,旨在提高训练效率,同时通过引入pool-adapter模块来保留视觉嵌入的位置信息,从而提高模型在视觉-语言任务中的性能。
➡️ 方法简介:研究团队提出了一种名为InfMLLM的新型MLLM框架,该框架通过三个阶段的训练:轻量级对齐预训练、中等权重多任务混合训练和LLM微调,逐步提高模型的性能。在训练过程中,GPU内存的需求逐渐增加。为了有效管理传递给LLM的视觉嵌入数量,同时保留其位置信息,研究团队引入了一个简单的视觉适配器模块——pool-adapter。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括图像描述、视觉问答(VQA)和视觉定位任务。实验设计了不同因素的变化,如视觉嵌入的数量、位置等,以及不同类型的视觉-语言任务,以全面评估模型的性能。实验结果表明,InfMLLM在多个基准测试中达到了最先进的性能或与最近的MLLMs相当的性能。