多模态大语言模型arxiv论文略读(七十七)

发布于:2025-05-16 ⋅ 阅读:(18) ⋅ 点赞:(0)

在这里插入图片描述

An Empirical Study on Parameter-Efficient Fine-Tuning for MultiModal Large Language Models

➡️ 论文标题:An Empirical Study on Parameter-Efficient Fine-Tuning for MultiModal Large Language Models
➡️ 论文作者:Xiongtao Zhou, Jie He, Yuhua Ke, Guangyao Zhu, Víctor Gutiérrez-Basulto, Jeff Z. Pan
➡️ 研究机构: Waseda University, Japan; School of Informatics, University of Edinburgh, UK; School of Computer Science and Informatics, Cardiff University, UK
➡️ 问题背景:多模态大语言模型(MLLMs)在多种多模态任务中展现了卓越的能力。然而,由于这些模型通常包含数十亿参数,全参数微调(FFT)变得非常具有挑战性。为了解决这一问题,研究团队探讨了参数高效微调(PEFT)方法在MLLMs中的应用,旨在通过仅训练少量参数来提升模型性能。
➡️ 研究动机:现有的研究主要集中在单模态大语言模型(LLMs)的PEFT方法上,而对于多模态模型(MLLMs)的PEFT方法研究较少。MLLMs引入了额外的模块,如视觉编码器和连接层,这些模块在微调过程中也需被考虑。因此,研究团队希望通过系统的研究,评估不同PEFT方法在MLLMs中的表现,特别是连接层微调对模型性能的影响,以及PEFT方法对模型稳定性、泛化能力和幻觉的影响。
➡️ 方法简介:研究团队选择了四种流行的PEFT方法(LoRA、IA3、Adapter、Prefix-Tuning)来微调开源MLLMs的LLM组件。实验设计涵盖了多个方面,包括不同模型、PEFT模块的位置、微调数据的规模、模型稳定性、MLLMs的泛化能力和幻觉现象。研究团队在七个数据集上进行了实验,这些数据集分为未见过的数据集和已见过的数据集两类。
➡️ 实验设计:实验在三个公开数据集上进行,包括视觉问答(VQA)、视觉推理和图像描述任务。实验设计了不同因素的变化,如PEFT模块的位置(注意力层、MLP层或两者)、微调数据的规模(低资源、中资源、高资源),以及不同类型的PEFT方法,以全面评估模型在不同条件下的表现。研究团队还进行了稳定性分析,通过不同的随机种子来评估模型的稳定性。

M3GIA: A Cognition Inspired Multilingual and Multimodal General Intelligence Ability Benchmark

➡️ 论文标题:M3GIA: A Cognition Inspired Multilingual and Multimodal General Intelligence Ability Benchmark
➡️ 论文作者:Wei Song, Yadong Li, Jianhua Xu, Guowei Wu, Lingfeng Ming, Kexin Yi, Weihua Luo, Houyi Li, Yi Du, Fangda Guo, Kaicheng Yu
➡️ 研究机构: AutoLab, Westlake University、AI Business, Alibaba Group、Zhejiang University、Key Laboratory of Behavioral Science, Institute of Psychology, CAS、Key Laboratory of AI Safety, Institute of Computing Technology, CAS
➡️ 问题背景:当前的多模态大型语言模型(MLLMs)在各种复杂任务中展现了强大的能力,但现有的评估基准主要集中在任务性能上,如识别物体属性的准确性。结合认知科学来理解MLLMs的智能,尤其是其背后的认知因素,仍是一个未充分探索的领域。
➡️ 研究动机:为了评估MLLMs的综合智能能力,研究团队引入了首个基于认知科学的多语言多模态智能能力评估基准M3GIA。该基准旨在通过认知科学的视角,系统地评估MLLMs在不同语言下的认知能力,以填补现有评估方法的空白。
➡️ 方法简介:研究团队基于Cattell-Horn-Carroll (CHC) 智力模型,将MLLMs的认知能力分为五个维度:流体推理(Gf)、理解-知识(Gc)、视觉处理(Gv)、阅读和写作(Grw)、定量知识(Gq)。M3GIA包含1,800个问题,覆盖了18种具体的问题类型,以全面评估模型在不同认知维度上的表现。此外,为了评估语言对认知能力的影响,M3GIA扩展到了六种语言:英语、法语、中文、西班牙语、葡萄牙语和韩语。
➡️ 实验设计:研究团队评估了24个MLLMs,包括最先进的闭源和开源模型。实验设计了多种问题类型,以评估模型在不同认知维度上的表现。结果显示,最新的MLLMs在英语中的表现达到了人类智能的较低边界,但在其他五种语言中仍存在显著差异。此外,研究还发现,MLLMs在某一认知领域的熟练度往往能转化为其他领域的优越表现,这一现象与人类智能中的“一般智能能力”(GIA)模式相符。

MLLM-SR: Conversational Symbolic Regression base Multi-Modal Large Language Models

➡️ 论文标题:MLLM-SR: Conversational Symbolic Regression base Multi-Modal Large Language Models
➡️ 论文作者:Yanjie Li, Weijun Li, Lina Yu, Min Wu, Jingyi Liu, Wenqiang Li, Shu Wei, Yusong Deng
➡️ 研究机构: 中国科学院半导体研究所安纳实验室、中国科学院大学电子电气与通信工程学院
➡️ 问题背景:数学公式是人类与自然交流的语言,能够简洁地表达变量之间的潜在关系。从观测数据中总结出简洁的表达式,以反映物理现象背后的规律,是科学家们一直追求的目标。然而,现有的符号回归方法在生成表达式时,无法根据已知的先验知识生成满足特定要求的表达式,这限制了其在实际科学问题中的应用。
➡️ 研究动机:为了克服现有符号回归方法的局限性,研究团队提出了一种基于多模态大语言模型的会话式符号回归方法(MLLM-SR),该方法能够通过自然语言指令描述要求,生成满足这些要求的表达式。这不仅提高了模型的灵活性,还为未来的科学研究提供了新的工具。
➡️ 方法简介:MLLM-SR 方法首先将观测数据视为一种模态,将文本(包含构成表达式的符号)视为另一种模态。通过冻结大型语言模型(LLM)和 SetTransformer,然后训练一个全连接层来将观测数据特征映射到文字特征空间,实现特征对齐。在第二步中,解冻 LLM 的参数,进行端到端的训练。
➡️ 实验设计:研究团队在 Nguyen 数据集上进行了实验,验证了 MLLM-SR 在拟合性能上优于现有的最先进基线模型。实验还展示了 MLLM-SR 能够很好地理解并利用添加到自然语言指令中的先验知识,有效地生成正确的表达式。

A Superalignment Framework in Autonomous Driving with Large Language Models

➡️ 论文标题:A Superalignment Framework in Autonomous Driving with Large Language Models
➡️ 论文作者:Xiangrui Kong, Thomas Braunl, Marco Fahmi, Yue Wang
➡️ 研究机构: University of Western Australia, Queensland Government, Queensland University of Technology
➡️ 问题背景:近年来,大型语言模型(LLMs)和多模态大型语言模型(MLLMs)在自主驾驶领域的应用取得了显著进展。这些模型在处理和交互复杂信息方面展现了卓越的能力。然而,LLMs和MLLMs在自主驾驶中的应用也引发了数据安全问题,尤其是在保护数据和隐私方面,主要依赖于LLM的内在安全措施,缺乏对LLM推理输出的额外审查或评估。尽管数据安全在自主驾驶中至关重要,但这一领域的研究仍相对不足。
➡️ 研究动机:为了解决自主驾驶中LLMs应用的安全性问题,研究团队提出了一种新的安全框架,旨在保护与自主车辆相关的敏感信息免受潜在泄露,同时确保LLM的输出符合驾驶法规并符合人类价值观。该框架包括过滤无关查询和验证LLM输出的安全性和可靠性机制。
➡️ 方法简介:研究团队提出了一种基于多代理系统的LLM安全评估框架,该框架通过集成安全评估代理,增强了传统结构,确保了车辆安全和正确的对齐。研究团队还评估了11种基于大型语言模型的自主驾驶方法,包括驾驶安全、敏感数据使用、Token消耗和对齐场景。
➡️ 实验设计:研究团队使用AutoGen框架评估了11篇LLM驱动的自主驾驶研究论文中的系统提示,使用gpt-35-turbo和llama2-70b-chat进行了整体评估,包括驾驶安全、Token数量、敏感数据使用和对齐。随后,从nuScenes-QA数据集中选择了250个问答对进行模拟评估,比较了二元尺度结果、Token消耗和响应时间。实验结果表明,不同模型在处理不同类型的问题时表现各异,特别是在存在、对象和状态类问题上表现较好,而在计数和比较类问题上表现较差。

CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark

➡️ 论文标题:CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark
➡️ 论文作者:David Romero, Chenyang Lyu, Haryo Akbarianto Wibowo, Teresa Lynn, Injy Hamed, Aditya Nanda Kishore, Aishik Mandal, Alina Dragonetti, Artem Abzaliev, Atnafu Lambebo Tonja, Bontu Fufa Balcha, Chenxi Whitehouse, Christian Salamea, Dan John Velasco, David Ifeoluwa Adelani, David Le Meur, Emilio Villa-Cueva, Fajri Koto, Fauzan Farooqui, Frederico Belcavello, Ganzorig Batnasan, Gisela Vallejo, Grainne Caulfield, Guido Ivetta, Haiyue Song, Henok Biadglign Ademtew, Hernán Maina, Holy Lovenia, Israel Abebe Azime, Jan Christian Blaise Cruz, Jay Gala, Jiahui Geng, Jesus-German Ortiz-Barajas, Jinheon Baek, Jocelyn Dunstan, Laura Alonso Alemany, Kumaranage Ravindu Yasas Nagasinghe, Luciana Benotti, Luis Fernando D’Haro, Marcelo Viridiano, Marcos Estecha-Garitagoitia, Maria Camila Buitrago Cabrera, Mario Rodríguez-Cantelar, Mélanie Jouitteau, Mihail Mihaylov, Mohamed Fazli Mohamed Imam, Muhammad Farid Adilazuarda, Munkhjargal Gochoo, Munkh-Erdene Otgonbold, Naome Etori, Olivier Niyomugisha, Paula Mónica Silva, Pranjal Chitale, Raj Dabre, Rendi Chevi, Ruochen Zhang, Ryandito Diandaru, Samuel Cahyawijaya, Santiago Góngora, Soyeong Jeong, Sukannya Purkayastha, Tatsuki Kuribayashi, Teresa Clifford, Thanmay Jayakumar, Tiago Timponi Torrent, Toqeer Ehsan, Vladimir Araujo, Yova Kementchedjhieva, Zara Burzo, Zheng Wei Lim, Zheng Xin Yong, Oana Ignat, Joan Nwatu, Rada Mihalcea, Thamar Solorio, Alham Fikri Aji
➡️ 研究机构: MBZUAI、多国研究者合作
➡️ 问题背景:当前的视觉问答(VQA)模型主要集中在英语和少数主要世界语言上,且图像通常具有西方中心性。尽管最近的努力增加了VQA数据集覆盖的语言数量,但这些数据集仍然缺乏低资源语言的多样性。更重要的是,这些数据集通常通过翻译或其他方法扩展其语言范围,但图像保持不变,导致文化代表性狭窄。
➡️ 研究动机:为了解决上述限制,研究团队构建了CVQA,这是一个新的、大规模的、多语言的、文化多样性的VQA基准,旨在覆盖丰富的语言和文化,通过与本地语言使用者和文化专家合作收集数据。CVQA包括来自30个国家的31种语言的10,000个问题,涵盖13种不同的书写系统,提供了一个全面评估多模态大语言模型(MLLMs)文化能力和偏见的基准。
➡️ 方法简介:研究团队通过详细的注释过程构建了CVQA数据集,确保数据集在文化和语言上的多样性。数据集分为39个不同的国家-语言对子集,每个样本都经过流利的语言使用者和熟悉相应文化的人员的注释和验证。数据集包含10个不同的类别,确保了视觉问题的全面性和文化代表性。
➡️ 实验设计:研究团队在多个多模态大语言模型(包括单语和多语模型)上对CVQA进行了基准测试,评估了模型在不同语言、地区、问题类别和图像来源上的表现。实验结果显示,当前最先进的开放源模型在CVQA上的表现普遍不佳,尤其是在本地语言问题上,准确率显著下降。此外,研究还发现,对于资源较少的语言环境,模型的表现尤为不佳。


网站公告

今日签到

点亮在社区的每一天
去签到