多模态大语言模型arxiv论文略读(八十五)

发布于:2025-05-22 ⋅ 阅读:(15) ⋅ 点赞:(0)

在这里插入图片描述

Geneverse: A collection of Open-source Multimodal Large Language Models for Genomic and Proteomic Research

➡️ 论文标题:Geneverse: A collection of Open-source Multimodal Large Language Models for Genomic and Proteomic Research
➡️ 论文作者:Tianyu Liu, Yijia Xiao, Xiao Luo, Hua Xu, W. Jim Zheng, Hongyu Zhao
➡️ 研究机构: Yale University, UCLA, UT Health, Yale University
➡️ 问题背景:尽管大型语言模型(LLMs)在自然语言处理(NLP)领域取得了显著成就,但在基因组学和蛋白质组学研究中的应用仍有限。这些领域对模型输出的准确性有严格要求,且需要模型能够处理多模态数据,如图像和文本。目前,大多数LLMs和多模态LLMs(MLLMs)在生物医学领域的应用主要集中在精准医疗,而针对基因组学和蛋白质组学的研究较少。
➡️ 研究动机:为了填补这一空白,研究团队提出了一套名为Geneverse的LLMs和MLLMs,旨在解决基因组学和蛋白质组学中的三个新任务:基因功能描述生成、蛋白质功能推断和标记基因选择。通过这些模型,研究团队希望加速分子水平上的中心法则研究。
➡️ 方法简介:研究团队基于多个开源基础模型(如LLaMA2、Mistral、Gemma等)进行了参数高效微调(PEFT)和全参数微调,构建了Geneverse。他们使用了来自NCBI的官方数据集和GPT 3.5生成的合成数据集进行训练,并通过监督指令微调(SIFT)方法优化了模型。对于MLLMs,研究团队还结合了蛋白质结构图像和基因表达信息,以处理多模态任务。
➡️ 实验设计:研究团队在多个任务上进行了实验,包括基因功能描述生成、蛋白质功能推断和标记基因选择。实验设计了不同的数据集组合(如NCBI数据、GPT 3.5生成的数据等),并使用了多种评估指标(如事实准确性、结构正确性、BLEU分数、ROUGE1分数等)来全面评估模型的性能。此外,研究团队还通过UMAP可视化了基因嵌入,以验证模型生成的基因描述的质量。

MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception

➡️ 论文标题:MR-MLLM: Mutual Reinforcement of Multimodal Comprehension and Vision Perception
➡️ 论文作者:Guanqun Wang, Xinyu Wei, Jiaming Liu, Ray Zhang, Yichi Zhang, Kevin Zhang, Maurice Chong, Shanghang Zhang
➡️ 研究机构: 北京大学、上海人工智能实验室
➡️ 问题背景:当前的多模态大语言模型(MLLMs)在视觉问答和常识推理等任务中表现出色,而视觉感知模型在检测和分割等感知任务中也取得了显著进展。然而,MLLMs主要集中在高层次的图像-文本解释,难以处理细粒度的视觉理解;而视觉感知模型在特定领域训练时,面对开放世界分布变化时的泛化能力有限。
➡️ 研究动机:为了克服这些挑战,研究团队提出了相互增强的多模态大语言模型(MR-MLLM),旨在通过结合MLLMs的泛化和新兴能力与视觉感知模型的细粒度感知能力,实现模态间的相互增强。
➡️ 方法简介:研究团队设计了MR-MLLM框架,该框架通过共享查询融合机制、感知增强的跨模态集成方法和感知嵌入的提示生成方法,深化了视觉和语言模态之间的互动。共享查询融合机制将视觉模型的详细输入与语言模型的深度语言理解相结合,增强了多模态理解和视觉感知。感知增强的跨模态集成方法通过引入视觉感知模型的输出,如目标检测的边界框,捕捉微妙的视觉元素,丰富了对多模态内容的理解。感知嵌入的提示生成方法将感知信息嵌入语言模型的提示中,确保响应在上下文和感知上的一致性,从而实现更准确和全面的多模态解释。
➡️ 实验设计:研究团队在多个视觉问答、图像描述和目标检测基准数据集上进行了广泛的实验。实验结果表明,MR-MLLM在细粒度多模态理解任务中超越了现有的MLLMs,特别是在视觉空间推理基准VSR上,MR-MLLM达到了71.5%的准确率,远超其他具有相同参数量的MLLMs。此外,MR-MLLM显著提升了视觉感知模型在处理边缘案例检测任务中的能力,特别是在CODA检测数据集上,MR-MLLM将基线视觉感知模型的边缘案例平均召回率提高了2%,并赋予了封闭集训练的专用检测器检测新类别的能力。

VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models

➡️ 论文标题:VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models
➡️ 论文作者:Yuxuan Wang, Yueqian Wang, Dongyan Zhao, Cihang Xie, Zilong Zheng
➡️ 研究机构: 北京通用人工智能研究院、北京国家通用人工智能实验室、北京大学王选计算机技术研究所、加州大学圣克鲁兹分校计算机科学与工程系
➡️ 问题背景:多模态大语言模型(MLLMs)在视频理解方面的能力得到了扩展,但这些模型经常受到“幻觉”(hallucinations)的影响,即生成与实际视频内容无关或无意义的内容。这种现象在大型视频-语言模型(LVLMs)中尤为突出,需要一个全面的基准来评估和检测这些幻觉。
➡️ 研究动机:现有的研究主要集中在图像-语言模型中的幻觉问题,而忽略了视频-语言模型中动态内容(如动作、事件和故事)可能引发的幻觉问题。为了填补这一空白,研究团队开发了VideoHallucer,这是第一个专门评估LVLMs中幻觉问题的全面基准。
➡️ 方法简介:研究团队提出了一个系统的方法,通过构建VideoHallucer基准,将幻觉分为内在幻觉(intrinsic hallucinations)和外在幻觉(extrinsic hallucinations)两大类,并进一步细分为对象关系、时间、语义细节、外在事实和外在非事实幻觉。该基准采用对抗性的二元视频问答(VQA)方法,通过设计基础问题和幻觉问题的配对,来评估模型的幻觉检测能力。
➡️ 实验设计:在VideoHallucer基准上评估了12个LVLMs,实验设计了不同类型的幻觉问题(如对象关系、时间、语义细节、外在事实和外在非事实),以全面评估模型在不同条件下的表现。实验结果揭示了当前模型在幻觉检测方面的普遍问题,以及模型规模和数据集大小对幻觉检测能力的影响。此外,研究团队还提出了Self-PEP框架,通过集成解释过程来增强模型的自我改进能力,从而提高模型在VideoHallucer基准上的表现。

Automatically Generating UI Code from Screenshot: A Divide-and-Conquer-Based Approach

➡️ 论文标题:Automatically Generating UI Code from Screenshot: A Divide-and-Conquer-Based Approach
➡️ 论文作者:Yuxuan Wan, Chaozheng Wang, Yi Dong, Wenxuan Wang, Shuqing Li, Yintong Huo, Michael R. Lyu
➡️ 研究机构: The Chinese University of Hong Kong, China
➡️ 问题背景:当前,将网站布局设计转换为功能性的UI代码是一个耗时且不可或缺的步骤。手动将视觉设计转换为功能代码存在显著挑战,尤其是对于非专业人士。自动设计到代码(Design-to-Code)技术可以简化这一过程,但现有的方法在处理复杂界面时表现不佳。
➡️ 研究动机:现有的多模态大语言模型(MLLMs)在图像到文本任务中表现出色,但在直接应用于UI代码生成时,由于GUI的复杂性,性能不佳。研究团队通过动机研究发现,MLLMs在生成UI代码时存在元素遗漏、元素失真和元素错位等问题。为了提高生成质量,研究团队提出了一种基于分治法的方法,通过将截图分解为更小的片段来生成UI代码。
➡️ 方法简介:研究团队提出了DCGen,一种基于分治法的自动UI代码生成方法。DCGen首先将截图分解为更小、更易管理的片段,为每个片段生成描述,然后将这些描述重新组装成完整的UI代码。该方法通过递归地进行水平和垂直分割,将复杂的截图分解为更小的片段,再通过MLLMs生成代码,最后逐步组装成完整的网站结构。
➡️ 实验设计:研究团队在1,000个真实世界的网站数据集上进行了实验,评估了DCGen在不同MLLMs上的表现。实验设计了不同复杂度的网页,以全面评估DCGen在视觉相似性和代码相似性方面的性能。实验结果表明,DCGen在视觉相似性方面比其他方法提高了14%,并且在处理不同复杂度的网页时表现出色。人类评估也显示,DCGen生成的网页与设计图像更相似,且能帮助开发者更快地实现网页。

EmoLLM: Multimodal Emotional Understanding Meets Large Language Models

➡️ 论文标题:EmoLLM: Multimodal Emotional Understanding Meets Large Language Models
➡️ 论文作者:Qu Yang, Mang Ye, Bo Du
➡️ 研究机构: 武汉大学计算机学院
➡️ 问题背景:多模态大型语言模型(MLLMs)在客观多模态感知任务中取得了显著的性能,但在解释主观、情感细腻的多模态内容方面的能力仍待探索。这限制了它们有效理解和回应人类通过多模态媒体表达的复杂情感的能力。
➡️ 研究动机:为了弥补这一差距,研究团队提出了EmoBench,这是第一个专门设计用于评估MLLMs在五个流行的情感任务中的情感能力的全面基准。同时,研究团队提出了EmoLLM,这是一种新的多模态情感理解模型,结合了多视角视觉投影(Multi-perspective Visual Projection)和情感提示(EmoPrompt)两种核心技术。
➡️ 方法简介:EmoLLM通过多视角视觉投影捕捉视觉数据中的多样情感线索,并通过情感提示引导MLLMs进行情感推理。多视角视觉投影通过从多个视角分析视觉数据,构建对象及其关系的图表示,从而提取更丰富的情感相关特征。情感提示则利用GPT-4V生成准确和上下文适当的情感提示,确保推理过程的正确性和连贯性。
➡️ 实验设计:研究团队在EmoBench基准上进行了广泛的实验,涵盖了多种情感任务,包括情感识别、意图理解、幽默检测、仇恨检测和讽刺检测。实验结果表明,EmoLLM在多个基础模型上平均提高了12.1%的性能,显著提升了多模态情感理解的能力。


网站公告

今日签到

点亮在社区的每一天
去签到