Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage and Sharing in LLMs
➡️ 论文标题:Towards Vision Enhancing LLMs: Empowering Multimodal Knowledge Storage and Sharing in LLMs
➡️ 论文作者:Yunxin Li, Baotian Hu, Wei Wang, Xiaochun Cao, Min Zhang
➡️ 研究机构: 哈尔滨工业大学(深圳)、中山大学深圳校区
➡️ 问题背景:近年来,多模态大语言模型(MLLMs)在多模态生成能力方面取得了显著进展,类似于GPT-4。这些模型主要将视觉信息映射到语言表示空间,利用大语言模型(LLMs)的丰富知识和强大的文本生成能力来生成多模态指令跟随响应。然而,这些MLLMs忽视了利用视觉知识来增强LLMs整体能力的潜力,即所谓的“视觉增强LLMs”。
➡️ 研究动机:现有的MLLMs和监督微调(SFT)LLMs都忽略了通过视觉知识来提升LLMs处理文本任务的能力。理想情况下,就像人类大脑保留和利用视觉信息一样,MLLMs或LLMs应该能够存储外部视觉信息,并在需要视觉常识的情况下,即使没有直接的视觉输入,也能够访问这些存储的视觉-语言知识进行综合推理。因此,提出了“视觉增强LLMs”这一概念,旨在通过增强来使大型模型能够存储和有效利用多模态知识,从而提升其知识库和推理能力。
➡️ 方法简介:研究团队提出了MKS2,一种旨在增强LLMs中多模态知识存储和共享的创新方法,包括两个核心阶段:视觉信息存储和多模态知识协作。在视觉信息存储阶段,研究团队在LLMs的内部变压器块中引入了模块化视觉记忆(MVM),并通过语言中心学习策略训练MVM以记忆开放世界的视觉信息。在多模态知识协作阶段,研究团队引入了一种软混合多模态专家(MoMEs)架构,通过在生成过程中利用专门的视觉和文本专家来实现多模态知识的利用。
➡️ 实验设计:为了验证MKS2的有效性,研究团队在七个自然语言处理(NLP)基准数据集和六个图像-文本理解数据集上进行了广泛的实验。实验结果表明,MKS2在需要物理或视觉世界知识的NLP任务上表现出色,例如MKS2-Llama-2-13b在多个任务上的表现显著超过了Llama-2-chat。此外,MKS2在图像-文本理解场景中也表现出竞争力,与之前的MLLMs相比,其性能相当。
LLMGA: Multimodal Large Language Model based Generation Assistant
➡️ 论文标题:LLMGA: Multimodal Large Language Model based Generation Assistant
➡️ 论文作者:Bin Xia, Shiyin Wang, Yingfan Tao, Yitong Wang, Jiaya Jia
➡️ 研究机构: The Chinese University of Hong Kong, ByteDance Inc
➡️ 问题背景:当前,基于大型语言模型(LLMs)的多模态生成技术在图像生成和编辑领域取得了显著进展。然而,现有的方法主要集中在使LLMs生成图像,而未能充分协助用户进行高质量的图像生成和编辑。此外,现有的多模态大型语言模型(MLLMs)在生成和编辑任务中存在理解不足的问题,导致生成的图像质量不高。
➡️ 研究动机:为了克服现有方法的局限性,研究团队开发了一种基于多模态大型语言模型的生成助手(LLMGA),旨在通过提供详细的语言生成提示来增强用户在图像生成和编辑中的控制力,从而提高生成图像的质量和用户的交互体验。
➡️ 方法简介:研究团队提出了一个两阶段的训练方案。第一阶段,通过构建包含提示优化、相似图像生成、图像修补与扩展、基于指令的编辑等四个类别的训练数据集,训练MLLM理解图像生成和编辑的特性,生成详细的生成提示。第二阶段,优化Stable Diffusion(SD)模型,使其适应MLLM生成的详细提示。此外,研究团队还提出了一种基于扩散的参考恢复网络(DiffRIR),以解决图像修补与扩展过程中新生成区域与保留区域之间的纹理、对比度和亮度差异问题。
➡️ 实验设计:研究团队在多个任务上进行了实验,包括文本到图像生成、相似图像生成、图像修补与扩展、基于指令的编辑等。实验结果表明,LLMGA在提高图像生成和编辑质量方面具有显著效果,能够实现更灵活和广泛的交互式应用。
GPT4Video: A Unified Multimodal Large Language Model for lnstruction-Followed Understanding and Safety-Aware Generation
➡️ 论文标题:GPT4Video: A Unified Multimodal Large Language Model for lnstruction-Followed Understanding and Safety-Aware Generation
➡️ 论文作者:Zhanyu Wang, Longyue Wang, Zhen Zhao, Minghao Wu, Chenyang Lyu, Huayang Li, Deng Cai, Luping Zhou, Shuming Shi, Zhaopeng Tu
➡️ 研究机构: Tencent AI Lab、The University of Sydney
➡️ 问题背景:尽管多模态大语言模型(MLLMs)在视频处理方面取得了显著进展,但它们在生成视频内容方面的能力仍然有限。当前的方法,如“生成性词汇”(generative vokens),存在表示能力有限、可能破坏LLMs原有功能以及缺乏灵活性等局限性。
➡️ 研究动机:为了克服现有方法的局限性,研究团队提出了GPT4Video,一个统一的框架,旨在通过轻量级集成预训练的LLMs、视觉特征提取器和稳定扩散生成模型,增强LLMs的视频理解和生成能力。此外,研究还探索了仅使用文本进行微调的方法,以提高模型的指令跟随能力和安全性。
➡️ 方法简介:GPT4Video框架包括视频理解模块、LLM和视频生成模块。视频理解模块使用预训练的CLIP视觉编码器和视频抽象器来提取和压缩视频特征。LLM部分采用LoRA方法进行参数高效的微调。视频生成模块通过生成文本提示来驱动预训练的文本到视频模型生成视频。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括开放性问答、视频字幕生成、文本到视频生成和安全性评估。实验结果表明,GPT4Video在多个基准测试中显著优于现有模型,特别是在视频理解和生成任务中表现出色。此外,GPT4Video在安全性方面也取得了显著进展,能够有效拒绝处理和生成有害内容。
MVBench: A Comprehensive Multi-modal Video Understanding Benchmark
➡️ 论文标题:MVBench: A Comprehensive Multi-modal Video Understanding Benchmark
➡️ 论文作者:Kunchang Li, Yali Wang, Yinan He, Yizhuo Li, Yi Wang, Yi Liu, Zun Wang, Jilan Xu, Guo Chen, Ping Luo, Limin Wang, Yu Qiao
➡️ 研究机构: 深圳先进技术研究院、中国科学院大学、上海人工智能实验室、香港大学、复旦大学、南京大学新型软件技术国家重点实验室
➡️ 问题背景:随着多模态大语言模型(MLLMs)的快速发展,出现了许多用于评估这些模型理解能力的诊断基准。然而,大多数基准主要评估静态图像任务中的空间理解,而忽视了动态视频任务中的时间理解。为了缓解这一问题,研究团队提出了一个全面的多模态视频理解基准(MVBench),涵盖了20个挑战性的视频任务,这些任务无法通过单帧有效解决。
➡️ 研究动机:现有的基准测试主要集中在静态图像任务的空间理解上,而忽视了动态视频任务的时间理解,这对于理解现实世界中的程序活动至关重要。为了全面评估MLLMs的时间理解能力,研究团队提出了MVBench,旨在通过系统地定义时间相关任务和自动注释范式,减少昂贵的人工干预,同时保证评估的公平性和准确性。
➡️ 方法简介:研究团队引入了一种新颖的静态到动态方法,通过将静态图像任务与动态演变相结合,系统地定义了20个挑战性的视频理解任务。这些任务涵盖了从感知到认知的广泛时间理解技能。此外,研究团队设计了一种自动注释范式,通过将11个公开视频基准转换为多项选择题,自动生成评估MLLMs的多选题。
➡️ 实验设计:在MVBench上对各种知名的MLLMs进行了全面评估,结果表明,这些最先进的图像和视频MLLMs在时间感知和认知方面远未达到令人满意的标准。为了进一步提高模型的时间理解能力,研究团队开发了一个强大的视频MLLM基线——VideoChat2,通过多模态指令调优数据的渐进训练,实现了视频与语言的有效对齐。评估结果显示,VideoChat2在MVBench上的表现显著优于顶级模型,准确率提高了15%以上。
SEED-Bench-2: Benchmarking Multimodal Large Language Models
➡️ 论文标题:SEED-Bench-2: Benchmarking Multimodal Large Language Models
➡️ 论文作者:Bohao Li, Yuying Ge, Yixiao Ge, Guangzhi Wang, Rui Wang, Ruimao Zhang, Ying Shan
➡️ 研究机构: Tencent AI Lab、ARC Lab, Tencent PCG、School of Data Science, The Chinese University of Hong Kong, Shenzhen
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在生成文本和图像方面展现了卓越的能力,但现有的MLLM基准测试主要集中在评估模型对单个图像-文本输入的理解能力,未能跟上MLLMs的快速发展。这限制了对模型能力的全面评估,阻碍了模型的进一步探索和进化。
➡️ 研究动机:为了全面评估MLLMs的能力,研究团队提出了SEED-Bench-2,这是一个全面的基准测试,旨在评估MLLMs的分层能力,包括文本和图像的生成。通过揭示现有MLLMs的局限性,SEED-Bench-2旨在为未来的研究提供有价值的见解,推动向通用人工智能(AGI)的目标迈进。
➡️ 方法简介:研究团队将MLLMs的能力分为从L0到L4的分层水平,其中L0涉及基于文本输入生成文本,L4则涉及处理和生成任意交错的图像-文本内容。SEED-Bench-2涵盖了从L1到L3的能力评估,包括图像和文本的理解以及图像和文本的生成。该基准测试包含24,000个多项选择题,涉及27个评估维度,每个问题都有准确的人工标注答案。
➡️ 实验设计:SEED-Bench-2通过三种方法生成多项选择题:(1)利用基础模型的自动管道生成问题;(2)调整现有数据集以适应多项选择题的格式;(3)结合人类创作和GPT辅助。此外,研究团队还引入了自动过滤机制和人工验证过程,以确保问题的质量和答案的准确性。基于SEED-Bench-2,研究团队对23个开源MLLMs进行了全面评估,揭示了模型在不同能力水平上的表现。