多模态大模型研究每日简报【2025-09-10】

发布于:2025-09-12 ⋅ 阅读:(23) ⋅ 点赞:(0)

训练数据相关

  • Visual-TableQA: Open-Domain Benchmark for Reasoning over Table Images (https://arxiv.org/abs/2509.07966): 提出了Visual-TableQA,一个大规模开放域多模态数据集,用于评估和提升模型对表格图像的视觉推理能力。该数据集包含2.5k个表格和6k个QA对,通过多模型协作数据生成的方式,提升了数据集的多样性和创造性。
  • In the Eye of MLLM: Benchmarking Egocentric Video Intent Understanding with Gaze-Guided Prompting (https://arxiv.org/abs/2509.07447): 提出了EgoGazeVQA,一个以自我为中心的注视引导视频问答基准,利用注视信息来提高对较长日常视频的理解。实验表明,现有的MLLM难以准确理解用户意图,而注视引导的意图提示方法可以通过整合空间、时间和意图相关线索来显著提高性能。

Agent相关

  • Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search (https://arxiv.org/abs/2509.07969): 提出了Mini-o3,一个用于视觉搜索的系统,通过扩展基于工具的交互,实现深度、多轮推理。通过构建Visual Probe Dataset和开发迭代数据收集流程,Mini-o3能够生成丰富的推理模式和深度思考路径。
  • TA-VLA: Elucidating the Design Space of Torque-aware Vision-Language-Action Models (https://arxiv.org/abs/2509.07962): 研究了力矩感知视觉-语言-动作(VLA)模型的设计空间,通过系统地评估各种策略,发现将力矩适配器引入解码器优于编码器,并提出预测力矩作为辅助输出,从而鼓励模型构建交互动态的物理基础内部表示。
  • CAViAR: Critic-Augmented Video Agentic Reasoning (https://arxiv.org/abs/2509.07680): 开发了一种大型语言模型智能体,该智能体可以使用视频模块作为子智能体或工具。通过引入一个评论家来区分智能体成功和不成功序列的实例,从而实现更复杂的视频推理。
  • VeriOS: Query-Driven Proactive Human-Agent-GUI Interaction for Trustworthy OS Agents (https://arxiv.org/abs/2509.07553): 提出了一个查询驱动的人-智能体-GUI交互框架,使操作系统智能体能够决定何时向人类查询,以更可靠地完成任务,并引入了VeriOS-Agent,一个通过两阶段学习范式训练的可信操作系统智能体。

大模型的行业应用

  • Data-Efficient Fine-Tuning of Vision-Language Models for Diagnosis of Alzheimer’s Disease (https://arxiv.org/abs/2509.07613): 提出了一种数据高效的微调流水线,用于调整基于3D CT的Med-VLM用于3D MRI,并展示了其在阿尔茨海默病(AD)诊断中的应用。该系统将结构化元数据转换为合成报告,并添加一个辅助token来预测简易精神状态检查(MMSE)分数,从而为微调提供额外的监督。
  • ELEC: Efficient Large Language Model-Empowered Click-Through Rate Prediction (https://arxiv.org/abs/2509.07594): 提出了ELEC,一个高效的LLM驱动的CTR预测框架,通过伪孪生网络利用LLM的能力,同时保持效率。该框架将LLM生成的高级表示向量注入到协作CTR模型中,形成增益网络,然后将知识从增益网络提炼到香草网络,从而实现高效的CTR预测。
  • Fine-Tuning Vision-Language Models for Visual Navigation Assistance (https://arxiv.org/abs/2509.07488): 通过在手动标注的室内导航数据集上使用低秩自适应(LoRA)对BLIP-2模型进行微调,解决了视觉语言驱动的室内导航问题,以帮助视力受损的个人到达目标位置。
  • Multimodal Contrastive Pretraining of CBCT and IOS for Enhanced Tooth Segmentation (https://arxiv.org/abs/2509.07923): 提出了ToothMCL,一个用于牙齿分割的多模态对比学习预训练框架,集成了锥形束计算机断层扫描(CBCT)和口内扫描(IOS)模态,通过多模态对比学习捕捉模态不变的表示,从而有效地建模精细的解剖特征。
  • Bringing Multi-Modal Multi-Task Federated Foundation Models to Education Domain: Prospects and Challenges (https://arxiv.org/abs/2509.07946): 探讨了将多模态多任务联邦基础模型(M3T FedFMs)应用于教育领域的潜力与挑战,强调了其在保护隐私、实现个性化和促进公平性方面的重要作用,并提出了机构间异构隐私法规、数据模态特征的非均匀性等开放性研究挑战。

文生图/文生视频

  • LINR Bridge: Vector Graphic Animation via Neural Implicits and Video Diffusion Priors (https://arxiv.org/abs/2509.07484): 提出了一种新方法,该方法将隐式神经表示与文本到视频扩散模型集成,用于矢量图形动画。该方法采用分层隐式神经表示来重建矢量图形,并使用视频分数蒸馏采样优化神经表示,从而利用预训练文本到视频扩散模型的运动先验。

其他

  • HiPhO: How Far Are (M)LLMs from Humans in the Latest High School Physics Olympiad Benchmark? (https://arxiv.org/abs/2509.07894): 提出了HiPhO,第一个专门用于高中物理奥林匹克竞赛的基准,具有与人类对齐的评估。该基准包含来自2024-2025年的13个最新奥林匹克竞赛考试,涵盖文本和图表等混合模态。
  • D-LEAF: Localizing and Correcting Hallucinations in Multimodal LLMs via Layer-to-head Attention Diagnostics (https://arxiv.org/abs/2509.07864): 提出了一种动态层级熵和注意力融合(D-LEAF)方法,该方法利用层级图像注意力熵(LIAE)和图像注意力焦点(IAF)来定位和纠正多模态LLM中的幻觉。
  • TextlessRAG: End-to-End Visual Document RAG by Speech Without Text (https://arxiv.org/abs/2509.07538): 提出了TextlessRAG,第一个用于基于语音的视觉文档图像知识库问答的端到端框架。TextlessRAG消除了ASR、TTS和OCR,直接解释语音,检索相关的视觉知识,并以完全无文本的流水线生成答案。
  • Competitive Audio-Language Models with Data-Efficient Single-Stage Training on Public Data (https://arxiv.org/abs/2509.07526): 介绍了Falcon3-Audio,一个基于指令调整LLM和Whisper编码器的音频语言模型(ALM)系列。Falcon3-Audio-7B使用非常少的公共音频数据,在MMAU基准测试中与最佳报告的开放权重模型相匹配。
  • SheetDesigner: MLLM-Powered Spreadsheet Layout Generation with Rule-Based and Vision-Based Reflection (https://arxiv.org/abs/2509.07473): 提出了SheetDesigner,一个使用多模态大型语言模型(MLLM)的零样本和无训练框架,结合规则和视觉反射进行组件放置和内容填充,从而自动生成电子表格布局。
  • DepthVision: Robust Vision-Language Understanding through GAN-Based LiDAR-to-RGB Synthesis (https://arxiv.org/abs/2509.07463): 介绍了DepthVision,一个用于多模态场景理解的框架,通过使用带有集成细化网络的条件生成对抗网络(GAN)从稀疏LiDAR点云合成RGB图像,从而解决视觉输入退化或不足的问题。
  • GLEAM: Learning to Match and Explain in Cross-View Geo-Localization (https://arxiv.org/abs/2509.07450): 提出了GLEAM-C,一个基础CVGL模型,通过将多种视图和模态与卫星图像对齐,统一了多种视图和模态。此外,为了解决传统CVGL方法缺乏可解释性的问题,提出了GLEAM-X,它将跨视图对应预测与可解释推理相结合。

编辑精选

  1. Visual Representation Alignment for Multimodal Large Language Models (https://arxiv.org/abs/2509.07979): VIRAL是一种简单有效的正则化策略,可以显式地对齐视觉信息,增强模型对复杂视觉输入的理解,对于提升MLLM的视觉能力具有重要的指导意义。

  2. Mini-o3: Scaling Up Reasoning Patterns and Interaction Turns for Visual Search (https://arxiv.org/abs/2509.07969): Mini-o3 通过扩展工具的使用和交互轮数,显著提升了视觉搜索的能力,解决了现有方法推理模式单调和交互轮数有限的问题,对于开发更强大的视觉智能体具有重要价值。

  3. D-LEAF: Localizing and Correcting Hallucinations in Multimodal LLMs via Layer-to-head Attention Diagnostics (https://arxiv.org/abs/2509.07864): D-LEAF提出了一种有效的幻觉定位和纠正方法,通过层级和注意力头的诊断,可以动态地纠正MLLM中的错误,对于提高模型的可信度具有重要意义。


网站公告

今日签到

点亮在社区的每一天
去签到