文本训练能提升多模态Reasoning能力?三阶段训练7B小模型吊打GPT-4o

发布于:2025-06-12 ⋅ 阅读:(20) ⋅ 点赞:(0)

为什么这篇论文值得关注?

最近,多模态大模型(MLLM)在文本和图像结合的任务中表现亮眼,但复杂的推理能力一直是短板。这篇论文提出的ReVisual-R1,一个仅70亿参数的开源模型,却在多项测试中吊打更大规模的对手,甚至比肩商业巨头如GPT-4o!它的秘密在于一种全新的训练方法,不仅解决了传统多模态训练的痛点,还发现了“文本训练能提升多模态能力”的反直觉现象。

论文:Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning
链接:https://arxiv.org/pdf/2506.04207

ReVisual-R1在多个基准测试中的表现
ReVisual-R1在多个基准测试中的表现

发现:三个关键现象

(1)冷启动的“文本奇迹”

传统多模态模型冷启动时,会用大量图文数据预训练。但论文发现,只用高质量文本数据(比如数学推理题)初始化模型,效果反而更好!甚至能超越某些多模态模型。

  • 原因:复杂文本数据能“激活”模型的链式推理(Chain-of-Thought)能力,为后续多模态学习打下基础。

文本冷启动 vs 多模态冷启动的性能对比
文本冷启动 vs 多模态冷启动的性能对比

(2)GRPO的梯度停滞问题

多模态强化学习常用GRPO算法,但论文发现它存在梯度停滞:当一批样本的奖励全对或全错时,模型无法学习。

  • 比如:一批数学题答案全错,GRPO会直接“躺平”,梯度为零。

(3)文本强化学习的“意外”效果

在多模态训练后,再用纯文本数据做强化学习,模型的多模态推理能力居然进一步提升!

  • 原因:文本训练能修复语言表达的流畅性,同时巩固推理逻辑。

方案:ReVisual-R1的三阶段训练

阶段1:文本冷启动

  • 用4万条高质量文本数据(如数学题)初始化模型,培养“动脑筋”的习惯。

阶段2:多模态强化学习 + PAD

  • PAD技术:过滤掉奖励全对/全错的“无效样本”,优先学习那些“部分正确”的样本。

    • 公式:通过Softmax按优势值(Advantage)加权采样,让模型专注高价值数据。

  • 高效长度奖励:防止模型生成冗长回答,奖励简洁准确的输出。

不同训练阶段的性能对比
不同训练阶段的性能对比

阶段3:文本强化学习

  • 冻结视觉模块,专注提升文本推理和表达能力。

实验:小模型的大能量

ReVisual-R1在MathVerseAIME24等9项测试中拿下开源模型第一,甚至超越GPT-4o:

  • MATH500:89.2分 vs GPT-4o的74.6分。

  • AIME24:53.3分 vs 商业模型doubao的26.7分。

与其他模型的全面对比
与其他模型的全面对比

亮点

(1)PAD:让学习更高效

传统GRPO会浪费计算资源在无效样本上,而PAD通过两步优化:

  1. 过滤掉优势值接近零的样本。

  2. 按优势值加权采样,优先学习“含金量高”的数据。

PAD vs 传统方法的训练效率对比
PAD vs 传统方法的训练效率对比

(2)高效长度奖励

通过公式控制生成长度,避免模型“废话连篇”:

  • 如果回答过长( ),奖励降低。

长度奖励对训练稳定性的影响
长度奖励对训练稳定性的影响

意义与展望

  • 开源:7B小模型也能实现顶级推理,降低研究门槛。

  • 启示:多模态模型的核心可能是语言能力,而非单纯的视觉理解。

  • 未来:将方法扩展到视频、3D等多模态任务。


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群

id:DLNLPer,记得备注呦


网站公告

今日签到

点亮在社区的每一天
去签到