为什么这篇论文值得关注?

最近,多模态大模型(MLLM)在文本和图像结合的任务中表现亮眼,但复杂的推理能力一直是短板。这篇论文提出的ReVisual-R1,一个仅70亿参数的开源模型,却在多项测试中吊打更大规模的对手,甚至比肩商业巨头如GPT-4o!它的秘密在于一种全新的训练方法,不仅解决了传统多模态训练的痛点,还发现了“文本训练能提升多模态能力”的反直觉现象。
论文:Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning
链接:https://arxiv.org/pdf/2506.04207

发现:三个关键现象
(1)冷启动的“文本奇迹”
传统多模态模型冷启动时,会用大量图文数据预训练。但论文发现,只用高质量文本数据(比如数学推理题)初始化模型,效果反而更好!甚至能超越某些多模态模型。
原因:复杂文本数据能“激活”模型的链式推理(Chain-of-Thought)能力,为后续多模态学习打下基础。

(2)GRPO的梯度停滞问题
多模态强化学习常用GRPO算法,但论文发现它存在梯度停滞:当一批样本的奖励全对或全错时,模型无法学习。
比如:一批数学题答案全错,GRPO会直接“躺平”,梯度为零。
(3)文本强化学习的“意外”效果
在多模态训练后,再用纯文本数据做强化学习,模型的多模态推理能力居然进一步提升!
原因:文本训练能修复语言表达的流畅性,同时巩固推理逻辑。
方案:ReVisual-R1的三阶段训练
阶段1:文本冷启动
用4万条高质量文本数据(如数学题)初始化模型,培养“动脑筋”的习惯。
阶段2:多模态强化学习 + PAD
PAD技术:过滤掉奖励全对/全错的“无效样本”,优先学习那些“部分正确”的样本。
-
公式:通过Softmax按优势值(Advantage)加权采样,让模型专注高价值数据。
高效长度奖励:防止模型生成冗长回答,奖励简洁准确的输出。

阶段3:文本强化学习
冻结视觉模块,专注提升文本推理和表达能力。
实验:小模型的大能量
ReVisual-R1在MathVerse、AIME24等9项测试中拿下开源模型第一,甚至超越GPT-4o:
MATH500:89.2分 vs GPT-4o的74.6分。
AIME24:53.3分 vs 商业模型doubao的26.7分。

亮点
(1)PAD:让学习更高效
传统GRPO会浪费计算资源在无效样本上,而PAD通过两步优化:
过滤掉优势值接近零的样本。
按优势值加权采样,优先学习“含金量高”的数据。

(2)高效长度奖励
通过公式控制生成长度,避免模型“废话连篇”:
如果回答过长( ),奖励降低。

意义与展望
开源:7B小模型也能实现顶级推理,降低研究门槛。
启示:多模态模型的核心可能是语言能力,而非单纯的视觉理解。
未来:将方法扩展到视频、3D等多模态任务。
备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群
id:DLNLPer,记得备注呦