X-REASONER: Towards Generalizable Reasoning Across Modalities and Domains
原文摘要
研究背景:
当前专有模型已展现出强大的多模态推理能力
但大多数开源研究仍集中在训练纯文本推理模型
现有评估主要局限于数学和通用领域任务
核心研究问题:
如何有效将推理能力扩展到文本输入和通用领域之外?
关键问题:推理能力是否能在不同模态和领域间泛化?
主要发现:
- 研究表明:基于通用领域文本的后训练可以实现这种可泛化的推理能力
提出的方法:
引入X-REASONER视觉语言模型
仅使用通用领域文本进行后训练
- 采用两阶段训练方法:
- 初始阶段:使用蒸馏的长思维链进行监督微调
- 第二阶段:使用可验证奖励进行强化学习
- 采用两阶段训练方法:
实验结果:
X-REASONER成功将推理能力迁移到多模态和领域外场景
在各类通用和医疗基准测试中,表现优于现有使用领域内和多模态数据训练的SOTA模型
发现通过继续训练领域特定纯文本数据可进一步提升专业领域表现
扩展模型:
基于上述发现,提出医疗专用变体X-REASONER-MED
该模型在多个纯文本和多模态医疗基准测试中创造了新的SOTA
1. Introduction
推理的重要性:
推理已成为LLM的一项基础能力,并催生了一种新范式——test-time scaling。
该范式允许模型在推理阶段通过增加计算资源,在复杂推理任务中持续提升性能。
研究背景
专有模型:最近的专有模型(如 OpenAI 的 o3)已展现出强大的多模态推理能力。
开源研究:现有的开源研究仍主要聚焦于纯文本推理,采用后训练技术来提升模型能力
- 这些研究的评估仍局限于数学和通用领域文本基准测试
- 尚不清楚如何将推理能力有效扩展到文本输入和通用领域之外。
多模态推理的挑战
- 现有方法的局限:当前的多模态方法针对特定任务或领域的多模态数据集,限制了它们的泛化能力。
核心研究问题 :
推理能力能否跨模态和领域泛化?
本文研究是否可以通过通用领域纯文本推理后训练实现这种泛化能力。
这一问题的一个重要意义在于纯文本训练的实际优势:
计算高效(相比多模态训练)
数据丰富且可验证(通用领域文本推理数据比多模态或领域特定数据更易获取)
如果设计得当,基于文本的后训练可以赋予模型通用的推理模式,使其能够稳健地迁移到未见过的领域和输入模态。
实验验证:本文进行了广泛的实证研究
采用两阶段纯文本后训练方法:
监督微调:在通用领域文本数据上使用蒸馏的长思维链进行训练。
强化学习:基于数学文本问题,使用可验证奖励进行强化学习。
关键发现:
这种纯文本训练方案足以赋予模型强大的推理能力,使其不仅在通用领域任务上表现优异,还能在复杂多模态和领域特定任务上取得高性能。
这表明推理的核心结构可以仅从通用领域文本中习得。
主要贡献总结
可泛化推理研究
- 深入研究了基于通用领域文本训练的推理能力是否能跨模态和领域泛化。
- 发现 SFT + RL 组合带来最强增益,数学数据是重要基础,但领域特定数据对专业化仍至关重要。
X-REASONER 的提出
提出一种完全基于通用领域文本数据的视觉语言推理模型后训练方法。
X-REASONER 在多模态和跨领域任务上均取得提升,甚至在通用领域多模态基准测试上达到 SOTA。
医学领域扩展:X-REASONER-MED
2. A Journey Towards Generalizable Reasoning
可泛化推理(generalizable reasoning)的含义:
跨任务分布迁移(transfer across different task distributions)
跨模态迁移(transfer across diverse modalities)
跨专业领域迁移(transfer across specialized domains)
研究方法
作者将研究问题分解为两个子问题,分别对应两种主要的后训练策略:
监督微调
强化学习
实验起点:
使用一个经过指令微调的VLM,该模型能够遵循指令,但从思维链提示中获益较少。
基于该模型,采用SFT 和 RL 两种后训练方法进行详细实证研究。
研究目的
- 目标是找到一种训练方案,使仅通过通用领域纯文本训练,就能让模型具备强大且可泛化的推理能力。
2.1 RQ1:纯文本SFT能否提升可泛化推理能力?
本节探讨第一个研究问题:仅通过通用领域文本数据进行 SFT 的推理能力,能否超越训练数据分布实现泛化。具体聚焦两个关键方面:
跨领域和跨模态的泛化程度
推理能力在实现这种泛化中的核心作用
2.1.1 泛化程度研究
实验设计
跨分布验证:
基础模型:指令微调的视觉语言模型Qwen2.5-VL-7B-Instruct
训练数据:纯文本医疗QA数据集MedQA(含通过拒绝采样从QwQ-32B蒸馏的长思维链推理轨迹)
评估任务:分布外任务MMLU-Pro-Health(医疗健康子集)
扩展验证:
训练数据:数学与科学推理数据集OpenThoughts-114k(从DeepSeek-R1蒸馏)
评估维度:
- 跨领域(X-domain)
- 跨模态(X-modality)
- 领域+模态交叉场景
关键发现
跨任务泛化:MedQA训练的SFT模型在MMLU-Pro-Health上表现提升,证明纯文本SFT具有跨任务泛化能力
广泛泛化性:OpenThoughts-114k训练的模型在三个评估维度均表现提升,表明:
- 通用领域文本SFT已具备强泛化能力
思维链提示虽有一定效果,但显著弱于SFT,说明:
- 原始VLM的CoT能力有限
- CoT SFT对释放可泛化推理至关重要
2.1.2 推理能力的核心作用
对比实验设计
比较两种训练方式:
非CoT SFT:直接训练输入-标签对
CoT SFT:训练含显式推理轨迹的数据
实验核心结论
性能优势:
CoT SFT模型在所有实验中均优于非CoT版本
基线模型中,具备CoT提示的模型始终表现更好
泛化优势:
CoT模型不仅分布内表现更优,跨领域/模态的迁移能力也更强
CoT SFT带来的性能提升幅度显著大于非CoT SFT
2.1.3 CoT导致的无限思考
问题描述
现象:17%的生成案例中模型无法终止响应(MedQA和MMLU-Pro-Health任务)
特征:输出冗长重复,持续"重新思考"或"重复检查"
根源:长思维链SFT引入的推理机制副作用
解决方案:强制终止机制 Forced-Exiting
方法:
当输出序列达预设长度阈值时,自动添加终止符
</think>
软性干预控制推理过程的token预算
效果:
有效减少无限思考现象
最终任务准确率得到提升
2.2 RQ2:纯文本数学强化学习能否提升可泛化推理能力?
本节探讨第二个研究问题:基于数学纯文本的强化学习(RL)是否能促进可泛化的推理能力。重点关注:
数学领域是否可作为通用推理能力的“锚点领域”(anchor domain)
RL与SFT在推动推理泛化中的相对优势和互补性
2.2.1 强化学习算法设计
算法选择:GRPO
GRPO的优势:相比PPO等传统RL算法,GRPO无需额外价值函数,通过组内响应比较计算优势
对GRPO改进:增强稳定性:
- 更高剪裁阈值:提升样本多样性,防止熵崩溃
- token-level策略梯度损失:按批次词元总数归一化,消除响应长度偏差
- 降低/移除KL惩罚:适用于长思维链推理场景(策略分布可能与参考模型显著偏离)
可验证奖励机制
- 语义等价匹配最终答案时奖励r=1,否则r=0
- 忽略格式奖励,因为策略模型已具备良好指令遵循能力
2.2.2 数学作为泛化锚点
假设验证实验
- 假设:数学领域的数据训练能非常有效地提升模型可泛化的推理能力
- 对比数据源:
- 数学文本问题(Orz数据集)
- 领域特定医学文本(MedQA数据集)
关键发现
- 数学训练的模型不仅在数学基准(GSM8K、MathVista)表现提升
- 在医学领域任务中也显示显著增益
- 核心结论:数学作为“锚点领域”,其结构化思维链可有效跨域迁移
领域特异性补充
医学RL微调在专业领域仍达最优性能
平衡结论:数学支撑泛化,但领域数据对专业任务仍关键
2.2.3 RL与SFT的对比与协同
实验设计
对比方案:
- 纯SFT(通用领域OpenThoughts数据)
- 纯RL(Orz数学问题)
- SFT+RL组合
评估场景:
- 通用领域文本(MMLU-Pro)
- 跨领域(MMLU-Pro-Health)
- 跨模态(MMMU-Pro)
- 跨领域+模态(NEJM Image Challenge)
核心结论
独立效果:
SFT和RL均显著超越基线(所有泛化场景)
纯RL略逊于SFT,因难以从零学习长思维链,输出更短/结构更差
协同效应:
SFT奠基:通过监督蒸馏建立结构化推理基础
RL优化:基于可验证奖励进一步精调能力
副作用缓解:RL训练减少SFT的“无限思考”现象
最优方案:
SFT+RL混合策略在所有泛化场景表现最佳
兼具SFT的稳定性与RL的奖励导向优化
2.3 整合:X-REASONER
模型构建流程
基础架构:Qwen2.5-VL-7B-Instruct
阶段一:SFT
训练数据:
数据集:OpenThoughts-114k(含114k数学/编程/科学问题的推理轨迹)
数据来源:由DeepSeek-R1模型蒸馏生成
训练参数:
训练轮次:4 epochs
学习率:1×10⁻⁵
硬件配置:8张40GB A100 GPU(耗时8小时)
阶段二:数学纯文本RLVR(带可验证奖励的强化学习)
训练数据:
- 数据集:Orz-math-57k(57k数学文本问题)
关键参数:
训练轮次:3 epochs
学习率:3×10⁻⁶
全局批次大小:128
每查询采样数:8个响应轨迹
最大响应长度:4,096 tokens
硬件配置:32张40GB A100 GPU(耗时约56小时)
3. Evaluation
评估设置
测试场景
通用领域纯文本任务(General-domain text-only tasks)
通用领域多模态任务(General-domain multimodal tasks, X-modality)
专业领域纯文本任务(Specialized-domain text-only tasks, X-domain)
专业领域多模态任务(Specialized-domain multimodal tasks, X-modality & domain)
推理与评估方法
- 推理后端 :使用 vLLM作为推理后端,优化大规模语言模型的高效推理。
解码策略
Greedy Decoding(temperature=0):
- 作为主要报告指标,与先前研究保持一致。
- 但由于硬件、软件栈、运行环境等差异,即使使用贪心解码,仍可能观察到性能波动。
鲁棒性补充评估(temperature=0.3,5次运行取统计值):
- 平均准确率(Average Accuracy)
- 多数投票准确率(Majority-Vote Accuracy)
- Pass@n 准确率(Pass@n Accuracy)
提示模板(Prompt Templates)
- 统一使用 CoT(思维链)提示模板,确保基线模型和 X-REASONER 的公平对比。
输出控制机制
- 强制终止(Forced-Exiting): 限制输出长度至 4,096 tokens。
- 作用:
- 提高内存效率,避免过长的推理过程。
- 解决“无限思考”(Endless Thinking)问题
- 作用:
- 强制终止(Forced-Exiting): 限制输出长度至 4,096 tokens。
3.1 多模态生成评估
消融实验:验证X-Resoner是否真的在做跨模态推理,而不仅仅是靠文字信息“蒙对了题”。
做法:删除那些可以不用图、只看文本就能答对的题目(text-solvable examples)。
3.2 医学领域:跨模态和领域研究
4. Discussions and Limitations
局限性 | 具体挑战 | 未来改进方向 |
---|---|---|
基础模型约束 | 依赖指令微调模型,非纯基础模型 | 探索基础模型训练对推理能力的影响 |
模型规模与多样性 | 仅 7B 参数 + Qwen-VL 架构 | 扩展至更大模型(30B+)及其他 VLM 架构 |
任务范围局限 | 仅数学+选择题,未涵盖开放场景 | 研究开放式生成、交互式推理等复杂任务 |