Video-R1: Reinforcing Video Reasoning in MLLMs
原文摘要
研究动机:
- 探索R1范式在MLLMs中激励视频推理
核心挑战:
- 直接应用GRPO算法进行视频RL训练存在两大问题:
- 缺乏视频推理的时间建模
- 高质量视频推理数据稀缺
- 直接应用GRPO算法进行视频RL训练存在两大问题:
解决方案:
提出T-GRPO算法:专门设计用于鼓励模型利用视频中的时序信息进行推理
数据策略:不仅使用视频数据,还整合高质量图像推理数据到训练中
数据集构建:
创建两个专用数据集:
- Video-R1-CoT-165k:用于SFT冷启动
- Video-R1-260k:用于RL训练
两个数据集均包含图像和视频数据
实验结果:
- Video-R1-7B在视频空间推理基准VSI-bench达到37.1%准确率,超越GPT-4o
1. Introduction
研究背景与现状
文本域RL突破:基于规则的强化学习显著提升LLMs的推理能力
多模态扩展尝试:近期研究开始将RL应用于MLLMs,多在图文推理上的探索,但视频推理领域仍未被系统研究。
核心挑战
直接应用GRPO算法的问题:
时序建模缺失:
原始GRPO缺乏激励时序推理的显式奖励信号
模型易采取"捷径策略"(如依赖单帧而非时序推理)(与Video-UTR发现的问题一致)
后果:导致模型依赖表面视觉模式,阻碍复杂视频推理任务的泛化能力
数据稀缺性:
现有视频数据集多聚焦简单识别任务
缺乏需要强推理能力或长推理路径的高质量样本
限制:RL训练难以覆盖多样化的复杂推理模式
解决方案
T-GRPO
- 核心机制:通过对比有序帧与乱序帧的推理表现施加奖励
- 仅当有序帧组正确率显著高于乱序组时给予正向奖励
- 强制模型开发时序推理策略而非单帧捷径
- 核心机制:通过对比有序帧与乱序帧的推理表现施加奖励
混合训练
构建两大数据集:
- Video-R1-CoT-165k:用于SFT冷启动
- Video-R1-260k:用于RL训练
关键设计:
- 引入图像推理数据作为基础推理能力训练
- 精选视频样本提供时序复杂性
- 优势:缓解数据瓶颈+静态推理能力向动态场景迁移
实验验证
评测基准:
- 专项评测:VSI-Bench(空间推理)、VideoMMMU(多学科QA)
- 通用评测:MVBench、TempCompass、VideoMME等
结果:
- Video-R1-7B在VSI-Bench达到37.1%准确率,超越GPT-4o
- 验证RL可解锁MLLMs的复杂时序推理能力
2. Related Works
2.1 MLLMs for video
核心定位
核心功能:视频理解是MLLMs的关键能力,使其能够解析动态视觉内容并进行推理
现状概述:现有工作主要聚焦于视频感知任务,视频推理能力的开发仍属空白领域
代表性工作
LLaMA-VID
VideoLLaMA2
LongVA
VISA
领域局限性与研究空白
当前重点:现有方法主要解决
- 视频表征压缩(如LLaMA-VID)
- 多模态融合(如VideoLLaMA2)
- 长序列处理(如LongVA)
- 感知级任务(如VISA的分割)
未解决问题:
- 缺乏对视频推理能力的系统性探索
- 现有模型在时序逻辑推理和多步因果推断方面存在明显不足
2.2 LLM Reasoning
发展过程
传统方法局限
- 早期研究依赖密集的步骤级监督或学习型奖励模型来指导推理路径
范式突破
DeepSeek-R1开创基于规则的强化学习新范式
关键发现:仅使用粗糙的结果级奖励即可激发强推理能力
意义验证:通过精心设计的奖励结构和策略优化,模型能自主生成长思维链而无需中间监督
后续发展
跨领域扩展尝试
- 文本域:Open Reasoner Zero复现类似RL流程
- 图像域:Kimi k1.5探索基于规则的RL增强多模态推理
- 共性特征:均沿用R1的"规则优先"设计理念
现存空白: 尚无研究将R1范式系统应用于视频时序推理
3. Methods
3.1 Data Construction
数据收集和构建
混合数据动机
核心问题:高质量视频推理数据稀缺
解决方案:引入图像推理数据作为补充
- 图像数据作用:训练通用静态推理能力
- 视频数据作用:训练时序推理能力
Video-R1-260k 构成
视频数据(116k):General (Video)
开放域多样化视频
覆盖日常生活场景
作用:构建时序理解与推理能力
图像数据(共146k)
类别 数据量 核心功能 典型任务示例 General 15k 基础视觉理解 通用图像问答 Chart 21k 数据解读与定量逻辑 图表/折线图/科学图表推理 OCR 16k 文本嵌入内容推理 标志牌/表格/文档解析 Math 37k 符号与几何推理 公式推导/几何图形多步计算 Knowledge 37k 多学科知识整合 视觉常识+专业领域推理 Spatial 20k 空间信息理解 三维结构推理/方位判断
CoT标注
采用Qwen2.5-VL-72B-Instruct作为标注工具
提示词设计
模板规范:
质量过滤:基于规则的自动化筛选
用途:专用于冷启动SFT阶段
基于规则的奖励设计
设计原则
核心要求:确保奖励信号可靠且精确(reliable and precise)
实现方式: 主要采用可验证输出的任务类型(如多选题、数值答案)
奖励函数设计
多选题:二元奖励
数值QA:严格数值相等
OCR任务:词错误率(Word Error Rate, WER)
自由生成(Free-form QA):ROUGE-1/2/L平均值
回归问题(Regression):误差越小,奖励越高
3.2 T-GRPO
核心动机
GRPO局限性:原始GRPO缺乏显式时序奖励信号,无法有效训练视频推理
关键创新:提出T-GRPO,通过对比时序有序与乱序帧的推理表现,强制模型学习依赖时序信息
机制设计
双路径输入对比
输入类型 生成响应组 正确率符号 时序有序帧序列 {oᵢ}ᵢ₌₁ᴳ p 随机乱序帧序列 {õᵢ}ᵢ₌₁ᴳ͂ p̃ 时序奖励公式
r t = { α if p ≥ p ~ 0 otherwise ( α = 0.3 ) r_t = \begin{cases} \alpha & \text{if } p \geq \tilde{p} \\ 0 & \text{otherwise} \end{cases} \quad (\alpha=0.3) rt={α0if p≥p~otherwise(α=0.3)超参数设定:α=0.3(控制奖励强度)
生效条件:仅当有序帧组正确率≥乱序组时激活
奖励增强
R i = { r i + r t if o i 正确 r i 否则 R_i = \begin{cases} r_i + r_t & \text{if } o_i \text{正确} \\ r_i & \text{否则} \end{cases} Ri={ri+rtriif oi正确否则- 双重奖励构成:
- 基础奖励 rᵢ:来自答案正确性+格式奖励
- 时序奖励 rₜ:仅增强正确且依赖时序的响应
- 双重奖励构成:
优势值计算
A i = R i − mean ( { R j } ) std ( { R j } ) A_i = \frac{R_i - \text{mean}(\{R_j\})}{\text{std}(\{R_j\})} Ai=std({Rj})Ri−mean({Rj})策略优化目标:和GRPO一致
3.3 训练策略
训练阶段一:SFT冷启动
Base Model:Qwen2.5-VL-7B-Instruct
训练数据:Video-R1-CoT-165k
训练目标:初始化基础推理能力
输出模型:Qwen2.5-VL-7B-SFT
阶段二:RL强化训练
输入模型:Qwen2.5-VL-7B-SFT
训练数据:Video-R1-260k
长度奖励机制
奖励条件:
- 答案正确且响应长度∈[320, 512] tokens
奖励公式:
R i = { R i + ω 满足条件 R i 否则 ( ω = 0.2 ) R_i = \begin{cases} R_i + \omega & \text{满足条件} \\ R_i & \text{否则} \end{cases} \space (\omega=0.2) Ri={Ri+ωRi满足条件否则 (ω=0.2)设计意图:
- 避免"过短肤浅"与"过长发散"两个极端
输出模型:Video-R1-7B – 最终结果
4. Experiments
4.1 Setup
Benchmarks
Video Reasoning Benchmarks
VSI-Bench
VideoMMMU
MMVU
General-purpose Video Understanding Benchmarks
MVBench
TempCompass
VideoMME
解码设置:
top_p = 0.001
temperature = 0.01
Training Details
训练资源:
使用最多 8张 NVIDIA A100 80GB 显卡
最大训练帧数为 16帧
每帧图像训练时分辨率:
128 × 28 × 28
推理时分辨率提升为:
256 × 28 × 28
,帧数在16 ∼ 64
之间
视频处理结构:
有序分组大小 G = 8
打乱分组大小 G̃ = G / 2———保证效率的前提下增强建模能力。
训练阶段:
首先进行 SFT(监督微调):
- 数据集:
Video-R1-CoT-165k
- 训练1轮(epoch),得到模型 Qwen2.5-VL-7B-SFT
- 数据集:
然后进行 RL(强化学习)训练:
- 数据集:
Video-R1-260k
- 训练步数:仅进行 1000步(1k steps)
- 数据集:
4.2 Results
5. Limitations and Future Works
帧数扩展(Increasing Frames Number)
当前局限:仅支持16帧输入,限制长程时序依赖建模
未来方案:开发高效训练/推理策略以处理更长视频
时序建模优化(Better Temporal Modeling Method)
T-GRPO缺陷:对比评估带来额外计算开销
改进路径:
- 采用vLLM等推理加速框架
- 探索更高效的时序建模机制
响应长度自适应(Adaptive Response Length Control)
现有问题:
- 采用固定长度区间奖励
- 未考虑样本复杂度差异
演进方向:
- 开发动态长度控制策略
- 根据问题难度/类型自适应调整
图像-视频知识迁移(Image-to-Video Knowledge Transfer)
当前策略:简单混合图像与视频数据
优化空间:
- 设计理论驱动的迁移方法
- 提升静态推理能力向动态场景的转化效率
通用视频奖励模型(Generalist Video Reward Modeling)
现有瓶颈:依赖任务定制化规则奖励
突破方向:
- 构建统一视频奖励模型
- 优势:
- 提供跨任务一致性奖励信号
- 减少人工规则依赖