已知复现版本
伯克利团队低成本复现R1-Zero
项目情况:UC伯克利博士生潘家怡和另两位研究人员在CountDown游戏中复现了DeepSeek R1-Zero,项目名为TinyZero。
复现成果:通过强化学习(RL),验证了3B的基础语言模型能够自我验证和搜索,且成本不到30美金。
实验发现:从1.5B开始,模型学会了搜索、自我验证和修正其解决方案,从而能够获得更高的分数。此外,还发现额外的指令微调(SFT)并非是必要的。
http://github.com/Jiayi-Pan/TinyZero
HuggingFace团队推进Open R1项目
项目情况:HuggingFace团队启动Open R1项目,旨在复刻DeepSeek R1所有pipeline,包括训练数据、训练脚本等。
复现进展:项目已成功复现DeepSeek在MATH-500基准测试中的评估结果。目前,Open R1项目正在按照计划分步骤进行,包括用DeepSeek-R1蒸馏高质量语料库来复制R1-Distill模型、复制构建R1-Zero的纯强化学习pipeline以及通过多阶段训练过渡到RL版本。
社区贡献:Open R1项目吸引了社区的广泛关注和参与,GitHub仓库星标已冲破3.4k,斩获255个fork。
https://github.com/huggingface/open-r1
港科大团队高效复现R1-Zero和R1
项目情况:港科大助理教授何俊贤的团队仅用8K样本,在7B模型上复刻出了DeepSeek-R1-Zero和DeepSeek-R1的训练,项目地址为
复现成果:模型在复杂的数学推理上取得了十分强劲的结果,如在AIME基准上实现了33.3%的准确率,在AMC上为62.5%,在MATH上为77.2%。
实验发现:验证了额外的指令微调(SFT)并非是必要的。此外,还发现具体的RL算法并不重要,PPO、GRPO、PRIME等算法中,长思维链(Long CoT)都能够涌现,且带来不错的性能表现。
1、git clone trl 源码
在trl强化学习训练框架中,已实现grpo算法
2、修改grpo.py文件
备注:通过remove_unused_columns=False,才能将自定义字段传到loss计算中
3、修改grpo_trainer.py
以下参考simpleRL-reason重新修改
添加格式和正确性评价函数
4、数学答案准确性评价
4、训练脚本
(1)相对路径脚本:
(base) root@autodl-container-20d84f9474-4b49b6f6:~/autodl-tmp/hzh/trl/trl#
python scripts/grpo.py --model_name_or_path /home/models/Qwen2.5-0.5B-Instruct --output_dir 0.5B_GRPO --dataset_name xxx --per_device_train_batch_size 1 --gradient_accumulation_steps 2 --use_peft True
(2)绝对路径脚本
/root/miniconda3/bin/conda run -p /root/miniconda3 --no-capture-output python /root/autodl-tmp/hzh/trl/trl/scripts/grpo.py --model_name_or_path /home/models/Qwen2.5-0.5B-Instruct --output_dir 0.5B_GRPO --dataset_name xxx --per_device_train_batch_size 1 --gradient_accumulation_steps 2 --use_peft True
备注:这里的reward_model_name_or_path 可不传,数据集使用的是本地的路径,传的路径不起作用。
训练过程数据如下: