DeepSeek R1复现-EW帮帮网

已知复现版本

伯克利团队低成本复现R1-Zero

项目情况：UC伯克利博士生潘家怡和另两位研究人员在CountDown游戏中复现了DeepSeek R1-Zero，项目名为TinyZero。
复现成果：通过强化学习（RL），验证了3B的基础语言模型能够自我验证和搜索，且成本不到30美金。
实验发现：从1.5B开始，模型学会了搜索、自我验证和修正其解决方案，从而能够获得更高的分数。此外，还发现额外的指令微调（SFT）并非是必要的。

http://github.com/Jiayi-Pan/TinyZero

HuggingFace团队推进Open R1项目

项目情况：HuggingFace团队启动Open R1项目，旨在复刻DeepSeek R1所有pipeline，包括训练数据、训练脚本等。
复现进展：项目已成功复现DeepSeek在MATH-500基准测试中的评估结果。目前，Open R1项目正在按照计划分步骤进行，包括用DeepSeek-R1蒸馏高质量语料库来复制R1-Distill模型、复制构建R1-Zero的纯强化学习pipeline以及通过多阶段训练过渡到RL版本。
社区贡献：Open R1项目吸引了社区的广泛关注和参与，GitHub仓库星标已冲破3.4k，斩获255个fork。

https://github.com/huggingface/open-r1

港科大团队高效复现R1-Zero和R1

项目情况：港科大助理教授何俊贤的团队仅用8K样本，在7B模型上复刻出了DeepSeek-R1-Zero和DeepSeek-R1的训练，项目地址为
https://github.com/hkust-nlp/simpleRL-reason
复现成果：模型在复杂的数学推理上取得了十分强劲的结果，如在AIME基准上实现了33.3%的准确率，在AMC上为62.5%，在MATH上为77.2%。
实验发现：验证了额外的指令微调（SFT）并非是必要的。此外，还发现具体的RL算法并不重要，PPO、GRPO、PRIME等算法中，长思维链（Long CoT）都能够涌现，且带来不错的性能表现。

1、git clone trl 源码

在trl强化学习训练框架中，已实现grpo算法

2、修改grpo.py文件

备注：通过remove_unused_columns=False，才能将自定义字段传到loss计算中

3、修改grpo_trainer.py

以下参考simpleRL-reason重新修改

添加格式和正确性评价函数

4、数学答案准确性评价

4、训练脚本

（1）相对路径脚本：

(base) root@autodl-container-20d84f9474-4b49b6f6:~/autodl-tmp/hzh/trl/trl#

python scripts/grpo.py --model_name_or_path /home/models/Qwen2.5-0.5B-Instruct --output_dir 0.5B_GRPO --dataset_name xxx --per_device_train_batch_size 1 --gradient_accumulation_steps 2 --use_peft True

（2）绝对路径脚本

/root/miniconda3/bin/conda run -p /root/miniconda3 --no-capture-output python /root/autodl-tmp/hzh/trl/trl/scripts/grpo.py --model_name_or_path /home/models/Qwen2.5-0.5B-Instruct --output_dir 0.5B_GRPO --dataset_name xxx --per_device_train_batch_size 1 --gradient_accumulation_steps 2 --use_peft True

备注：这里的reward_model_name_or_path 可不传，数据集使用的是本地的路径，传的路径不起作用。

训练过程数据如下：

DeepSeek R1复现

已知复现版本

伯克利团队低成本复现R1-Zero

HuggingFace团队推进Open R1项目

港科大团队高效复现R1-Zero和R1

1、git clone trl 源码

2、修改grpo.py文件

3、修改grpo_trainer.py

4、训练脚本

网站公告

今日签到

热门文章

最新发布