七篇文章看了整整五天,加上整理笔记和问ds优化,大致的框架是有了。具体的公式细节比较多,截图也比较麻烦,就不列入大纲去做笔记了。
DeepSeek-LLM:一切的起点,所以探索的东西比较多,包括:
- transformer架构(后续V2/V3的改进基础)
- “多步”替代“余弦”学习率调度器
- AdamW优化器(贯穿所有版本的核心)
- HAI-LLM框架并行(支持后续FP8训练)
- ZeRO-1优化器(V3升级到ZeRO-3)
- 位置编码RoPE/GQA(需解耦RoPE冲突)
- scaling law(v3的MTP深度选择依据)
- BBPE分词器(保持到V3不变)
- 归一化:Pre-Norm + RMS Norm(保持到V3不变)
- CND(计算预算、最优批大小、学习率)公式C=6ND(V2/V3的算力分配用,但V3引入FP8后需调整系数)
- DPO替代RLHF
- 无明确奖励模型
DeepSeek-R1:
在DeepSeek-V3-Base上研究"推理",主要优化点
(这里我没有把zeroR1和R1分开写,两者具体不一样见表格):
- 纯用RL算法GRPO(分组策略降低方差,适配长推理链→导致"顿悟"现象)
- GRPO是RLHF变体,SFT只是准确问答问题,RLHF更有人类偏好
- 冷启动优化(用小规模思维链数据预热,解决RL初期不稳定)
- 蒸馏提取推理能力(为V3的SFT阶段提供数据源)
- 语言混合问题 → 催生V3的语言一致性奖励
- AdamW等基础未改动
- 奖励模型:纯用RL算法GRPO
DeepSeek-V2:
在LLM基础上研究"性能",从架构入手:
- MoE创新(细粒度专家+共享专家隔离 → 参数效率↑30%)
- KV压缩MLA(低秩联合压缩,缓存减少88% → 为V3的MTP铺路)(文中这里是先介绍传统的MHA、MQA、GQA作为铺垫)
- 解耦旋转位置编码:解决旋转位置嵌入与KV压缩不兼容的问题
- 设备感知路由(通信成本↓50%)
- AdamW等基础未改动
- 未提及奖励模型,推测沿用R1
DeepSeek-V3:
在V2基础上增强:
- MoE路由改进(无辅助损失负载均衡 → 摆脱平衡性约束)
- 注意力增强MTP(需V2的MLA作为前提,新增4个预测头)
- FP8训练(依赖H100硬件,速度↑1.7x)
- 两阶段蒸馏(继承R1的CoT能力)
- AdamW等基础未改动
- 奖励模型:混合了规则奖励与模型奖励
DeepSeekMoE:
v2混合专家→v3混合专家→终极优化混合专家:
- 动态专家合并(解决V3固定m值的扩展瓶颈)
- 跨设备协作(千亿级参数时延迟优化)
- 成为DeepSeek最终MoE形态
- AdamW等基础未改动
- 奖励模型:沿用V3,增加专家选择奖励
H-CoT:
国外一项工作,抽样几家主流AI进行安全性测试,对于deepseek他们选了R1:
- R1的GRPO缺陷(过度依赖结果奖励,忽视中间状态 → 被劫持)
- 对比V3的改进:规则奖励模型+轨迹监控
- 后续启示:需增加推理过程签名验证