【人工智能】deepseek七篇论文阅读笔记大纲

发布于：2025-06-05 ⋅ 阅读:(146) ⋅ 点赞:(0)

七篇文章看了整整五天，加上整理笔记和问ds优化，大致的框架是有了。具体的公式细节比较多，截图也比较麻烦，就不列入大纲去做笔记了。

DeepSeek-LLM：一切的起点，所以探索的东西比较多，包括：

transformer架构（后续V2/V3的改进基础）
“多步”替代“余弦”学习率调度器
AdamW优化器（贯穿所有版本的核心）
HAI-LLM框架并行（支持后续FP8训练）
ZeRO-1优化器（V3升级到ZeRO-3）
位置编码RoPE/GQA（需解耦RoPE冲突）
scaling law（v3的MTP深度选择依据）
BBPE分词器（保持到V3不变）
归一化：Pre-Norm + RMS Norm（保持到V3不变）
CND（计算预算、最优批大小、学习率）公式C=6ND（V2/V3的算力分配用，但V3引入FP8后需调整系数）
DPO替代RLHF
无明确奖励模型

DeepSeek-R1：
在DeepSeek-V3-Base上研究"推理"，主要优化点
（这里我没有把zeroR1和R1分开写，两者具体不一样见表格）：

纯用RL算法GRPO（分组策略降低方差，适配长推理链→导致"顿悟"现象）
GRPO是RLHF变体，SFT只是准确问答问题，RLHF更有人类偏好
冷启动优化（用小规模思维链数据预热，解决RL初期不稳定）
蒸馏提取推理能力（为V3的SFT阶段提供数据源）
语言混合问题 → 催生V3的语言一致性奖励
AdamW等基础未改动
奖励模型：纯用RL算法GRPO

DeepSeek-V2：
在LLM基础上研究"性能"，从架构入手：

MoE创新（细粒度专家+共享专家隔离 → 参数效率↑30%）
KV压缩MLA（低秩联合压缩，缓存减少88% → 为V3的MTP铺路）（文中这里是先介绍传统的MHA、MQA、GQA作为铺垫）
解耦旋转位置编码：解决旋转位置嵌入与KV压缩不兼容的问题
设备感知路由（通信成本↓50%）
AdamW等基础未改动
未提及奖励模型，推测沿用R1

DeepSeek-V3：
在V2基础上增强：

MoE路由改进（无辅助损失负载均衡 → 摆脱平衡性约束）
注意力增强MTP（需V2的MLA作为前提，新增4个预测头）
FP8训练（依赖H100硬件，速度↑1.7x）
两阶段蒸馏（继承R1的CoT能力）
AdamW等基础未改动
奖励模型：混合了规则奖励与模型奖励

DeepSeekMoE：
v2混合专家→v3混合专家→终极优化混合专家：

动态专家合并（解决V3固定m值的扩展瓶颈）
跨设备协作（千亿级参数时延迟优化）
成为DeepSeek最终MoE形态
AdamW等基础未改动
奖励模型：沿用V3，增加专家选择奖励

H-CoT：
国外一项工作，抽样几家主流AI进行安全性测试，对于deepseek他们选了R1：

R1的GRPO缺陷（过度依赖结果奖励，忽视中间状态 → 被劫持）
对比V3的改进：规则奖励模型+轨迹监控
后续启示：需增加推理过程签名验证