DeepSeek 开源模型全解析(2024.1.1–2025.2.6)

发布于:2025-02-10 ⋅ 阅读:(31) ⋅ 点赞:(0)

目录

一、通用大语言模型:DeepSeek-V3 系列 137

二、推理优化模型:DeepSeek-R1 系列 811

三、多模态模型:Janus 系列 10

四、生态整合与部署建议

五、总结与展望


以下为 DeepSeek 在 2024 年 1 月至 2025 年 2 月期间发布的开源模型及其核心信息,涵盖自然语言处理、多模态与推理优化三大领域:


一、通用大语言模型:DeepSeek-V3 系列 137
模型名称 版本号 参数规模 特点 公布时间 下载地址
DeepSeek-V3 1.0 总参数 671B,激活参数 37B 架构创新:首款融合 FP8 混合精度训练、多头潜在注意力(MLA)与 MoE 架构的模型,显存消耗降低 30%
性能对标:在数学(MATH 评测 61.6 EM)、代码(HumanEval 65.2 Pass@1)等任务上超越 GPT-4o 与 Claude-3.5-Sonnet
效率提升:生成速度达 60 TPS(前代的 3 倍),支持 128K 长上下文
2024-12-26 Hugging Face
DeepSeek-V3-Base 1.0 同 DeepSeek-V3 - 提供原生 FP8 权重,支持 SGLang、LMDeploy 等推理框架
- 开源社区已适配 TensorRT-LLM 和 MindIE 的 BF16 推理优化
2024-12-26 Hugging Face

部署要求

  • 硬件:推荐使用 4 台华为 Atlas 800I A2 服务器(每台配置 8×64G 显存)2

  • 软件:支持昇腾 MindIE 镜像(预置推理脚本)或 Hugging Face 本地部署工具链


二、推理优化模型:DeepSeek-R1 系列 811
模型名称 版本号 参数规模 特点 公布时间 下载地址
DeepSeek-R1 1.0 总参数 671B 强化学习驱动:通过纯强化学习实现复杂推理能力,无需监督微调
性能对标:在 LiveCodeBench 等编程任务中超越 OpenAI o1,数学推理接近 Claude-3.5-Sonnet
思维链 API:输出包含推理过程(最长 32K tokens),支持企业级应用透明化决策
2025-01-23 Hugging Face
DeepSeek-R1-Zero 1.0 总参数 671B 纯 RL 训练:首个无需监督微调的推理模型,验证强化学习在复杂任务中的潜力
局限:输出存在重复与语言混杂问题,主要用于研究场景
2025-01-21 Hugging Face
R1-Distill 系列 1.0 15B–70B 知识蒸馏:从 R1 蒸馏的小模型,32B 和 70B 版本性能对标 OpenAI-o1-mini
硬件友好:支持低显存设备部署
2025-01-23 Hugging Face

部署要求

  • 硬件:R1 全量版需与 DeepSeek-V3 类似配置;蒸馏版 70B 可在单台 A100(80G)运行

  • API 集成:支持腾讯云 HAI、阿里云 PAI 等平台一键部署611


三、多模态模型:Janus 系列 10
模型名称 版本号 参数规模 特点 公布时间 下载地址
Janus-Pro-7B 1.0 7B 文生图 SOTA:GenEval 准确率 80%(超 DALL-E 3 的 61%)
多模态融合:支持图像描述、视觉问答与跨模态检索
2025-01-28 Hugging Face
JanusFlow 1.0 未公开 流程优化:扩展 Janus-Pro 的视频生成与编辑能力,支持动态场景连续推理 2025-01-28 Hugging Face

部署要求

  • 硬件:Janus-Pro-7B 可在 RTX 4090(24G 显存)运行,FP16 量化后显存占用低于 10G

  • 框架:需搭配 Diffusers 库与 PyTorch 2.3+


四、生态整合与部署建议
  1. 云平台支持

    • 百度智能云、阿里云、华为云等均提供 DeepSeek-V3/R1 的一键部署,限时免费配额 1000 RPM613

    • 腾讯云 HAI 支持 3 分钟启动 R1 模型,集成对象存储与开发工具链11

  2. 本地优化方案

    • FP8 推理:利用 LMDeploy 压缩显存占用(V3 需 4×H800)1

    • 动态蒸馏:企业可根据场景选择 R1-Distill 系列降低算力成本8

  3. 开源协议

    • 所有模型遵循 MIT 协议,允许商业用途与二次开发11


五、总结与展望

DeepSeek 在 14 个月内通过 V3、R1、Janus 三大系列模型,实现了从通用语言模型到垂直领域推理与多模态的技术闭环。其开源策略不仅推动国产模型生态繁荣(如百度、阿里、华为云全面接入613),更以 1/10 训练成本(对比 GPT-4)重塑行业效率标准7。开发者可通过 Hugging Face 快速获取模型权重,结合昇腾或英伟达硬件构建定制化 AI 服务。未来,DeepSeek 计划扩展多模态与深度思考功能,进一步缩小开源与闭源模型的差距。


网站公告

今日签到

点亮在社区的每一天
去签到