DeepSeek
了解新技术的一天
发展历程
- 2023 年 11 月 2 日,发布首个模型 DeepSeek Coder,可免费用于商业用途且完全开源,专注于编码相关任务。
- 2023 年 11 月 29 日,推出 DeepSeek LLM,参数规模达 670 亿,性能接近 GPT-4,同期发布聊天版本 DeepSeek Chat。
- 2024 年 5 月,发布 DeepSeek-V2,是第二代开源混合专家(MoE)模型,注重高性能和低训练成本,在性能提升的同时,降低了训练成本并优化了缓存和生成吞吐量 。
- 2024 年 11 月,发布 DeepSeek R1-lite-preview,擅长逻辑推理、数学推理和实时问题解决,但在部分测试中与 OpenAI O1 存在差距。
- 2024 年 12 月,发布 DeepSeek-V3,参数高达 6710 亿,采用混合专家架构,在多种任务中表现出色,生成速度相比 V2.5 提升 3 倍。训练成本仅 557.6 万美元,远低于同类模型,且训练时间约 55 天,展示了高效的资源利用能力。
- 2025 年 1 月,发布基于 DeepSeek-V3 的 DeepSeek R1,其 API 定价具有竞争力,引发市场关注。
相关技术
这里只是了解。
以 Transformer 架构为基础,基于注意力机制构建深度神经网络。通过海量语料数据进行预训练,再经过监督微调、人类反馈的强化学习等方式进行优化。在训练过程中,运用了如辅助损失- free负载均衡、低秩键值联合压缩等技术来提升效率。
相关优势
- 成本效益高:训练成本低,如 DeepSeek-V3 仅用 2048 块 GPU 训练 2 个月,花费 557.6 万美元,远低于同类模型。相比 Meta 的 Llama 3.1 模型训练所需的 3080 万 GPU 小时,DeepSeek V3 仅需 278 万 GPU 小时 。
- 性能卓越:参数规模大,如 DeepSeek-V3 有 6710 亿参数,能处理复杂任务并生成准确预测,在知识类任务、数学竞赛等场景表现优异,接近甚至超越部分行业领先模型。
- 开源共享:模型开源,开发者可自由使用、修改和扩展,促进了 AI 社区的协作与创新,其早期模型 DeepSeek V1 在 Hugging Face 等平台备受欢迎。
- 技术创新:采用创新训练技术,如大规模强化学习聚焦推理任务、开发基于规则的奖励系统、运用知识蒸馏技术压缩模型能力,还发现了涌现行为网络 。
应用场景
- 编码领域:DeepSeek Coder 等模型能理解复杂编程语言,实时优化和调试代码,协助开发者进行代码编写、多语言项目管理和提供上下文感知的代码建议。
- 多语言处理:支持多种语言,在语言翻译、文本生成、语义理解等自然语言处理任务中发挥作用,尽管目前主要集中于英语和中文,但在这两种语言处理上表现出色。
- 数学推理:在数学任务中表现突出,如 DeepSeek Math 在竞赛级数学基准测试中取得优异成绩,可处理复杂数学问题,为科研、教育等领域提供数学推理支持。
- 多模态任务:DeepSeek-VL2 等模型可处理视觉问答、光学字符识别、文档 / 表格 / 图表理解以及视觉定位等多模态任务,在医疗影像分析、金融数据可视化分析等场景有应用潜力。
服务
提供多种访问方式:为开发者、企业和研究人员提供网页界面、移动应用和 API 访问,方便用户使用其模型进行开发和应用。例如,通过 API,企业可以将 DeepSeek 的强大功能集成到自身业务系统中。
支持开发者和企业:无论是小型初创企业还是大型跨国公司,都能从 DeepSeek 的服务中获取适合自身需求的解决方案。开发者可以基于其开源模型进行二次开发,企业则可利用其高性能模型提升业务效率,如在客户服务、数据分析等业务环节应用。
本地部署
打开ollama官网,下载(https://ollama.com/)
- 验证是否成功:win+r 输入cmd打开命令行:输入:
ollama -v
;如下图所示就是成功了。
- 验证是否成功:win+r 输入cmd打开命令行:输入:
ollama官网左上角打开models --> 点击deepseek-r1 --> 选择模型
复制命令到命令行进行下载:
接下来就可以进行问答:
到这里本地部署结束。
下次进入可以输入命令:ollama list
来查看下载好模型,然后输入ollama use + 对应模型
就可以进行对话。
可视化部署
- 下载chatbox(官网:https://chatboxai.app/zh)
- 下载完成,添加本地的模型
- 之后就可以进行对话