前言
DeepSeek
在今年的春节期间,DeepSeek火出了圈。凭借创新技术和卓越表现,迅速成为了行业内外的焦点。不管是技术专家还是普通用户,都对DeepSeek赞不绝口。它最大的特点是开源、使用成本低,在有限算力的条件下,通过算法创新同样能够实现接近的性能,为中国AI产业提供了宝贵的经验。
ai.com 这个域名之前跳转的是 ChatGPT,现在跳到 DeepSeek,可知 DeepSeek 的火爆程度。也从侧面反映了DeepSeek在全球范围内的影响力。
一、DeepSeek是什么
1. 简介
DeepSeek 是国内一款开源的大模型,主打通用 AI 能力,类似于 OpenAI 的 GPT 系列,目标是打造国产的、强大的、开放的大语言模型。
LLM(Large Language Model,大语言模型)是指使用大量文本数据训练的深度学习模型,能够生成自然语言文本或理解语言文本的含义。
LLM的核心思想是通过大规模无监督训练学习自然语言的模式和结构,模拟人类的语言认知和生成过程。
2. 产品模式
1. 模式
DeepSeek提供了两种不同模式,以满足用户在不同场景下的需求。
- 通用模型: 高效便捷,适用于绝大多数“规范性”任务,如用于快速获取百科信息。一般侧重于语言生成、上下文理解、文本分类、翻译和自然语言处理。此类模型通常通过对大量文本数据的训练,掌握语言规律并能够生成合适的内容,但缺乏像推理模型那样复杂的推理和决策能力。
例如:DeepSeek-V3、GPT-4o(OpenAI)。
- 推理模型
推理模型: 擅长解决复杂推理和深度分析等“开放性”任务,如数理逻辑推理和辅助编程。侧重于强化推理、逻辑分析、决策能力和实时问题解决的模型。具备额外的技术,比如强化学习、神经符号推理等,来增强其推理和问题解决能力。
例如:DeepSeek-R1、OpenAI-o1。
维度 | 推理模型 | 通用模型 |
---|---|---|
优势领域 | 数学推导、逻辑分析、代码生成、复杂问题拆解 | 文本生成、创意写作、多轮对话、开放性问答 |
劣势领域 | 发散性任务(如诗歌创作) | 需要严格逻辑链的任务(如数学证明) |
性能本质 | 专精于逻辑密度高的任务 | 擅长多样性高的任务 |
强弱判断 | 并非全面更强,仅在其训练目标领域显著优于通用模型 | 通用场景更灵活,但专项任务需依赖提示语补偿能力 |
2. 版本
DeepSeek 主要有以下几个大模型:
- DeepSeek R1
- DeepSeek V3
- DeepSeek Coder V2
- DeepSeek VL
- DeepSeek V2
- DeepSeek Coder
- DeepSeek Math
- DeepSeek LLM
以 DeepSeek-R1 为例,满血版本为:671B,性能最强,也就是官网部署的版本。还有几个蒸馏版本:
B 则是指 Billion 十亿
- 1.5B 有 15 亿个参数;
- 671B 是 6710 亿个参数。
什么是蒸馏?
机器学习(ML)中的模型蒸馏是一种用于将知识从大型复杂模型(通常称为教师模型)转移到较小、更简单模型(称为学生模型)的技术。
目标是创建一个更小、更高效的版本,保留大模型的大部分性能,同时在计算资源、内存使用和推理速度方面更高效。为企业级应用提供了更实用的解决方案。
蒸馏模型是通过使用DeepSeek-R1生成的800K个推理数据样本对较小的基础模型进行微调(如Qwen和Llama系列),发布了DeepSeek-R1-Distill系列模型。
蒸馏过程涉及对推理数据的监督微调(SFT),但不包括额外的强化学习(RL)阶段。这使得该过程对于较小的模型来说更高效、更容易实现。
3. 参数规模与模型能力
- 参数规模
模型规格后面的数字代表模型的参数规模,表示模型的复杂度和学习能力,参数规模越大,通常理解和生成能力越强。
参数规模与模型能力成正比,一般来说:
- 参数规模越大: 代表模型越聪明,对复杂问题的处理能力越强,生成内容的质量越高,但对算力和硬件资源的要求也越高。
- 参数规模越小: 代表模型越轻量化,对算力和硬件的要求越低,适合资源受限的设备。
- 模型能力
DeepSeek-R1 系列模型的规格划分主要是为了适应不同场景的需求,从小到大覆盖了轻量化应用到高算力推理的各种场景。在实际应用中,我们需要根据算力、成本、业务需求等综合因素来选择合适的模型。适合自己的,才是最好的!
- 1.5B - 14B:轻量级模型,适合基础任务(文本生成、简单问答)。
- 32B - 70B:中等规模,平衡性能与资源消耗,适合复杂任务(逻辑推理、代码生成)。
不同模型规格,需要的硬件配置,以下可供参考:
1.5B:CPU最低4核,内存8GB+,硬盘3GB+存储空间,显卡非必需,适合低资源设备部署等场景。
7B:CPU 8核以上,内存16GB+,硬盘8GB+,显卡8GB+显存,可用于本地开发测试等场景。
8B:硬件需求与7B相近略高,适合需更高精度的轻量级任务。
14B:CPU 12核以上,内存32GB+,硬盘15GB+,显卡16GB+显存,可用于企业级复杂任务等场景。
32B:CPU 16核以上,内存64GB+,硬盘30GB+,显卡24GB+显存,适合高精度专业领域任务等场景。
70B:CPU 32核以上,内存128GB+,硬盘70GB+,显卡需多卡并行,适合科研机构等进行高复杂度生成任务等场景。
3. 特征
- 技术突破
DeepSeek 之所以能迅速崛起,主要是因为在技术上有一些独特的优势。
DeepSeek 采用了 Mixture of Experts(MoE,混合专家模型),这一架构让它可以在计算资源相对有限的情况下,仍然保持高性能,实现了它对 OpenAI 的弯道超车。
混合专家模型(MoE,Mixture of experts)是一种机器学习方法,它将人工智能(AI)模型划分为单独的子网络(或 专家 experts),每个子网络专攻输入数据的一个子集,以共同执行任务。
核心思想是,不是所有参数都在每次推理时被激活,而是只有一部分专家在工作,这样可以减少计算成本,同时提高模型的推理效率。也就是说,它通过选择性地激活特定任务所需的特定专家来实现这种效率,而不是为每个任务激活整个神经网络。
- 性价比
从技术演进的角度来看,DeepSeek V3 和 R1 的成功为AI发展的新方向指明了道路。在追求模型性能的同时,效率优化将成为未来竞争的关键。
据官方技术论文披露,DeepSeek-V3在预训练阶段仅使用2048块GPU训练了2个月,花费557.6万美元,而GPT-4o的训练成本估计高达数亿美元,马斯克的Grok3更是动用了20万块H100集群。
相比于 OpenAI 的 Transformer 模型架构,DeepSeek 的 MoE 版本可以用更少的计算量,获得接近的性能。如下是在多个评价基准方面,与OpenAI-o1(mini)的性能对比:
- 开源
DeepSeek-R1 在全球范围内引发巨大轰动,不仅源于其技术突破,更在于其与 OpenAI 的对比。相较之下,DeepSeek-R1 揭开了 o1 的神秘面纱,开源了这类强推理模型背后的关键技术,既促进了行业的快速发展,也对 OpenAI 的闭源策略形成了有力冲击。
对比项 | DeepSeek | OpenAI |
---|---|---|
是否开源 | ✅ 开源 | ❌ 闭源 |
中文优化 | ✅ 很强 | ✅ 强 |
代码能力 | ✅ 强 | ✅ 更强 |
推理速度 | ✅ 轻量级 MoE 优势 | ❌ 需要更大计算资源 |
本地部署 | ✅ 可以 | ❌ 不能 |
使用限制 | ✅ 自由可商用 | ❌ 需要付费 API 访问 |
- 优势
DeepSeek 的最大优势是 开源 、高性价比、 中文优化好,适合 本地部署 和 企业使用,尤其适合 中文 AI 应用 的场景。
4. 三种访问方式
DeepSeek的R1和V3模型现已在网页端、APP,以及API上全面推出,为用户提供多样化的访问途径。这三种访问方式各具特色,适用于不同的使用场景。
DeepSeek的网页端是一个用户友好的在线平台,用户只需通过浏览器即可轻松访问。该平台设计直观,即使是非技术背景的用户也能迅速上手,享受DeepSeek带来的便捷服务。
专为移动设备打造的DeepSeek APP,则让用户体验更加便捷和个性化。用户可以在智能手机或平板电脑上安装并使用该APP,随时随地访问DeepSeek平台,享受与网页端相似,但更加贴合移动场景的功能和服务。
同时,DeepSeek还为开发者提供了强大的API工具。通过API,开发者可以轻松地将DeepSeek平台的功能集成到自己的应用程序或系统中,实现与平台的无缝对接。利用DeepSeek提供的各种算法和模型,开发者可以高效地处理数据、生成对话、实现其他创新功能。
DeepSeek的API也是大语言模型(LLM)的三板斧,
CoT(思维链)、Prompt Engineering(提示工程)、Function Calling(函数调用)。
1. 网页端和APP
- 开启DeepSeek网页端对话,只需访问官网并点击“开始对话”按钮,登录后即可与AI进行即时交流。
2. 开启DeepSeek APP的访问,只需在智能手机或平板电脑上下载安装后,打开应用并登录即可。
3. 深度思考(R1)和联网搜索是什么?
DeepSeek的深度思考(R1)和联网搜索是其两大核心功能,这两大功能相辅相成,共同构筑了其强大的功能框架。
深度推理(R1):R1模型擅长逻辑推理和复杂问题解答,能够处理需要深度思考的任务。
联网搜索:允许DeepSeek实时访问互联网上的信息,从而为用户提供最新、最准确的内容。
2. DeepSeek API
- DeepSeek的API是什么?
DeepSeek的API是为开发者提供的一种工具,它允许开发者将DeepSeek提供的能力集成到自己的应用程序中。
调用API,需要提供如下三个请求参数。
api_key: "<DeepSeek API Key>"
base_url: "https://api.deepseek.com"
model: ""
- DeepSeek的API能力有哪些?
DeepSeek API支持调用其平台上的多种模型,如深度思考(R1)和 智能对话(V3)等,并具备多轮对话能力和对话生成与理解功能,为开发者提供强大的智能对话与交互体验。
二、DeepSeek可以做什么
1. 应用场景
直接面向用户,提供智能对话、文本生成、语义理解等应用场景,支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。
深度思考模式,在多个领域具有广泛的应用前景。例如,在教育领域,它可以作为智能辅导工具,帮助学生解决数学问题、编写代码等;在科研领域,它可以作为研究助手,帮助研究人员处理数据、生成假设,甚至计算推理等。
2. 文本生成
1. 文本创作
- 文章/故事/诗歌写作
- 营销文案、广告语生成
- 社交媒体内容(如推文、帖子)
- 剧本或对话设计
2. 摘要与改写
- 长文本摘要(论文、报告)
- 文本简化(降低复杂度)
- 多语言翻译与本地化
3. 结构化生成
- 表格、列表生成(如日程安排、菜谱)
- 代码注释、文档撰写
3. 自然语言理解与分析
1. 语义分析
- 语义解析
- 情感分析(评论、反馈)
- 意图识别(客服对话、用户查询)
- 实体提取(人名、地点、事件)
2. 文本分类
- 文本分类
- 主题标签生成(如新闻分类)
- 垃圾内容检测
3. 知识推理
- 知识推理
- 逻辑问题解答(数学、常识推 理)
- 因果分析(事件关联性)
4. 编程与代码相关
1. 代码生成
- 根据需求生成代码片段
- 自动补全与注释生成
2. 代码调试
- 错误分析与修复建议
- 代码性能优化提示
3. 技术文档处理
- API文档生成
- 代码库解释与示例生成
5. 常规绘图
1. SVG矢量图
- 基础图形
- 图标
- 简单插图
- 流程图
- 组织架构图
2. Mermaid图表
- 流程图
- 时序图
- 类图
- 状态图
- 实体关系图
- 思维导图
3. React图表
- 折线图
- 柱状图
- 饼图
- 散点图
- 雷达图
- 组合图表
三、DeepSeek多场景应用
从如何用好的提示语技巧,到,用到哪里的多场景应用
- DeepSeek大模型 的研发及开源,0->1,科研成果的重大突破。
- DeepSeek大模型 的应用,1->100,可以做什么,如何赋能哪些产业,属于国人的擅长领域。可以期待百花齐放。从互联网,到移动互联网,到现在的AI时代。2025 AI 应用元年,风口已经来了。
1. 人机高效协作
基本操作技巧:提示词、追问逻辑、插件使用
人机协作意识:优势不足、取长补短、选择性采纳
能动意识:千人千面、洞察能力、思维深度
边界意识:学术伦理、新闻伦理、伦理规范
2. 职场应用-PPT
利用DeepSeek+Kimi
- DeepSeek搞定ppt文案
我们用DeepSeek来生成ppt文稿的提纲文案,比如,我要做一个有关人工智能发展的报告,帮我做一个提纲。
DeepSeek联网思考后,生成一个ppt的大纲。
等待几分钟,整个ppt的框架就好了,下面copy到kimi中。
- Kimi搞定ppt
在Kimi中有一个关于ppt制作的神器,ppt助手。
我们点进去,把用DeepSeek生成的ppt提纲输入进去。
输入完毕后,Kimi会帮我们自动再次排版,最后点击“一键生成PPT‘,选择一个模板。
生成ppt。
生成完毕后,点击”去编辑“,点击”下载“,就可以把ppt下载到本地了。
至此,这个ppt就生成好了。
3. 职场应用
- 可视化图表
- 设计海报
- 生成视频
- 生成新媒体文案
- 市场调查
4. 开发AI应用
示例
5. 行业赋能-车联网
对于汽车行业,车联网的互动能力和趣味性,会成为行业内竞争堡垒。尤其,内容交互的引流已经变成各家车企重点攻坚的方向。
典型场景,AIGC领域的图像生成技术,应用于汽车行业的车联网服务中。
- 车主节假日中短途游之后,基于车联网和车载芯片,会记录如下旅程信息:
- 基于旅程信息,期望大模型在汽车内容社区,自动生成风格化素材,并推送
- 为了最大化的c端引流,车企对AIGC的能力提出了极高的要求,尤其注重生图细节的下列部分:
- 生图的风格化,是否能完全遵从指令
- 汽车logo和边缘的色差
- 背景车型无违和拼装等
- 构建RAG应用
利用模型构建RAG应用 (Retrieval-Augmented Generation) ,通过检索相关信息并结合上下文生成准确的自然语言回答,增强语言模型处理和理解复杂查询的深度。
参考阿里实战,基于业务需求设计完整的工作流。
6. 行业赋能
本文的引用仅限自我学习如有侵权,请联系作者删除。
参考知识
DeepSeek 是什么?|扫盲贴
清华大学第一弹:DeepSeek从入门到精通
清华大学第二弹DeepSeek赋能职场
一文搞懂DeepSeek - DeepSeek的三种访问方式