【保姆级 - 大模型应用开发】DeepSeek R1 本地部署全攻略:Ollama + vLLM + PyTorch 多选方案

发布于:2025-08-02 ⋅ 阅读:(431) ⋅ 点赞:(0)

在这里插入图片描述

DeepSeek R1 本地部署全攻略:Ollama + vLLM + PyTorch 多选方案

想部署 DeepSeek-R1 模型到本地,开启高性能推理体验?本文汇总了 Ollama、vLLM 及原生 PyTorch 的部署方法,适合不同开发者需求。


🎯 下载模型 (必做) ---- 模型选择指南

目前 DeepSeek 已开源多个蒸馏模型,资源占用低,推理能力强:

模型名 参数量 显存需求 下载地址
DeepSeek-R1-Distill-Qwen-1.5B 1.5B 1~2GB 点击下载
DeepSeek-R1-Distill-Qwen-7B 7B 6~8GB 点击下载
DeepSeek-R1-Distill-Llama-70B 70B 96~128GB 点击下载
  • 下载完成后可以任选以下三种方式之一进行部署使用 (记住你的下载路径)

✅ 方式一:Ollama 本地部署(最简单)

Step 1:安装 Ollama

Windows 用户:

直接访问官网下载安装:https://ollama.com

Linux/macOS 用户:
curl -fsSL https://ollama.com/install.sh | sh
ollama serve

Step 2:下载并运行模型

ollama pull deepseek-r1:7b
ollama run deepseek-r1:7b

📌 Ollama 会自动处理环境配置,适合零基础用户快速尝试。


✅ 方式二:vLLM 部署(推荐中高端 GPU)

Step 1:安装 vLLM

pip install vllm

Step 2:运行模型

vllm serve <模型路径> \
--tensor-parallel-size 1 \
--max-model-len 32768 \
--quantization gptq \
--dtype half \
--enforce-eager
参数 含义 推荐值
<模型路径> 模型所在的本地文件夹 /root/models/deepseek-r1-distill-qwen-7b-gptq
--tensor-parallel-size 启用的 GPU 数量(单卡填 1) 1
--max-model-len 最大上下文长度(Token 数) 4096 ~ 32768
--quantization 指定量化类型 gptq
--dtype 中间计算精度 half(FP16)
--enforce-eager 禁用 CUDA Graph,加快加载稳定性 建议保留

📌 如果显存较小(如 8GB),建议将 --max-model-len 改为 4096 或更小。


✅ 方式三:PyTorch 原生部署(灵活可控)

from modelscope import AutoModelForCausalLM, AutoTokenizer

# 模型路径:请替换为你自己的本地路径
model_path = "/root/models/deepseek-r1-distill-qwen-7b"

# 加载模型
model = AutoModelForCausalLM.from_pretrained(
    model_path,
    torch_dtype="auto",
    device_map="cuda"  # 支持自动切换为 CPU
)

# 加载分词器
tokenizer = AutoTokenizer.from_pretrained(model_path)

# 构建 prompt
messages = [
    {"role": "system", "content": "你是一个乐于助人的编程专家"},
    {"role": "user", "content": "请用 Python 实现快速排序"}
]

# 转换为对话输入格式
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 推理生成
outputs = model.generate(**inputs, max_new_tokens=512)

# 解码输出
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

📦 运行环境依赖:

pip install torch modelscope

🧠 对比总结

方法 优点 缺点 适合人群
Ollama 零配置、简单易用 功能有限 小白/入门
vLLM 高性能、支持量化 显存要求高 中高级用户
PyTorch 灵活自由 需懂代码 开发者/研究人员

🧩 提示建议

  • Ollama 支持断网运行,适合离线环境。
  • 建议使用蒸馏模型部署,节省资源,效果不打折。
  • 复杂推理场景推荐使用 R1-32B 或以上版本。

在这里插入图片描述

DeepSeek 开源生态发展迅猛,模型性能媲美 GPT-4o,部署简单灵活,非常适合本地化大模型应用实践。动手部署一把,感受 LLM 的强大推理力量!


网站公告

今日签到

点亮在社区的每一天
去签到