本文将详细介绍在 Ubuntu 系统已安装 Miniconda 的前提下,通过虚拟环境安装 VLLM、两种启动模型的方法(含参数详解),以及 Docker 部署的 Dify 如何添加 VLLM 模型,全程步骤清晰且命令可直接复制。
一、基础环境准备(Miniconda 已安装前提下)
1.1 创建 Python 3.12 专属虚拟环境
为避免 VLLM 与其他 Python 项目的依赖冲突,需创建独立虚拟环境。执行以下命令创建名为vllm-env
、Python 版本为 3.12 的环境:
conda create -n vllm-env python=3.12 -y
1.2 激活虚拟环境
创建完成后,需激活环境才能进行后续操作(激活后终端提示符前会显示(vllm-env)
,表示当前处于该环境中):
conda activate vllm-env
1.3 确认 Python 版本(确保符合要求)
VLLM 对 Python 版本有明确要求(3.8+,此处指定 3.12),执行命令验证版本是否正确:
python --version
- 成功标志:输出
Python 3.12.x
(x 为具体小版本号,如 3.12.4)。
1.4 使用清华源安装 VLLM
通过 pip 安装 VLLM,指定清华源可大幅加速下载速度(避免默认源的网络延迟):
pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple
- 安装过程:会自动下载 VLLM 及其依赖包(如
transformers
、tokenizers
等),耐心等待至显示 “Successfully installed...”。
1.5 验证 VLLM 安装(确认版本)
安装完成后,执行命令查看 VLLM 版本,确认安装成功:
python -c "from modelscope import __version__; print('ModelScope版本:', __version__)"
- 成功标志:输出类似
vllm 0.4.3
(版本号随更新可能变化,0.4.0 + 版本均支持 Python 3.12)。
二、VLLM 启动模型的两种方法(含参数详解)
VLLM 支持 “命令行服务部署” 和 “Python 代码调用” 两种启动方式,分别适用于 “生产服务” 和 “开发测试” 场景,以下详细介绍每种方法及参数意义。
2.1 方法一:VLLM Server 命令行启动(推荐用于服务部署)
通过vllm serve
命令启动 HTTP 服务,可对外提供模型调用接口(如供 Dify、API 请求等使用),以下以常用的Qwen/Qwen3-32B-AWQ
模型(量化模型,节省 GPU 内存)为例,完整命令及参数解释如下:
2.1.1 完整启动命令(以多 GPU 为例)
vllm serve --model /home/yourname/.cache/modelscope/hub/models/Qwen/Qwen3-32B-AWQ --tensor-parallel-size 2 --gpu-memory-utilization 0.8 --max-num-batched-tokens 8192 --port 8000
2.1.2 每个参数的详细解释
参数名称 | 作用说明 | 取值建议 |
---|---|---|
--model |
指定模型路径或 Hugging Face 模型 ID(核心参数) | 本地路径:如示例中/home/.../Qwen3-32 |