在 Ubuntu 系统中基于 Miniconda 安装 VLLM 并启动模型 + Dify 集成指南-EW帮帮网

本文将详细介绍在 Ubuntu 系统已安装 Miniconda 的前提下，通过虚拟环境安装 VLLM、两种启动模型的方法（含参数详解），以及 Docker 部署的 Dify 如何添加 VLLM 模型，全程步骤清晰且命令可直接复制。

一、基础环境准备（Miniconda 已安装前提下）

1.1 创建 Python 3.12 专属虚拟环境

为避免 VLLM 与其他 Python 项目的依赖冲突，需创建独立虚拟环境。执行以下命令创建名为vllm-env、Python 版本为 3.12 的环境：

conda create -n vllm-env python=3.12 -y

1.2 激活虚拟环境

创建完成后，需激活环境才能进行后续操作（激活后终端提示符前会显示(vllm-env)，表示当前处于该环境中）：

conda activate vllm-env

1.3 确认 Python 版本（确保符合要求）

VLLM 对 Python 版本有明确要求（3.8+，此处指定 3.12），执行命令验证版本是否正确：

python --version

成功标志：输出Python 3.12.x（x 为具体小版本号，如 3.12.4）。

1.4 使用清华源安装 VLLM

通过 pip 安装 VLLM，指定清华源可大幅加速下载速度（避免默认源的网络延迟）：

pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple

安装过程：会自动下载 VLLM 及其依赖包（如transformers、tokenizers等），耐心等待至显示 “Successfully installed...”。

1.5 验证 VLLM 安装（确认版本）

安装完成后，执行命令查看 VLLM 版本，确认安装成功：

python -c "from modelscope import __version__; print('ModelScope版本:', __version__)"

成功标志：输出类似vllm 0.4.3（版本号随更新可能变化，0.4.0 + 版本均支持 Python 3.12）。

二、VLLM 启动模型的两种方法（含参数详解）

VLLM 支持 “命令行服务部署” 和 “Python 代码调用” 两种启动方式，分别适用于 “生产服务” 和 “开发测试” 场景，以下详细介绍每种方法及参数意义。

2.1 方法一：VLLM Server 命令行启动（推荐用于服务部署）

通过vllm serve命令启动 HTTP 服务，可对外提供模型调用接口（如供 Dify、API 请求等使用），以下以常用的Qwen/Qwen3-32B-AWQ模型（量化模型，节省 GPU 内存）为例，完整命令及参数解释如下：

2.1.1 完整启动命令（以多 GPU 为例）

vllm serve --model /home/yourname/.cache/modelscope/hub/models/Qwen/Qwen3-32B-AWQ --tensor-parallel-size 2 --gpu-memory-utilization 0.8 --max-num-batched-tokens 8192 --port 8000

2.1.2 每个参数的详细解释

参数名称	作用说明	取值建议
`--model`	指定模型路径或 Hugging Face 模型 ID（核心参数）	本地路径：如示例中`/home/.../Qwen3-32`

在 Ubuntu 系统中基于 Miniconda 安装 VLLM 并启动模型 + Dify 集成指南