GPT-OSS介绍:
2025 年 8 月 6 日,OpenAI重磅开源了两款大语言模型:gpt-oss-120b 和 gpt-oss-20b。根据OpenAI官方公告,gpt-oss-120b和gpt-oss-20b采用Apache2.0许可证发布,允许开发者自由下载、修改和用于商业用途。这两款模型分别是1170亿参数和210亿参数的混合专家(MoE)架构,分别激活51亿和36亿参数,兼顾高效推理与低资源消耗。
据 OpenAI 称,gpt-oss-120b 在推理和工具使用的基准测试中达到或超过其自有模型 o4-mini 的水平,包括竞赛数学(AIME 2024 与 2025)、通用问题解决(MMLU 和 HLE)、智能体评估(TauBench)以及健康领域专用评估(HealthBench)。gpt-oss-20b 模型在常见基准测试中与 OpenAI o3‑mini 模型相当,且可在仅配备 16GB 内存的边缘设备上运行,使其成为设备端应用、本地推理或无需昂贵基础设施的快速迭代的理想选择。
GPT-OSS部署:
创建虚拟环境
conda create -n python=3.12
安装GPT所需运行包
# 采用uv安装
uv pip install --pre vllm==0.10.1+gptoss \
--extra-index-url https://wheels.vllm.ai/gpt-oss/ \
--extra-index-url https://download.pytorch.org/whl/nightly/cu128 \
--index-strategy unsafe-best-match
修复vllm源码
# cd /home/jovyan/.conda/envs/vllm-gpt-0.10.1/lib/python3.12/site-packages/vllm/entrypoints/openai
cp -p serving_chat.py serving_chat.py.bak
vi serving_chat.py
# 搜索 include_continuous_usage
第583行
include_usage, include_continuous_usage = False, False # 第二个参数改为True
# 改后
include_usage, include_continuous_usage = False, True
第575行
if include_continuous_usage:
修改后:
if include_continuous_usage and chunk.choices[0].finish_reason:
第607行
修改后
if include_continuous_usage and chunk.choices[0].finish_reason:
第958行
修改后
if include_continuous_usage and chunk.choices[0].finish_reason:
分别启动服务
CUDA_VISIBLE_DEVICES=4 nohup vllm serve models/gpt-oss-20b --host 0.0.0.0 --port 33312 --served-model-name gpt-oss-20b -tp 1 --max-model-len 32768 --trust-remote-code >> /gpt-oss/gpt-oss-20.log &
CUDA_VISIBLE_DEVICES=6,7 nohup vllm serve /models