「元景万悟」接入OpenAI开源模型gpt-oss-120b、20b

发布于：2025-08-11 ⋅ 阅读:(63) ⋅ 点赞:(0)

GPT-OSS介绍：

2025 年 8 月 6 日，OpenAI重磅开源了两款大语言模型：gpt-oss-120b 和 gpt-oss-20b。根据OpenAI官方公告，gpt-oss-120b和gpt-oss-20b采用Apache2.0许可证发布，允许开发者自由下载、修改和用于商业用途。这两款模型分别是1170亿参数和210亿参数的混合专家（MoE）架构，分别激活51亿和36亿参数，兼顾高效推理与低资源消耗。

据 OpenAI 称，gpt-oss-120b 在推理和工具使用的基准测试中达到或超过其自有模型 o4-mini 的水平，包括竞赛数学（AIME 2024 与 2025）、通用问题解决（MMLU 和 HLE）、智能体评估（TauBench）以及健康领域专用评估（HealthBench）。gpt-oss-20b 模型在常见基准测试中与 OpenAI o3‑mini 模型相当，且可在仅配备 16GB 内存的边缘设备上运行，使其成为设备端应用、本地推理或无需昂贵基础设施的快速迭代的理想选择。

GPT-OSS部署：

创建虚拟环境

conda create -n  python=3.12

安装GPT所需运行包

# 采用uv安装
uv pip install --pre vllm==0.10.1+gptoss \
    --extra-index-url https://wheels.vllm.ai/gpt-oss/ \
    --extra-index-url https://download.pytorch.org/whl/nightly/cu128 \
    --index-strategy unsafe-best-match

修复vllm源码

# cd /home/jovyan/.conda/envs/vllm-gpt-0.10.1/lib/python3.12/site-packages/vllm/entrypoints/openai
cp -p serving_chat.py serving_chat.py.bak
vi serving_chat.py
# 搜索 include_continuous_usage
第583行
include_usage, include_continuous_usage = False, False  # 第二个参数改为True
# 改后
include_usage, include_continuous_usage = False, True
第575行
if include_continuous_usage:
修改后：
if include_continuous_usage and chunk.choices[0].finish_reason:
第607行
修改后
if include_continuous_usage and chunk.choices[0].finish_reason:
第958行
修改后
if include_continuous_usage and chunk.choices[0].finish_reason:

分别启动服务

CUDA_VISIBLE_DEVICES=4  nohup vllm serve  models/gpt-oss-20b  --host 0.0.0.0 --port 33312   --served-model-name gpt-oss-20b -tp 1  --max-model-len 32768   --trust-remote-code >> /gpt-oss/gpt-oss-20.log &

CUDA_VISIBLE_DEVICES=6,7  nohup vllm serve  /models

「元景万悟」接入OpenAI开源模型gpt-oss-120b、20b

GPT-OSS介绍：

GPT-OSS部署：

创建虚拟环境

安装GPT所需运行包

修复vllm源码

分别启动服务

万悟接入测试：

模型接入：

在智能体中使用：

网站公告

今日签到

热门文章

最新发布