「元景万悟」接入OpenAI开源模型gpt-oss-120b、20b

发布于:2025-08-11 ⋅ 阅读:(16) ⋅ 点赞:(0)

GPT-OSS介绍:

        2025 年 8 月 6 日,OpenAI重磅开源了两款大语言模型:gpt-oss-120b 和 gpt-oss-20b。根据OpenAI官方公告,gpt-oss-120b和gpt-oss-20b采用Apache2.0许可证发布,允许开发者自由下载、修改和用于商业用途。这两款模型分别是1170亿参数和210亿参数的混合专家(MoE)架构,分别激活51亿和36亿参数,兼顾高效推理与低资源消耗。

        据 OpenAI 称,gpt-oss-120b 在推理和工具使用的基准测试中达到或超过其自有模型 o4-mini 的水平,包括竞赛数学(AIME 2024 与 2025)、通用问题解决(MMLU 和 HLE)、智能体评估(TauBench)以及健康领域专用评估(HealthBench)。gpt-oss-20b 模型在常见基准测试中与 OpenAI o3‑mini 模型相当,且可在仅配备 16GB 内存的边缘设备上运行,使其成为设备端应用、本地推理或无需昂贵基础设施的快速迭代的理想选择。

GPT-OSS部署:

创建虚拟环境

conda create -n  python=3.12

安装GPT所需运行包

# 采用uv安装
uv pip install --pre vllm==0.10.1+gptoss \
    --extra-index-url https://wheels.vllm.ai/gpt-oss/ \
    --extra-index-url https://download.pytorch.org/whl/nightly/cu128 \
    --index-strategy unsafe-best-match

修复vllm源码

# cd /home/jovyan/.conda/envs/vllm-gpt-0.10.1/lib/python3.12/site-packages/vllm/entrypoints/openai
cp -p serving_chat.py serving_chat.py.bak
vi serving_chat.py
# 搜索 include_continuous_usage
第583行
include_usage, include_continuous_usage = False, False  # 第二个参数改为True
# 改后
include_usage, include_continuous_usage = False, True
第575行
if include_continuous_usage:
修改后:
if include_continuous_usage and chunk.choices[0].finish_reason:
第607行
修改后
if include_continuous_usage and chunk.choices[0].finish_reason:
第958行
修改后
if include_continuous_usage and chunk.choices[0].finish_reason:

分别启动服务

CUDA_VISIBLE_DEVICES=4  nohup vllm serve  models/gpt-oss-20b  --host 0.0.0.0 --port 33312   --served-model-name gpt-oss-20b -tp 1  --max-model-len 32768   --trust-remote-code >> /gpt-oss/gpt-oss-20.log &

CUDA_VISIBLE_DEVICES=6,7  nohup vllm serve  /models

万悟接入测试:

模型接入:

在智能体中使用: