我把今天(截至 2025-08-08)公开的关键信息、技术要点、API 使用与实践建议都整理成一份结构化又实用的“速读 + 深入”说明,便于你马上上手或给团队讲解。下面内容基于 OpenAI 的官方资料与技术文档整理。
简介(快速概览)
GPT-5 是 OpenAI 在 2025 年发布的最新旗舰模型系列,面向更强的推理、编程、agent(可主动调用工具/执行任务)与多模态输入能力(文本 + 视觉)。它同时以不同体量(gpt-5
、gpt-5-mini
、gpt-5-nano
)在 ChatGPT 与 API 上提供,以便在性能、延迟与成本之间做权衡。
主要能力亮点
更强的推理能力与“思考层次”:设计上包含专门的深度推理子模型,用于复杂问题和长链推理。
Agentic / 工具调用能力:可以更主动地调用外部工具、执行多步骤任务,且新增了对开发者自定义工具(plain-text 调用)的支持。
大上下文与多模态:支持极大上下文窗口(OpenAI 公布的文档中以 ~400K tokens 等级别表述),接收文本与图片输入,生成文本输出,适合长文档分析、代码库理解等场景。
模块化家族:提供
gpt-5
(高能力)、gpt-5-mini
(速度/成本优先)、gpt-5-nano
(最低延迟/最低成本)等变体,便于按场景选择。
技术与系统架构要点(高层)
GPT-5 在产品中是以**“统一系统”出现:有一个路由器(router)**,会在“快模型”与“深度推理模型”间选择最合适的执行路径(根据任务复杂度、是否要调用工具等)。这使得响应既快又在必要时能用更深的推理资源。
在 API 层面,OpenAI 把“推理强度”与“输出详尽度”做成显式参数(见下),让开发者能以更可控的方式在速度、token 成本与答案深度之间取舍。
API / 使用要点(你需要知道的具体东西)
可用模型:
gpt-5
、gpt-5-mini
、gpt-5-nano
(ChatGPT 中还有基于系统集成的gpt-5-chat-latest
等变体)。新参数(示例):
verbosity
:low|medium|high
,控制回答长度/详尽度。reasoning_effort
:minimal|low|medium|high
,控制内部推理投入(tradeoff 速度 vs 深度)。自定义工具(custom tools):新增工具类型,能以更灵活的 plaintext 方式调用。
上下文与输出限制:公开文档显示高容量版本支持 约 400K tokens 的上下文窗口,并且有较大的最大输出 token 限制(官方文档里给出详细数值)。实际调用时请参照你所在账号/层级的限额与速率限制。
计费 / 成本:OpenAI 在发布文档中列出了不同型号的价格层(按输入/输出 tokens 计价),mini/nano 明显更便宜、延迟更低;生产用时建议先在 mini 上做原型,再在 gpt-5 上做关键路径验证以控制成本。
提示工程(prompting)与最佳实践
默认行为:GPT-5 在 agentic 场景下会比较“积极”地收集上下文、询问澄清并考虑调用工具。如果不想要这种主动行为,可把
reasoning_effort
设为minimal
,或把verbosity
设为low
。长上下文技巧:对于超长文档,先做分块并让模型生成索引/摘要;或用模型的“检索+上下文补充”流程来降低 token 成本并改善一致性。
代码与工程化使用:GPT-5 在代码任务上表现优异(官方 benchmark 与早期反馈显示改进明显),适合自动化 PR 生成、BUG 定位、端到端脚本生成与 agent 驱动的多步骤构建。调试时建议开启更高的
reasoning_effort
并在输出中要求“验证步骤与假设”。
安全性、局限与合规(重要)
幻觉(hallucination)问题有所改进,但仍可能存在——OpenAI 把安全性与模型自我承认不确定性的能力列为重点工作方向(system card 有具体实验与评估章节),因此在高风险领域(医疗、法律、合约)仍应把模型答案作为参考,并做人工/规则性二次验证。
高风险领域的使用建议:在医疗或财务等专业用途上,使用 GPT-5 时应:1) 绑定可信数据源与 tools;2) 加入断言/来源要求(要求模型引用来源);3) 构建人工审核流程。OpenAI 在介绍中也特别强调了对医疗类问答的改进(但并不等于可以完全替代专业医生判断)。
实战示例(简短)
短 Prompt(快速回答)
system: 你是一个简洁的助手,回答不超过 3 行。
user: 用一句话总结这个产品的核心价值:<产品描述>
复杂任务(agentic, 需要工具)
请求参数: model=gpt-5, reasoning_effort=high, verbosity=high
user: 我有一个 120k 行的 CSV,要求:提取前三个销售异常的城市,给出可能原因和三条可执行建议,并生成用于验证的 SQL 查询。请分步骤列出你会做的操作并在步骤 3 调用外部分析工具(模拟)。
(实际 API 调用请参照 OpenAI 平台示例并把 reasoning_effort
/ verbosity
作为你传给 Responses API 的参数。)