OpenAI 推出了新的旗舰 AI 模型 GPT-5,它将为该公司的下一代 ChatGPT 提供支持。
https://openai.com/index/introducing-gpt-5/
GPT-5 于周四发布,是 OpenAI 首个“统一”AI 模型,它将O 系列模型的推理能力与GPT 系列的快速响应能力相结合。下一代模型标志着 ChatGPT 及其创建者 OpenAI 的新纪元,也表明 OpenAI 的宏伟目标:开发更像代理而非聊天机器人的 AI 系统。
GPT-4使人工智能聊天机器人能够对各种问题提供智能响应,而GPT-5 则使 ChatGPT 能够代表用户完成各种任务,例如生成软件应用程序、浏览用户日历或创建研究简报。
OpenAI也致力于通过 GPT-5 简化 ChatGPT 的使用。GPT-5 不再要求用户选择正确的设置,而是配备了一个实时路由器,可以决定如何提供最佳答案,无论是快速回复用户问题,还是花费更多时间“思考”答案。
OpenAI 首席执行官 在与记者的吹风会上声称 GPT-5 是“世界上最好的模型”,并表示这代表着该公司在开发能够在最具经济价值的工作上超越人类的人工智能(即通用人工智能 (AGI))的道路上迈出了“重要一步”。
在历史上的任何时候,拥有像 GPT-5 这样的东西都是几乎不可想象的。
从周四开始,GPT-5 将作为 ChatGPT 的所有免费用户默认模型。这是公司首次向免费用户开放 AI 推理模型的努力之一。(此前,该公司将这些更先进的模型置于付费墙之后。)
OpenAI 的长期使命,即让尽可能多的人享受先进的人工智能,确保这些东西真正造福人类。
人们对 GPT-5 寄予厚望,这是 OpenAI 自 2022 年推出 ChatGPT 以来最受期待的产品之一。自那时起,ChatGPT 已发展成为全球最受欢迎的消费产品之一,每周覆盖超过 7 亿用户,据该公司称,这几乎占全球人口的 10%。
许多人将 GPT-5 视为人工智能广泛进步的风向标,而硅谷对该模型的接受程度可能对大型科技公司、华尔街以及监管技术的政策制定者产生深远影响。这些利益相关者正在关注 GPT-5 能否显著提升人工智能的能力,就像其前身 GPT-4 一样,后者挑战了人们对软件功能的预期。
GPT-5 在竞争中略占优势
OpenAI 声称 GPT-5 在多个领域都达到了领先水平,在关键基准测试中略胜 Anthropic、谷歌 DeepMind 和埃隆·马斯克的 xAI 等领先的 AI 模型。然而,GPT-5 在其他领域的表现略逊于前沿 AI 模型。
该公司表示,GPT-5 在编码方面提供了前沿水平的性能;奥特曼表示,该模型尤其擅长按需启动整个软件应用程序,即所谓的“氛围编码”。
在 SWE-bench Verified(一项从 GitHub 获取的真实世界编码任务测试)中,GPT-5 首次尝试得分高达 74.9%。这意味着 GPT-5 的表现略胜于 Anthropic 最新的 Claude Opus 4.1 模型(得分为74.5%)和谷歌 DeepMind 的 Gemini 2.5 Pro(得分为59.6%)。
在“人类的最后考试”(一项衡量数学、人文和自然科学领域人工智能模型表现的难度较高的测试)中,具有扩展推理功能的 GPT-5 版本(GPT-5 Pro)在使用工具的情况下得分为 42%。这一得分略低于 xAI 的Grok 4 Heavy,后者在测试中的得分为 44.4%。
在 GPQA Diamond(一项针对博士级科学问题的测试)中,GPT-5 pro 首次尝试就获得了 89.4% 的得分,超过了得分 80.9% 的 Claude Opus 4.1 和得分 88.9% 的 Grok 4 Heavy。
OpenAI 表示,GPT-5 更适合回答健康相关问题。在 HealthBench Hard Hallucinations 测试中,OpenAI 表示,在衡量 AI 模型在医疗保健主题响应准确度的测试中,GPT-5(具有思考能力)的幻觉出现率仅为 1.6%。这远低于该公司之前的 GPT-4o 和 o3 模型,后两者的得分分别为 12.9% 和 15.8%。
虽然人工智能聊天机器人并非医疗专业人士,但数百万人正在使用它们来获取健康建议。针对这一现象,该公司表示,GPT-5 能够更主动地标记潜在的健康问题,并帮助用户解析医疗结果。
此外,OpenAI 表示,GPT-5 在创意设计和写作等更难衡量的主观领域比其他 AI 模型表现更出色。GPT-5 在创意任务上比其他 AI 模型反应更自然,并且展现出“更佳的品味”。
GPT-5 也比 OpenAI 之前的模型更准确,该公司表示,与 O 系列模型相比,GPT-5 受到幻觉(AI 模型编造信息的倾向)的影响要小得多。在 OpenAI 最新的 AI 推理模型(例如 O3)中,幻觉似乎越来越严重,OpenAI 此前曾表示,它不太理解为什么会出现这种情况。
OpenAI 发现,在 ChatGPT 提示的响应中,GPT-5(具有思考能力)出现幻觉并提供错误信息的概率为 4.8%。这与 GPT-o3 和 GPT-4o 相比显著降低,后两者在测试中的幻觉发生率分别为 22% 和 20.6%。
在衡量AI模型完成模拟在线任务的代理能力的基准测试Tau-bench中,GPT-5的表现参差不齐。在衡量AI浏览航空公司网站能力的测试部分,GPT-5的得分为63.5%,略低于o3的64.8%。在衡量AI浏览零售网站能力的另一部分测试中,GPT-5的得分为81.1%,低于Claude Opus 4.1的82.4%。
OpenAI 还表示,GPT-5 比之前的模型更安全。虽然人工智能推理模型偶尔会表现出针对人类的阴谋或为实现自身目标而撒谎的倾向,但 OpenAI 发现 GPT-5 的欺骗率低于其他模型。
OpenAI 安全研究负责人表示,减少欺骗不仅可以提高 GPT-5 的安全性,还可以提高用户体验,创建一个“更加透明和诚实,让用户可以信任”的模型。
GPT-5 能够更好地识别试图滥用 ChatGPT 的恶意用户和提出无害请求的用户。这使得 GPT-5 能够拒绝更多不安全的问题,同时减少对寻求无害信息的用户的拒绝次数。
为消费者和开发者提供升级
作为 GPT-5 发布的一部分,ChatGPT 的用户体验得到了一些升级。用户现在可以在 ChatGPT 的设置中选择四种新的性格:愤世嫉俗者、机器人、倾听者和书呆子。该公司表示,这些性格将调整 ChatGPT 的响应方式,而无需用户专门要求模型以某种方式响应。
ChatGPT 每月 20 美元的 Plus 套餐订阅用户可获得比免费用户更高的 GPT-5 使用限制。同时,每月 200 美元的 Pro 套餐订阅用户将可以无限制使用 GPT-5,以及名为 GPT-5 Pro 的增强版,该版本使用额外的计算资源来生成更准确的答案。OpenAI 的 Team、Edu 和 Enterprise 套餐用户将于下周将 GPT-5 作为其默认模型。
对于开发者来说,GPT-5 将以三种版本(GPT-5、GPT-5-mini 和 GPT-5-nano)加入 OpenAI 的 API,它们将花费更多或更少的时间进行“推理”任务。开发者现在还可以控制 OpenAI API 中的详细程度,决定 AI 模型的响应时长。
GPT-5 的基础模型将花费开发人员每百万输入令牌 1.25 美元(约 750,000 个单词,比整个《指环王》系列还要长),每百万输出令牌 10 美元。
GPT-5 的发布正值 OpenAI 忙碌的一周之后。该公司发布了一个开放权重推理模型gpt-oss,开发者和企业可以免费下载,并以极低的成本运行。该开放模型的性能几乎与 OpenAI 之前的顶级模型 o3 和 o4-mini 相当,但 GPT-5 在某些领域(例如编码)为前沿性能树立了新的标准。
然而,GPT-5 似乎在多个领域与其他前沿 AI 模型大致相当。当然,基准测试只能反映任何 AI 模型的部分情况,开发者将如何在现实世界中使用 GPT-5,以及该模型是否真正领先于竞争对手,仍有待观察。