🎙️ 前言
刚刚OpenAI推出了三种新的语音模型,可以精细控制AI语调、情感,更富有人性,还建立了新的网站 OpenAI.fm,让大家尝试和体验,你们说AI以后是不是更像人了。
🚀 三大核心模型
语音转文本
GPT-4o-transcribe
:支持多语言转录,准确率超越WhisperGPT-4o-mini-transcribe
:轻量版模型,性价比提升50%
文本转语音
http://OpenAI.fm
GPT-4o-mini-tts
:让开发者可以精细控制 AI 的发声方式,包括语调、情感等,打造更富有人性的声音体验。OpenAI 为该模型建立了新的网站http://OpenAI.fm
,供开发人员尝试和体验。(老余抖音号:58931742753)
小小鱼儿小小林
.博客原文:https://yujianlin.blog.csdn.net/article/details/146418341
开发套件
全新Agent SDK
:深度整合了 OpenAI 最新的「语音转文本」和「文本转语音」模型,支持双向流式传输,优化了语音交互的流畅性,并提供了丰富的示例代码和详尽的文档。
💡 开发方案对比
方案一:实时直连
- 语音→语音端到端处理,让 AI 直接理解音频并输出语音
- 延迟低至200ms,适合实时场景
方案二:链式调用
- 语音→文本→AI处理→语音合成返回
- 该方案具有模块化设计|可靠性提升30%|开发难度降低
//.小小鱼儿小小林
//.博客原文:https://yujianlin.blog.csdn.net/article/details/146418341
🔧 技术突破
- 新音频模型基于
GPT-4o
和GPT-4o-mini
架构,在专门的以音频为中心的数据集上进行了广泛的预训练,以优化模型性能 - 增强蒸馏技术,使知识从最大的音频模型转移到更小、更高效的模型,有助于小型模型提供出色的对话质量和响应能力
- 对于语音转文本模型,集成了强化学习(RL-heavy)重度范式,优化转录准确度
- 幻觉问题减少60%,FLEURS基准提升42%。(老余抖音号:58931742753)
💰 价格体系
📝 语音转文本:
GPT-4o-transcribe
:0.6¢/分钟
GPT-4o-mini-transcribe
:0.3¢/分钟
🔊 文本转语音:
GPT-4o-mini-tts
:1¢/分钟