OpenAI 发布三款 GPT-5 级推理语音模型

OpenAI 周三通过其实时 API 发布了三款全新音频模型，致力于让语音应用更智能、支持更多语言，并降低开发者的构建门槛。这三款模型分别为 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper，覆盖实时语音交互中的推理、翻译与转录功能。

Image 5: OpenAI 将允许公司定制其最强大的 AI 模型 - Bloomberg

GPT-5 级推理能力正式登陆语音模型

GPT-Realtime-2 是此次发布的核心亮点，OpenAI 将其描述为"迄今为止最智能的语音模型"，也是公司首款具备 GPT-5 级推理能力的语音模型。该模型支持 128,000 个 token 的上下文窗口，是其前代产品 GPT-Realtime-1.5 的四倍（后者上限为 32,000 个 token），同时支持从最低到最高的可变推理级别。在音频基准测试方面，OpenAI 表示 GPT-Realtime-2 在 Big Bench 上的得分比今年二月发布的 GPT-Realtime-1.5 高出约 15%。

OpenAI 将这款模型定位为一次重要转变——从照本宣科的语音机器人，进化为"能够倾听、推理、并在对话中即时解决复杂问题的实时协作伙伴"。LinkedIn

大规模翻译与转录

GPT-Realtime-Translate 支持超过 70 种输入语言的实时语音翻译，可译成 13 种输出语言，并能与说话者保持同步。GPT-Realtime-Whisper 提供流式语音转文字转录服务，支持可控延迟——较低的延迟设置可更早输出部分文本，而较高的设置则能提升准确率。

GPT-Realtime-2 的起售价为每百万音频输入 token 32 美元。GPT-Realtime-Translate 的定价为每分钟 0.034 美元，GPT-Realtime-Whisper 则为每分钟 0.017 美元。

早期用户反馈测试结果

多家公司参与了早期测试。Zillow 报告称，使用 GPT-Realtime-2 后，通话成功率提升了 26 个百分点，从早期模型的 69% 提高至 95%。BolnaAI 表示，在对印地语、泰米尔语和泰卢固语进行评测时，GPT-Realtime-Translate 将词错误率降低了 12.5%。StreetInsider

OpenAI 表示，该 API 内置了安全机制，包括实时内容分类器，可自动终止违反内容规范的对话，并且该服务符合欧盟数据驻留法规。相关模型现已通过 OpenAI 的 Realtime API 正式上线。