OpenAI 通过实时 API 推出 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,分别具备 GPT-5 级推理、多语言翻译和流式转录能力,开发者可低成本构建智能语音应用。
OpenAI 周三通过其实时 API 发布了三款全新音频模型,致力于让语音应用更智能、支持更多语言,并降低开发者的构建门槛。这三款模型分别为 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,覆盖实时语音交互中的推理、翻译与转录功能。

GPT-Realtime-2 是此次发布的核心亮点,OpenAI 将其描述为"迄今为止最智能的语音模型",也是公司首款具备 GPT-5 级推理能力的语音模型。该模型支持 128,000 个 token 的上下文窗口,是其前代产品 GPT-Realtime-1.5 的四倍(后者上限为 32,000 个 token),同时支持从最低到最高的可变推理级别。在音频基准测试方面,OpenAI 表示 GPT-Realtime-2 在 Big Bench 上的得分比今年二月发布的 GPT-Realtime-1.5 高出约 15%。
OpenAI 将这款模型定位为一次重要转变——从照本宣科的语音机器人,进化为"能够倾听、推理、并在对话中即时解决复杂问题的实时协作伙伴"。LinkedIn



GPT-Realtime-Translate 支持超过 70 种输入语言的实时语音翻译,可译成 13 种输出语言,并能与说话者保持同步。GPT-Realtime-Whisper 提供流式语音转文字转录服务,支持可控延迟——较低的延迟设置可更早输出部分文本,而较高的设置则能提升准确率。
GPT-Realtime-2 的起售价为每百万音频输入 token 32 美元。GPT-Realtime-Translate 的定价为每分钟 0.034 美元,GPT-Realtime-Whisper 则为每分钟 0.017 美元。



多家公司参与了早期测试。Zillow 报告称,使用 GPT-Realtime-2 后,通话成功率提升了 26 个百分点,从早期模型的 69% 提高至 95%。BolnaAI 表示,在对印地语、泰米尔语和泰卢固语进行评测时,GPT-Realtime-Translate 将词错误率降低了 12.5%。StreetInsider
OpenAI 表示,该 API 内置了安全机制,包括实时内容分类器,可自动终止违反内容规范的对话,并且该服务符合欧盟数据驻留法规。相关模型现已通过 OpenAI 的 Realtime API 正式上线。


免费获取企业 AI 成熟度诊断报告,发现转型机会
关注公众号

扫码关注,获取最新 AI 资讯
3 步完成企业诊断,获取专属转型建议
已有 200+ 企业完成诊断