前途科技前途科技
  • 洞察
  • 服务
  • 关于
  • AI 资讯
    • 快讯
    • 产品
    • 技术
    • 商业
    • 政策
    • 初创
  • 洞察
  • 资源中心
    • 深度研究
      • AI 前沿
      • 案例研究
      • AI 知识库
    • 行业报告
      • 白皮书
      • 行业报告
      • 研究报告
      • 技术分享
      • 专题报告
    • 精选案例
      • 金融行业
      • 医疗行业
      • 教育行业
      • 零售行业
      • 制造行业
  • 服务
  • 关于
联系我们

OpenAI 发布三款 GPT-5 级推理语音模型

产品2026年5月8日· 原作者:AccessPath 研究院· 3 分钟阅读0 阅读

OpenAI 通过实时 API 推出 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,分别具备 GPT-5 级推理、多语言翻译和流式转录能力,开发者可低成本构建智能语音应用。

OpenAI 周三通过其实时 API 发布了三款全新音频模型,致力于让语音应用更智能、支持更多语言,并降低开发者的构建门槛。这三款模型分别为 GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,覆盖实时语音交互中的推理、翻译与转录功能。

Image 5: OpenAI 将允许公司定制其最强大的 AI 模型 - Bloomberg

GPT-5 级推理能力正式登陆语音模型

GPT-Realtime-2 是此次发布的核心亮点,OpenAI 将其描述为"迄今为止最智能的语音模型",也是公司首款具备 GPT-5 级推理能力的语音模型。该模型支持 128,000 个 token 的上下文窗口,是其前代产品 GPT-Realtime-1.5 的四倍(后者上限为 32,000 个 token),同时支持从最低到最高的可变推理级别。在音频基准测试方面,OpenAI 表示 GPT-Realtime-2 在 Big Bench 上的得分比今年二月发布的 GPT-Realtime-1.5 高出约 15%。

OpenAI 将这款模型定位为一次重要转变——从照本宣科的语音机器人,进化为"能够倾听、推理、并在对话中即时解决复杂问题的实时协作伙伴"。LinkedIn

Image 6
Image 7
Image 8

大规模翻译与转录

GPT-Realtime-Translate 支持超过 70 种输入语言的实时语音翻译,可译成 13 种输出语言,并能与说话者保持同步。GPT-Realtime-Whisper 提供流式语音转文字转录服务,支持可控延迟——较低的延迟设置可更早输出部分文本,而较高的设置则能提升准确率。

GPT-Realtime-2 的起售价为每百万音频输入 token 32 美元。GPT-Realtime-Translate 的定价为每分钟 0.034 美元,GPT-Realtime-Whisper 则为每分钟 0.017 美元。

Image 9
Image 10
Image 11

早期用户反馈测试结果

多家公司参与了早期测试。Zillow 报告称,使用 GPT-Realtime-2 后,通话成功率提升了 26 个百分点,从早期模型的 69% 提高至 95%。BolnaAI 表示,在对印地语、泰米尔语和泰卢固语进行评测时,GPT-Realtime-Translate 将词错误率降低了 12.5%。StreetInsider

OpenAI 表示,该 API 内置了安全机制,包括实时内容分类器,可自动终止违反内容规范的对话,并且该服务符合欧盟数据驻留法规。相关模型现已通过 OpenAI 的 Realtime API 正式上线。

Image 12
Image 13

标签:OpenAI语音模型实时 API
A
AccessPath 研究院

研究团队

AccessPath AI 咨询研究团队,专注企业 AI 战略与应用研究

查看全部文章

想了解 AI 如何助力您的企业?

免费获取企业 AI 成熟度诊断报告,发现转型机会

//

24小时热榜

Skill 是怎么悄悄变成 SOP 的?
TOP1

Skill 是怎么悄悄变成 SOP 的?

Instagram将取消私信加密,隐私承诺再落空
TOP2

Instagram将取消私信加密,隐私承诺再落空

3

1G内存检索2500万向量,Milvus中如何用FLAT在强标量过滤场景搞定毫秒响应?

1小时前
1G内存检索2500万向量,Milvus中如何用FLAT在强标量过滤场景搞定毫秒响应?
4

Anthropic发布将Claude思维转化为纯文本的新方法

1小时前
5

OpenAI 发布三款 GPT-5 级推理语音模型

1小时前
OpenAI 发布三款 GPT-5 级推理语音模型
6

苹果带摄像头AirPods进入设计验证阶段

1小时前
苹果带摄像头AirPods进入设计验证阶段
7

芯片供应短缺笼罩,Arm股价大跌

1小时前
芯片供应短缺笼罩,Arm股价大跌
8

微软 Copilot 负责人:表现不佳的功能就该撤掉

1小时前
微软 Copilot 负责人:表现不佳的功能就该撤掉
热门标签
大模型AgentRAG微调私有化部署Prompt EngineeringChatGPTClaudeDeepSeek智能客服知识管理内容生成代码辅助数据分析金融零售制造医疗教育AI 战略数字化转型ROI 分析OpenAIAnthropicGoogle

关注公众号

前途科技微信公众号

扫码关注,获取最新 AI 资讯

免费获取 AI 落地指南

3 步完成企业诊断,获取专属转型建议

已有 200+ 企业完成诊断

前途科技前途科技
服务关于快讯技术商业报告
前途科技微信公众号

微信公众号

扫码关注

Copyright © 2026 AccessPath.com, 前途国际科技咨询(北京)有限公司,版权所有。|京ICP备17045010号-1|京公网安备 11010502033860号|隐私政策|服务条款