OpenAI 发布实时 API:快速、无缝的语音对语音体验


7 个月前

用 AI 帮助您撰写书籍
https://authoranything.com/

生成世界上最好的 AI 提示: aitextpromptgenerator.com

立即使用 AI 构建盈利网站
https://getsitepop.com

无

截至今天:

开发者现在可以通过新的 实时 API 来彻底改变他们的应用程序,该 API 现已进入公开测试阶段。这个强大的工具支持 低延迟、多模态的语音对话,使您能够在应用中构建快速、自然的对话,类似于 ChatGPT 的高级语音模式。想象一下,您可以创建客户支持代理、语言学习应用或听起来像人类的语音助手,并实时做出反应。

实时 API 最令人兴奋的方面之一是它的 简单和高效。之前,开发者需要将多个模型串联在一起进行语音识别、推理和文本转语音功能,常常会丢失情感或自然口音等关键元素,并且会出现明显的延迟。现在,通过一次 API 调用,您可以创建流畅自然的对话体验,自动处理中断,以实现人性化的响应。

但这还不是全部。在接下来的几周内,音频输入和输出也将可用于聊天完成 API,专为低延迟不是优先考虑的用例设计。无论您是处理 文本还是音频输入,GPT-4o 都可以以文本、音频或两者形式响应——为开发者提供更多灵活性,以创造创新的体验。

它是如何工作的?

实时 API 使开发者能够与 GPT-4o 创建 持久的 WebSocket 连接,直接流式传输音频输入和输出。这大大减少了延迟,使对话更加自然。功能调用也得到了支持,这意味着您应用中的语音助手可以执行操作、检索数据或根据上下文定制响应——无论是下订单还是调取客户信息。

关键用例:客户支持、语言学习等

早期测试者已经开始利用实时 API 转变他们的平台。以下是一些他们的做法:

  • Healthify,一款营养和健身应用,能够与其 AI 教练 Ria 进行 自然对话,在需要时无缝集成人类营养师。
  • Speak,一款语言学习应用,利用该 API 提供互动 角色扮演场景,让用户在现实生活中练习新语言。

定价和可用性

实时 API 由 GPT-4o 的实时预览版本提供,今天开始向所有付费开发者推出。定价结构围绕 文本和音频令牌。文本输入令牌的费用为每百万 $5,输出令牌为每百万 $20。音频令牌的价格更高,输入为 每百万 $100,输出为 每百万 $200——相当于每分钟输入约 $0.06,每分钟输出约 $0.24。

在接下来的几周内,GPT-4o 音频预览将首次亮相,进一步扩展可能性,允许通过文本和音频进行输入和输出。

安全和隐私保护

与所有 OpenAI 服务一样,实时 API 优先考虑 安全和隐私。该 API 配备了 多重安全层,包括自动和人工审核,以防止滥用。此外,所有交互都受 OpenAI 使用政策的约束,禁止诸如垃圾邮件或误导用户等有害行为。在发布之前,该 API 经过严格的安全风险测试,并顺利通过。

为了增加透明度,OpenAI 不会在未获得用户明确许可的情况下使用实时 API 的输入或输出来训练模型,这符合他们的 企业隐私承诺

接下来会发生什么?

随着 OpenAI 不断改进实时 API,开发者可以期待以下一些功能:

  • 更多模态:该 API 最终将支持 视觉和视频,除了语音之外。
  • 增加速率限制:目前 Tier 5 开发者的 100 个同时会话限制将扩大,以适应更大规模的部署。
  • 官方 SDK 支持:该 API 将集成到 OpenAI 的 Python 和 Node.js SDK 中,使其更易于使用。
  • 提示缓存:一项新功能,允许以折扣价重新处理先前的对话轮次。
  • 扩展模型支持:即将推出的实时 API 版本将支持 GPT-4o mini,为开发者提供更多选择。

今天就开始吧

付费开发者可以立即通过 Playground、官方文档和参考客户端访问 实时 API。OpenAI 还与 LiveKitAgoraTwilio 合作,提供 音频组件 的库,如声音隔离和重新连接,使您的应用能够实现无缝的语音交互。

现在是探索实时 API 的最佳时机,让您的应用音频体验提升到一个新水平。无论您是为 教育客户服务翻译 还是 无障碍 构建,这个 API 都为您打开了令人难以置信的新可能性。深入了解,让您的应用为您发声!

推荐阅读:

FluxAI 中文

© 2025. All Rights Reserved