多客科技 发表于 2025-8-29 10:40

OpenAI 推出 gpt-realtime 语音对话模型:支持情感感知、多语言无缝切换

作者:微信文章
8 月 29 日消息,OpenAI 已将其「Realtime API」正式投入生产环境,将其移出测试阶段(Beta)。

这款 API 主要面向企业与开发者群体,旨在助力他们开发适用于实际场景的语音助手,覆盖客户支持、教育、个人效率提升等领域。其核心组件「gpt-realtime」模型采用端到端 Speech-to-Speech 架构,可直接生成并处理语音,省去了常规的文本转换步骤。据 OpenAI 介绍,相比前代版本,该模型响应速度更快、语音更自然,对复杂指令的处理能力也更强。



OpenAI 表示,目前 gpt-realtime 模型能够捕捉笑声等非语言信号,支持对话过程中中途切换语言,还可调整语音语气——例如实现「带法国口音的友好语调」或「语速较快的专业语调」。此外,该模型新增了「Cedar」和「Marin」两种语音,并对现有的 8 种语音效果进行了优化。

在性能基准测试中,gpt-realtime 模型表现显著提升:在 Big Bench Audio 基准测试中准确率从 65.6% 升至 82.8%,在 MultiChallenge 基准测试中从 20.6% 升至 30.5%,在 ComplexFuncBench 基准测试中则从 49.7% 提升至 66.5%。(来源:IT 之家)
页: [1]
查看完整版本: OpenAI 推出 gpt-realtime 语音对话模型:支持情感感知、多语言无缝切换