【OpenAI 推出 gpt-realtime 语音对话模型:支持情感感知、多语言无缝切换】萍聚社区-德国热线-德国实用信息网人工智能

多客科技 发表于 2025-8-29 09:40

OpenAI 推出 gpt-realtime 语音对话模型:支持情感感知、多语言无缝切换

作者：微信文章
8 月 29 日消息，OpenAI 已将其「Realtime API」正式投入生产环境，将其移出测试阶段（Beta）。

这款 API 主要面向企业与开发者群体，旨在助力他们开发适用于实际场景的语音助手，覆盖客户支持、教育、个人效率提升等领域。其核心组件「gpt-realtime」模型采用端到端 Speech-to-Speech 架构，可直接生成并处理语音，省去了常规的文本转换步骤。据 OpenAI 介绍，相比前代版本，该模型响应速度更快、语音更自然，对复杂指令的处理能力也更强。

OpenAI 表示，目前 gpt-realtime 模型能够捕捉笑声等非语言信号，支持对话过程中中途切换语言，还可调整语音语气——例如实现「带法国口音的友好语调」或「语速较快的专业语调」。此外，该模型新增了「Cedar」和「Marin」两种语音，并对现有的 8 种语音效果进行了优化。

在性能基准测试中，gpt-realtime 模型表现显著提升：在 Big Bench Audio 基准测试中准确率从 65.6% 升至 82.8%，在 MultiChallenge 基准测试中从 20.6% 升至 30.5%，在 ComplexFuncBench 基准测试中则从 49.7% 提升至 66.5%。（来源：IT 之家）

页: [1]

萍聚社区-德国热线-德国实用信息网's Archiver

OpenAI 推出 gpt-realtime 语音对话模型:支持情感感知、多语言无缝切换