OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换_人工智能

快科技9月1日消息，OpenAI正式发布语音模型GPT-realtime。

据介绍，GPT-realtime是一款专注于语音AI Agent的多模态模型，能够生成高度自然流畅的语音，精准还原人类语调、情感和语速的丰富变化。该模型支持图像理解，并可结合语音或文本对话使用，非常适合应用于客服、教育、金融、医疗等领域，用于构建高质量的语音智能体。

官方表示，新模型在复杂指令遵循、工具精确调用以及生成更自然、更具表现力的语音方面表现卓越。尤其在重复字母与数字、逐字朗读免责声明、语句间无缝切换语言等场景中，GPT-realtime展现出优秀的适应能力。该模型还具备出色的上下文理解能力，可准确捕捉非语言线索（如笑声），并实时调整语音语气，实现诸如“带法国口音的友好语调”或“语速较快的专业语调”等多样化表达。

此外，GPT-realtime新增了“Cedar”和“Marin”两种语音风格，并对现有八种语音效果进行了全面优化。

本文固定链接: https://x86android.com/articles/63827.html
转载请注明: zhiyongz 2025年09月01日于安卓中文站发表

作者：zhiyongz

安卓中文站站点 QQ交谈

OpenAI发布语音模型GPT-realtim：具备情感感知能力多语言无缝切换

您可能还会对这些文章感兴趣！

《本文》有 0 条评论

留下一个回复取消回复

您可能还会对这些文章感兴趣！

《本文》有 0 条评论

留下一个回复 取消回复

留下一个回复取消回复