登录体验完整功能(收藏、点赞、评论等) — 已累计有 8981 人加入

让AI触手可及,让应用激发潜能

马斯克旗下xAI上线Grok语音API 多模态交互赛道竞争升级

2026年3月18日,马斯克旗下人工智能公司xAI正式上线Grok文本转语音Speech API,面向所有开发者开放调用权限。此前xAI已完成2025年5月Grok语音模式上线、2026年2月Grok4.2候选版公测的两次迭代,此次API落地标志着xAI正式向OpenAI等头部玩家的多模态业务发起冲击,也将推动人机交互生态向更拟人化方向发展。

此次开放的Grok文本转语音Speech API,支持任意文本内容的高自然度语音转换,响应延迟控制在300毫秒以内,同时提供6种差异化音色选择,覆盖日常对话、有声内容制作、智能客服等多类场景。开发者仅需通过极简接口调用,即可为自身应用搭载Grok的全链路语音交互能力,无需单独投入语音模型的训练与运维成本。

事实上xAI在语音领域的布局已经筹备超过一年,节奏远超行业平均水平:2025年5月,Grok语音模式首次面向高级订阅用户开放,主打带情绪感知的交互能力,当时内测数据显示其语音情感匹配度较行业平均水平高出12%;2026年2月,Grok4.2候选版开放公测,进一步优化了长文本断句、场景化语气适配等能力;此次API的全面开放,也意味着xAI完成了从C端用户功能到B端开发者服务的能力覆盖,直接对标OpenAI旗下TTS语音接口的核心业务。

AI语音接口已经成为当前开发者生态的核心必争之地。随着多模态应用成为行业标配,不管是智能硬件、教育APP还是企业服务系统,都对自然流畅的语音交互能力有刚性需求。此前全球开发者的选择相对集中,OpenAI的TTS接口占据近40%的市场份额,但其定价偏高、部分区域访问受限的问题也一直被诟病。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯