2026年3月16日,马斯克旗下人工智能公司xAI正式官宣上线大模型Grok的文本转语音(TTS)API,开发者可直接调用封装了Grok标志性“毒舌”幽默调性的语音能力,集成至智能助理、内容生成等各类应用。该功能的上线补齐了Grok的多模态能力缺口,直接对标OpenAI GPT-4o的语音交互能力,标志着大模型语音赛道竞争进入人格化比拼新阶段。
xAI的官宣动态发布后不到两小时,首批拿到测试权限的开发者就放出了demo片段:让Grok语音朗读一段调侃科技公司“造概念”的文案,输出的语音语调自带玩世不恭的调侃感,尾音甚至带了点类似马斯克本人的拖腔,和市面上常见的中性、平稳的AI语音形成强烈反差,相关内容在社交平台的转发量很快突破10万。
去年OpenAI发布GPT-4o时,其低至300毫秒的语音交互延迟,直接把大模型的竞争维度从文本推理拉到了实时多模态交互。对于C端用户而言,语音是比打字更自然的交互方式,智能硬件、车载系统、AI内容生成等场景,都对成熟的TTS能力有刚性需求。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录