登录体验完整功能(收藏、点赞、评论等) — 立即登录

少找工具,多做创作

马斯克xAI上线Grok语音API 大模型语音交互赛道再升温

2026年3月16日,马斯克旗下人工智能公司xAI正式官宣上线大模型Grok的文本转语音(TTS)API,开发者可直接调用封装了Grok标志性“毒舌”幽默调性的语音能力,集成至智能助理、内容生成等各类应用。该功能的上线补齐了Grok的多模态能力缺口,直接对标OpenAI GPT-4o的语音交互能力,标志着大模型语音赛道竞争进入人格化比拼新阶段。

xAI的官宣动态发布后不到两小时,首批拿到测试权限的开发者就放出了demo片段:让Grok语音朗读一段调侃科技公司“造概念”的文案,输出的语音语调自带玩世不恭的调侃感,尾音甚至带了点类似马斯克本人的拖腔,和市面上常见的中性、平稳的AI语音形成强烈反差,相关内容在社交平台的转发量很快突破10万。

去年OpenAI发布GPT-4o时,其低至300毫秒的语音交互延迟,直接把大模型的竞争维度从文本推理拉到了实时多模态交互。对于C端用户而言,语音是比打字更自然的交互方式,智能硬件、车载系统、AI内容生成等场景,都对成熟的TTS能力有刚性需求。

此前Grok仅支持文本交互,一直是xAI生态的明显短板,此次语音API的上线,也意味着Grok正式具备了和GPT-4o、Gemini等头部大模型正面竞争多模态场景的资格。

和其他厂商的TTS API支持自定义音色、语调不同,xAI此次推出的Grok语音API,直接把其在文本交互阶段就打出的“毒舌”“幽默”的人设封装进了语音模型,开发者无需额外调教语气参数,调用接口即可生成符合Grok统一人格的语音内容。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创