2026年3月16日,马斯克旗下人工智能公司xAI正式官宣上线大模型Grok的文本转语音(TTS)API,开发者可直接调用封装了Grok标志性“毒舌”幽默调性的语音能力,集成至智能助理、内容生成等各类应用。该功能的上线补齐了Grok的多模态能力缺口,直接对标OpenAI GPT-4o的语音交互能力,标志着大模型语音赛道竞争进入人格化比拼新阶段。
xAI的官宣动态发布后不到两小时,首批拿到测试权限的开发者就放出了demo片段:让Grok语音朗读一段调侃科技公司“造概念”的文案,输出的语音语调自带玩世不恭的调侃感,尾音甚至带了点类似马斯克本人的拖腔,和市面上常见的中性、平稳的AI语音形成强烈反差,相关内容在社交平台的转发量很快突破10万。
去年OpenAI发布GPT-4o时,其低至300毫秒的语音交互延迟,直接把大模型的竞争维度从文本推理拉到了实时多模态交互。对于C端用户而言,语音是比打字更自然的交互方式,智能硬件、车载系统、AI内容生成等场景,都对成熟的TTS能力有刚性需求。
此前Grok仅支持文本交互,一直是xAI生态的明显短板,此次语音API的上线,也意味着Grok正式具备了和GPT-4o、Gemini等头部大模型正面竞争多模态场景的资格。
和其他厂商的TTS API支持自定义音色、语调不同,xAI此次推出的Grok语音API,直接把其在文本交互阶段就打出的“毒舌”“幽默”的人设封装进了语音模型,开发者无需额外调教语气参数,调用接口即可生成符合Grok统一人格的语音内容。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
1 小时前
Rainmaker Securities总裁Glen Anderson最新披露,当前全球私人股权二级市场活跃度创下历史峰值,AI创企Anthropic成为最受追捧的交易标的,同赛道头部企业OpenAI交易热度出现明显下滑,而SpaceX临近的IPO计划,或将对整个一级科技创投市场的资金流向产生颠覆性影响。

6 小时前
谷歌近日面向企业级客户发布全新AI推理管控套件,针对当前企业部署大模型时平均推理成本占AI总支出60%以上、峰值时段服务可用性不足92%的行业痛点,提供动态算力调度、故障自动切换等功能,可帮助企业将推理环节综合成本降低30%左右,同时大幅提升生成式AI服务的运行稳定性。

6 小时前
2026年美国中期选举进入倒计时阶段,头部大模型企业Anthropic近日宣布成立全新政治行动委员会(PAC),计划定向支持认同其分级AI监管、算力资源倾斜、AIGC版权保护等政策议程的议员候选人。此次动作是头部AI企业从技术研发向政策上游延伸的标志性事件,也意味着全球AI行业的政策博弈进入白热化阶段。

6 小时前
据科技媒体The Information及行业分析师Eric Newcomer披露,AI大模型厂商Anthropic已于近期完成对秘密运营的生物科技AI初创公司Coefficient Bio的收购,本次交易为全股票形式,总对价达4亿美元。这是Anthropic首次落地生命科学垂直领域布局,也标志着大模型厂商商业化正加速向生物医药赛道渗透。

6 小时前
近日,AI大模型企业Anthropic宣布为旗下对话式AI产品Claude推出Windows平台本地交互能力,新版本可直接跨应用调取用户邮件、本地存储的各类文档,还能自主执行系统级任务操作。据官方披露,该功能可将文档整理、日程响应类办公流程的处理效率提升45%,无需用户手动上传文件即可完成复杂指令。

6 小时前
谷歌近期推出定价仅3美元的AI算力棒Magic Stick,主打为服役超过5年的老旧Windows、Mac PC提供轻量化AI算力支撑,用户无需更换硬件即可流畅运行Gemini全系AI服务,解决旧设备本地算力不足无法加载大语言模型的痛点。该产品瞄准全球超12亿台服役超期的存量PC市场,最快2024年第四季度正式开售。

6 小时前
美国科技媒体Digital Trends近期发布的行业调查显示,全球已有超6成大中型保险公司引入AI系统负责核保风控、理赔核查等核心业务环节。美国消费者权益组织2024年调研数据显示,37%的拒赔案例由AI算法单独判定,其中42%存在事实认定偏差,相关算法决策的公正性问题已引发多国监管部门重点关注。

17 小时前
谷歌近期正在推进端侧轻量化大模型Gemini Nano 4的终端适配工作,预计2025年第一季度发布的下一代安卓旗舰机型将率先搭载该模型。其端侧推理性能较上一代提升62%,支持离线语音交互、实时图像生成等12项新增本地AI功能,无需上传数据至云端即可完成运算,在隐私安全性、响应速度上均有显著提升。