登录体验完整功能(收藏、点赞、评论等) —

让AI触手可及,让应用激发潜能

谷歌发布Gemini-TTS模型 支持近70种语言可控语音生成

2026年4月,谷歌在Gemini 3.1模型系列中正式推出全新文本转语音(TTS)模型Gemini-TTS,官方将其定位为“迄今最富表现力的文本转语音解决方案”。该模型支持通过自然语言提示词精细调节语音的情感、节奏与风格,覆盖近70种语言,可自动识别输入文本语种,无需开发者手动标注,为全球多语种语音服务开发降低了门槛。

长期以来,传统文本转语音技术都绕不开一个核心痛点:生成语音千篇一律,语气平淡、节奏僵硬,情绪表现力单薄,很难适配有声书、多角色对话、品牌配音等复杂场景。以往开发者想要调整语音风格,往往需要提前录制大量音色样本、单独训练定制模型,时间和资金成本都居高不下。

Gemini-TTS最核心的突破,就是把语音定制的控制权真正交给了开发者。不需要额外训练,只需要输入自然语言提示词,就能精确调控输出语音的各项特征:旁白需要低沉庄重,对话需要轻松自然,甚至具体到哪一句需要停顿、哪里要加强情绪,都可以通过文字描述实现,生成语音的自然度和细腻度相比前代产品提升明显。

除了表现力的升级,Gemini-TTS的多语言适配能力也切中了当下全球化业务的痛点。目前该模型已经覆盖近70种语言,中文普通话、英语、西班牙语、日语等全球主流语种全部在支持列表内。更省心的是,模型自带自动语种识别能力,开发者不需要给输入文本手动标注语种,就能直接生成对应语言的标准语音输出。

!
信息及评测声明: 本文部分信息整理自互联网公开资料,并包含由 AI创作导航 团队独立进行的实测体验。我们力求内容客观准确,但因工具功能、价格及政策可能存在实时调整,所有信息仅供参考,请务必在使用前访问官网确认。文中观点不构成任何决策建议,读者需自行评估和承担使用风险。如发现内容有误或侵权,欢迎随时反馈,我们将及时核实处理。
相关资讯
AI小创