登录体验完整功能(收藏、点赞、评论等) — 已累计有 12570 人加入

谷歌发布Gemini-TTS模型 支持近70种语言可控语音生成

详情页推荐

2026年4月,谷歌在Gemini 3.1模型系列中正式推出全新文本转语音(TTS)模型Gemini-TTS,官方将其定位为“迄今最富表现力的文本转语音解决方案”。该模型支持通过自然语言提示词精细调节语音的情感、节奏与风格,覆盖近70种语言,可自动识别输入文本语种,无需开发者手动标注,为全球多语种语音服务开发降低了门槛。

长期以来,传统文本转语音技术都绕不开一个核心痛点:生成语音千篇一律,语气平淡、节奏僵硬,情绪表现力单薄,很难适配有声书、多角色对话、品牌配音等复杂场景。以往开发者想要调整语音风格,往往需要提前录制大量音色样本、单独训练定制模型,时间和资金成本都居高不下。

Gemini-TTS最核心的突破,就是把语音定制的控制权真正交给了开发者。不需要额外训练,只需要输入自然语言提示词,就能精确调控输出语音的各项特征:旁白需要低沉庄重,对话需要轻松自然,甚至具体到哪一句需要停顿、哪里要加强情绪,都可以通过文字描述实现,生成语音的自然度和细腻度相比前代产品提升明显。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。