2026年4月,谷歌在Gemini 3.1模型系列中正式推出全新文本转语音(TTS)模型Gemini-TTS,官方将其定位为“迄今最富表现力的文本转语音解决方案”。该模型支持通过自然语言提示词精细调节语音的情感、节奏与风格,覆盖近70种语言,可自动识别输入文本语种,无需开发者手动标注,为全球多语种语音服务开发降低了门槛。
长期以来,传统文本转语音技术都绕不开一个核心痛点:生成语音千篇一律,语气平淡、节奏僵硬,情绪表现力单薄,很难适配有声书、多角色对话、品牌配音等复杂场景。以往开发者想要调整语音风格,往往需要提前录制大量音色样本、单独训练定制模型,时间和资金成本都居高不下。
Gemini-TTS最核心的突破,就是把语音定制的控制权真正交给了开发者。不需要额外训练,只需要输入自然语言提示词,就能精确调控输出语音的各项特征:旁白需要低沉庄重,对话需要轻松自然,甚至具体到哪一句需要停顿、哪里要加强情绪,都可以通过文字描述实现,生成语音的自然度和细腻度相比前代产品提升明显。
除了表现力的升级,Gemini-TTS的多语言适配能力也切中了当下全球化业务的痛点。目前该模型已经覆盖近70种语言,中文普通话、英语、西班牙语、日语等全球主流语种全部在支持列表内。更省心的是,模型自带自动语种识别能力,开发者不需要给输入文本手动标注语种,就能直接生成对应语言的标准语音输出。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
1 分钟前
2026年4月16日,国内AI公司MiniMax(稀宇科技)正式发布全球首个云端AI智能体沙箱MaxHermes。该产品基于自研Hermes Agent框架搭建,以MiniMax M2.7大模型为技术底座,核心创新为自主进化学习闭环机制,可在完成任务后自动提炼可复用技能,依托用户反馈持续迭代能力,打破了传统AI能力固定、需手动配置的行业痛点,工具调用准确度已达行业领先水平。

5 分钟前
2026年4月16日,腾讯正式推出并开源混元3D世界模型2.0(HY-World2.0),该模型支持文本、图片、视频多模态输入,可自动生成、重建可编辑3D资产,兼容Mesh、3DGS、点云多种导出格式,能够无缝对接现有游戏开发工作流,可帮助开发者快速生成游戏地图与关卡原型,大幅降低3D场景创作门槛,标志着AI生成3D内容技术向产业落地迈出重要一步。

7 分钟前
4月16日,腾讯正式发布并开源混元3D世界模型2.0(HY-World 2.0),这是一款面向3D内容生成的多模态世界模型,支持文字、图片、视频等多种输入形式,可自动生成、重建并动态模拟完整3D场景。该模型输出可二次编辑的Mesh、3DGS、点云等资产,能无缝导入Unity、UE等主流游戏引擎,可大幅降低游戏地图、关卡的开发门槛。本文由江宇撰写,梳理这项技术开源的行业价值。

15 分钟前
2026年4月,人工智能企业Anthropic推出具备超强安全漏洞发现能力的全新大模型Mythos,为防范该能力被恶意利用,公司正式启动Project Glasswing计划,邀请包括亚马逊AWS、苹果、谷歌、微软在内的50余家全球科技行业合作伙伴参与测试,提前排查修复自身产品的安全隐患。目前VulnCheck研究员Patrick Garrity指出,该计划的具体漏洞发现成果尚无公开确凿数据。

21 分钟前
人工智能教育科技公司Gizmo近日宣布完成2200万美元A轮融资,本轮融资由Shine Capital领投,多家知名风投机构跟投。自2021年面市以来,这款AI学习产品已吸引全球120多个国家超1300万用户,Gizmo计划将融资用于扩充AI技术团队,重点拓展美国高校市场,破解年轻学生的学习痛点。

24 分钟前
2026年4月开幕的第139届广交会上,中国家电品牌海尔推出搭载行业首创AI之眼技术的V12智能洗衣机新品。该AI技术可实现洗衣全流程主动智能干预,搭配风巡航Pro、精华洗技术适配欧洲用户洗护需求,计划于2026年下半年正式出口欧洲市场。目前海尔洗衣机已拿下欧洲中国出海品牌销量、销额双第一,也是唯一获德国Stiwa最高认证的中国洗衣机品牌。

25 分钟前
2026年4月16日,港交所挂牌上市(股票代码00100.HK)的人工智能公司MiniMax正式推出全球首个云端AI沙箱MaxHermes。该产品基于Hermes Agent框架构建,调用MiniMax最新自研的M2.7编程模型,核心创新为自主学习闭环机制,可脱离人工预设从复杂任务中提炼可复用技能,实现技能库动态扩容与自我迭代,打破了传统智能体依赖人工预置能力的行业现状。

27 分钟前
2026年4月15日,Adobe正式宣布推出具备自主决策能力的Firefly AI Assistant创作智能体,该工具可跨Photoshop、Premiere等多款Creative Cloud核心应用自主完成创作任务,支持自然语言交互,可学习用户创作偏好并集成审阅功能,目前已面向Beta测试者开放,有望重构传统创意工作流,压缩创作到交付的流程耗时。