登录体验完整功能(收藏、点赞、评论等) —

让AI触手可及,让应用激发潜能

阿里通义推出双语音AI模型,一句话即可操控音色与音频场景

3月2日,阿里通义实验室语音团队发布Fun-CosyVoice3.5和Fun-AudioGen-VD两款语音生成模型,主打FreeStyle自然语言控制能力,用户无需复杂参数即可通过文字指令调控音色风格或构建音频场景。其中Fun-CosyVoice3.5作为迭代升级产品,新增泰语等4种语种支持,将生僻字读错率从15.2%降至5.3%,在多语种复刻领域实现精细化突破。

过去想要调整AI语音生成的音色风格,往往需要在后台反复调试十几种参数,或是严格遵循标准化指令模板——这一技术门槛如今被阿里通义的新成果彻底打破。

两款模型的核心突破性在于全新的FreeStyle指令系统。不同于以往依赖专业参数配置的操作逻辑,用户仅需通过一句自然语言描述,就能精准控制声音的表达风格,或是从零构建完整的音频场景。

比如想要生成一段职场汇报风格的语音,无需输入“语速+10%、情绪强度0.8、风格正式”这类复杂参数,只需一句“语气坚定、语速适中的职场汇报语音”,模型就能立刻输出符合要求的内容;针对音频场景构建,一句“清晨森林里的鸟鸣搭配轻柔的钢琴声”,就能让Fun-AudioGen-VD生成对应的环境音频。

作为经典语音模型CosyVoice的迭代版本,Fun-CosyVoice3.5聚焦多语种音色复刻与精细化控制能力的提升。在语种覆盖上,模型新增泰语、印尼语、葡萄牙语、越南语4种语言支持,目前已覆盖13种主流语种,且在转写准确率(WER)与音色相似度两项核心指标上保持业内领先水平。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯
AI小创