3月2日,阿里通义实验室语音团队发布Fun-CosyVoice3.5和Fun-AudioGen-VD两款语音生成模型,主打FreeStyle自然语言控制能力,用户无需复杂参数即可通过文字指令调控音色风格或构建音频场景。其中Fun-CosyVoice3.5作为迭代升级产品,新增泰语等4种语种支持,将生僻字读错率从15.2%降至5.3%,在多语种复刻领域实现精细化突破。
过去想要调整AI语音生成的音色风格,往往需要在后台反复调试十几种参数,或是严格遵循标准化指令模板——这一技术门槛如今被阿里通义的新成果彻底打破。
两款模型的核心突破性在于全新的FreeStyle指令系统。不同于以往依赖专业参数配置的操作逻辑,用户仅需通过一句自然语言描述,就能精准控制声音的表达风格,或是从零构建完整的音频场景。
比如想要生成一段职场汇报风格的语音,无需输入“语速+10%、情绪强度0.8、风格正式”这类复杂参数,只需一句“语气坚定、语速适中的职场汇报语音”,模型就能立刻输出符合要求的内容;针对音频场景构建,一句“清晨森林里的鸟鸣搭配轻柔的钢琴声”,就能让Fun-AudioGen-VD生成对应的环境音频。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录