少找工具,多做创作

阿里通义推出双语音AI模型,一句话即可操控音色与音频场景

3月2日,阿里通义实验室语音团队发布Fun-CosyVoice3.5和Fun-AudioGen-VD两款语音生成模型,主打FreeStyle自然语言控制能力,用户无需复杂参数即可通过文字指令调控音色风格或构建音频场景。其中Fun-CosyVoice3.5作为迭代升级产品,新增泰语等4种语种支持,将生僻字读错率从15.2%降至5.3%,在多语种复刻领域实现精细化突破。

过去想要调整AI语音生成的音色风格,往往需要在后台反复调试十几种参数,或是严格遵循标准化指令模板——这一技术门槛如今被阿里通义的新成果彻底打破。

两款模型的核心突破性在于全新的FreeStyle指令系统。不同于以往依赖专业参数配置的操作逻辑,用户仅需通过一句自然语言描述,就能精准控制声音的表达风格,或是从零构建完整的音频场景。

比如想要生成一段职场汇报风格的语音,无需输入“语速+10%、情绪强度0.8、风格正式”这类复杂参数,只需一句“语气坚定、语速适中的职场汇报语音”,模型就能立刻输出符合要求的内容;针对音频场景构建,一句“清晨森林里的鸟鸣搭配轻柔的钢琴声”,就能让Fun-AudioGen-VD生成对应的环境音频。

作为经典语音模型CosyVoice的迭代版本,Fun-CosyVoice3.5聚焦多语种音色复刻与精细化控制能力的提升。在语种覆盖上,模型新增泰语、印尼语、葡萄牙语、越南语4种语言支持,目前已覆盖13种主流语种,且在转写准确率(WER)与音色相似度两项核心指标上保持业内领先水平。

针对中文语音生成的痛点,团队还对生僻字发音进行专项调优,将生僻字读错率从15.2%大幅降至5.3%,解决了古籍朗读、专业术语播报等场景下的发音不准确问题。此外,模型对语音的细节控制能力进一步加强,用户可通过自然语言指令灵活调整语速、语调甚至地域口音特征,实现“千人千声”的个性化语音生成。

此次发布的两款模型形成了互补的产品矩阵:Fun-CosyVoice3.5专注于高质量的人声生成与风格调控,满足有声书制作、智能客服、虚拟人配音等以人声为核心的场景;而Fun-AudioGen-VD则主打音频场景的构建,能够将人声与背景音效、环境音进行自然融合,为短视频配乐、游戏音效设计、有声剧制作等提供一站式解决方案。

这种双模型协同的布局,意味着用户无需在多个工具间切换,仅通过一套自然语言指令,就能完成从单一语音生成到复杂音频场景搭建的全流程操作,进一步降低了AI语音技术的应用门槛。

随着语音AI技术从“能用”向“好用”升级,自然语言控制将成为未来语音生成工具的核心标配。阿里通义此次发布的双模型,不仅在技术精度上实现突破,更通过FreeStyle指令系统拉近了普通用户与AI语音技术的距离,或将推动语音生成在更多垂直领域的规模化落地。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
所属分类
相关资讯