少找工具,多做创作

通义实验室发布Fun系列语音双模型,支持自然语言指令自由生成

3月2日,阿里通义实验室正式发布Fun-CosyVoice3.5与Fun-AudioGen-VD两款语音大模型,首次支持FreeStyle自然语言指令交互,实现“一句话生成语音”的自由体验。其中Fun-CosyVoice3.5新增4个语种支持,通过强化学习技术将生僻字读错率从15.2%降至5.3%,首包延迟降低35%。

想象一下,无需设置复杂的音色标签、语调参数,只需说出“用慵懒的印尼语念一首热带小诗,背景混着海浪声”,就能直接生成符合要求的语音内容——这正是通义实验室最新发布的FreeStyle语音大模型带来的全新体验。

此前,多数语音生成模型依赖预设的音色、语调、语种等标签参数,用户需要在有限选项中组合调整,难以实现个性化的自由表达。而此次发布的两款模型均支持FreeStyle自然语言指令,用户只需用日常语言描述需求,就能触发深度交互,真正实现“一句话自由生成语音”的愿景。这种模式将语音生成的门槛从“专业参数设置”拉低至“自然语言表达”,为普通用户打开了语音内容创作的大门。

作为语音复刻与多语种表达的核心模型,Fun-CosyVoice3.5在原有基础上完成了两大关键升级。一方面,新增泰语、印尼语等4个语种支持,进一步拓展了多语种语音生成的覆盖范围,满足跨区域内容创作的需求;另一方面,通过引入DiffRO与GRPO强化学习技术,模型的精细化表达能力大幅提升:生僻字读错率从15.2%直接降至5.3%,首包延迟降低35%,既保证了专业文本的朗读准确性,又优化了实时交互的流畅度。

与专注语音朗读的Fun-CosyVoice3.5形成互补,Fun-AudioGen-VD则聚焦于场景化声音的一体化生成。它支持通过自然语言指令精确控制角色性别、情绪强度,甚至空间声学效果——比如用户只需指令“生成疯狂反派的咆哮声,背景是热闹的咖啡馆环境音”,模型就能直接输出融合角色语音与场景背景的完整音频,无需分步骤生成再拼接。这种一体化的场景生成能力,为有声剧、游戏配音、广告音频等领域提供了更高效的解决方案。

从单一语种到多语种覆盖,从标签控制到自然语言交互,通义实验室的双模型发布,本质上是语音大模型向“以人为中心”交互逻辑的靠拢。未来,随着多模态技术的进一步融合,语音模型或许能实现“看文生声”“看图配声”的更复杂交互,在教育、娱乐、企业服务等场景释放更大价值。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
所属分类
相关资讯