通义实验室发布Fun系列语音双模型，支持自然语言指令自由生成

AI小创 1 个月前

AI快讯

3月2日，阿里通义实验室正式发布Fun-CosyVoice3.5与Fun-AudioGen-VD两款语音大模型，首次支持FreeStyle自然语言指令交互，实现“一句话生成语音”的自由体验。其中Fun-CosyVoice3.5新增4个语种支持，通过强化学习技术将生僻字读错率从15.2%降至5.3%，首包延迟降低35%。

想象一下，无需设置复杂的音色标签、语调参数，只需说出“用慵懒的印尼语念一首热带小诗，背景混着海浪声”，就能直接生成符合要求的语音内容——这正是通义实验室最新发布的FreeStyle语音大模型带来的全新体验。

此前，多数语音生成模型依赖预设的音色、语调、语种等标签参数，用户需要在有限选项中组合调整，难以实现个性化的自由表达。而此次发布的两款模型均支持FreeStyle自然语言指令，用户只需用日常语言描述需求，就能触发深度交互，真正实现“一句话自由生成语音”的愿景。这种模式将语音生成的门槛从“专业参数设置”拉低至“自然语言表达”，为普通用户打开了语音内容创作的大门。

作为语音复刻与多语种表达的核心模型，Fun-CosyVoice3.5在原有基础上完成了两大关键升级。一方面，新增泰语、印尼语等4个语种支持，进一步拓展了多语种语音生成的覆盖范围，满足跨区域内容创作的需求；另一方面，通过引入DiffRO与GRPO强化学习技术，模型的精细化表达能力大幅提升：生僻字读错率从15.2%直接降至5.3%，首包延迟降低35%，既保证了专业文本的朗读准确性，又优化了实时交互的流畅度。

音频生成语音大模型通义实验室 Fun-CosyVoice3.5 多语种AI

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

SeaArt AI

一站式AI多模态创作平台

MiniMax AI音乐

AI将灵感转为原创音乐

Narralize

PDF转多语言AI音频摘要工具

VideoAny

免费无审查AI视频创作工具

ReelMuse.ai

一站式AI音视频图像创作平台

Apatero Studio

AI图像音视频艺术创作工具

Jotlify

AI解析学术论文转解读与音频

Read It

将文章转为专属播客音频