登录体验完整功能（收藏、点赞、评论等） —

阿里通义推出双语音AI模型，一句话即可操控音色与音频场景

AI小创 1 个月前

AI快讯

收藏

3月2日，阿里通义实验室语音团队发布Fun-CosyVoice3.5和Fun-AudioGen-VD两款语音生成模型，主打FreeStyle自然语言控制能力，用户无需复杂参数即可通过文字指令调控音色风格或构建音频场景。其中Fun-CosyVoice3.5作为迭代升级产品，新增泰语等4种语种支持，将生僻字读错率从15.2%降至5.3%，在多语种复刻领域实现精细化突破。

过去想要调整AI语音生成的音色风格，往往需要在后台反复调试十几种参数，或是严格遵循标准化指令模板——这一技术门槛如今被阿里通义的新成果彻底打破。

两款模型的核心突破性在于全新的FreeStyle指令系统。不同于以往依赖专业参数配置的操作逻辑，用户仅需通过一句自然语言描述，就能精准控制声音的表达风格，或是从零构建完整的音频场景。

比如想要生成一段职场汇报风格的语音，无需输入“语速+10%、情绪强度0.8、风格正式”这类复杂参数，只需一句“语气坚定、语速适中的职场汇报语音”，模型就能立刻输出符合要求的内容；针对音频场景构建，一句“清晨森林里的鸟鸣搭配轻柔的钢琴声”，就能让Fun-AudioGen-VD生成对应的环境音频。

作为经典语音模型CosyVoice的迭代版本，Fun-CosyVoice3.5聚焦多语种音色复刻与精细化控制能力的提升。在语种覆盖上，模型新增泰语、印尼语、葡萄牙语、越南语4种语言支持，目前已覆盖13种主流语种，且在转写准确率（WER）与音色相似度两项核心指标上保持业内领先水平。

人工智能 Fun-CosyVoice3.5 语音生成模型阿里通义自然语言控制

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

相关网站

沁言学术

科研AI写作与文献助手

百度文库组词造句

百度文库文学智囊团Agent

电商差评诊断技能

电商差评诊断AI技能

女娲.skill

蒸馏顶级思维为可调用认知工具

有一云AI

新媒体全流程AI创作提效工具

GPT Image 2

AI生成编辑4K逼真图像

GPTImg

快速生成高质量AI图像

GPT Image 2

一站式AI图像生成与编辑工具

相关资讯

© 2026 AI创作导航. All Rights Reserved.

滇ICP备2026002425号-1 公安备案图标

公安备案图标

滇公网安备 53252802528133号