通义实验室发布双FreeStyle语音大模型，生僻字读错率大降超六成

AI小创 1 个月前

AI快讯

近日，通义实验室发布两款支持FreeStyle指令生成的语音大模型Fun-CosyVoice3.5与Fun-AudioGen-VD。其中Fun-CosyVoice3.5新增4个语种支持，通过技术优化将生僻字读错率从15.2%降至5.3%，首包延迟降低35%；Fun-AudioGen-VD则聚焦场景化声音建模，两款模型为语音AI的精细化应用与场景拓展提供了新可能。

在有声读物播报、专业学术文献朗读等场景中，生僻字读错一直是困扰语音AI落地的核心难题——据行业调研，传统语音模型对生僻字的读错率普遍超过15%，这不仅影响信息传递的准确性，还可能在文化传播、专业服务等场景下引发误解。

作为通义实验室CosyVoice系列的最新迭代产品，Fun-CosyVoice3.5在多语种覆盖与语音精度上实现了关键突破。此次版本新增4个语种支持，进一步拓宽了跨境语音交互的适用范围；生僻字读错率从15.2%大幅降至5.3%，这一数据意味着专业古籍、学术文献等包含生僻字的内容，也能实现高精度语音播报。同时，模型的首包延迟降低35%，让实时语音交互的响应速度更贴近自然对话的节奏。

更重要的是，Fun-CosyVoice3.5支持FreeStyle指令生成，用户无需依赖固定格式的指令，仅用自然语言就能定制语音的语气、节奏、情感等细节——比如“用沉稳的日语朗读这段包含生僻汉字的历史资料”，模型能精准理解并输出符合要求的语音内容。

如果说Fun-CosyVoice3.5聚焦于“人”的语音表达，那么Fun-AudioGen-VD则瞄准了“环境与场景”的声音构建。这款模型同样支持FreeStyle指令，用户可以通过自由表述，要求模型生成特定场景下的声音组合——比如“模拟雷雨夜晚的小木屋壁炉声，夹杂轻微的书页翻动声”，或者“生成工厂车间里机器运作的背景音，带有轻微的金属碰撞声”。

这种对声音属性的精确控制能力，为内容创作行业打开了新的想象空间。影视后期制作、游戏音效设计、元宇宙场景搭建等领域，以往可能需要花费大量时间录制或编辑声音素材，而Fun-AudioGen-VD能快速生成符合要求的定制化声音，大幅提升创作效率。

AI语音生成语音大模型通义实验室 Fun-CosyVoice3.5 FreeStyle指令

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

AIVocal

AI语音内容创作工具

Speakperfect

AI语音创作助手

Revocalize AI

AI语音生成工具

Kits AI

AI驱动全流程音乐制作

LOVO AI

AI语音视频平台，多语言配音无忧

PlayAI

全球领先的AI语音生成与文本转语音（TTS）平台

Listnr.ai

AI语音生成，多语言TTS工具

百度文库组词造句

百度文库文学智囊团Agent