登录体验完整功能(收藏、点赞、评论等) —

让AI触手可及,让应用激发潜能

通义实验室发布双FreeStyle语音大模型,生僻字读错率大降超六成

近日,通义实验室发布两款支持FreeStyle指令生成的语音大模型Fun-CosyVoice3.5与Fun-AudioGen-VD。其中Fun-CosyVoice3.5新增4个语种支持,通过技术优化将生僻字读错率从15.2%降至5.3%,首包延迟降低35%;Fun-AudioGen-VD则聚焦场景化声音建模,两款模型为语音AI的精细化应用与场景拓展提供了新可能。

在有声读物播报、专业学术文献朗读等场景中,生僻字读错一直是困扰语音AI落地的核心难题——据行业调研,传统语音模型对生僻字的读错率普遍超过15%,这不仅影响信息传递的准确性,还可能在文化传播、专业服务等场景下引发误解。

作为通义实验室CosyVoice系列的最新迭代产品,Fun-CosyVoice3.5在多语种覆盖与语音精度上实现了关键突破。此次版本新增4个语种支持,进一步拓宽了跨境语音交互的适用范围;生僻字读错率从15.2%大幅降至5.3%,这一数据意味着专业古籍、学术文献等包含生僻字的内容,也能实现高精度语音播报。同时,模型的首包延迟降低35%,让实时语音交互的响应速度更贴近自然对话的节奏。

更重要的是,Fun-CosyVoice3.5支持FreeStyle指令生成,用户无需依赖固定格式的指令,仅用自然语言就能定制语音的语气、节奏、情感等细节——比如“用沉稳的日语朗读这段包含生僻汉字的历史资料”,模型能精准理解并输出符合要求的语音内容。

如果说Fun-CosyVoice3.5聚焦于“人”的语音表达,那么Fun-AudioGen-VD则瞄准了“环境与场景”的声音构建。这款模型同样支持FreeStyle指令,用户可以通过自由表述,要求模型生成特定场景下的声音组合——比如“模拟雷雨夜晚的小木屋壁炉声,夹杂轻微的书页翻动声”,或者“生成工厂车间里机器运作的背景音,带有轻微的金属碰撞声”。

这种对声音属性的精确控制能力,为内容创作行业打开了新的想象空间。影视后期制作、游戏音效设计、元宇宙场景搭建等领域,以往可能需要花费大量时间录制或编辑声音素材,而Fun-AudioGen-VD能快速生成符合要求的定制化声音,大幅提升创作效率。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯
AI小创