近日,通义实验室发布两款支持FreeStyle指令生成的语音大模型Fun-CosyVoice3.5与Fun-AudioGen-VD。其中Fun-CosyVoice3.5新增4个语种支持,通过技术优化将生僻字读错率从15.2%降至5.3%,首包延迟降低35%;Fun-AudioGen-VD则聚焦场景化声音建模,两款模型为语音AI的精细化应用与场景拓展提供了新可能。
在有声读物播报、专业学术文献朗读等场景中,生僻字读错一直是困扰语音AI落地的核心难题——据行业调研,传统语音模型对生僻字的读错率普遍超过15%,这不仅影响信息传递的准确性,还可能在文化传播、专业服务等场景下引发误解。
作为通义实验室CosyVoice系列的最新迭代产品,Fun-CosyVoice3.5在多语种覆盖与语音精度上实现了关键突破。此次版本新增4个语种支持,进一步拓宽了跨境语音交互的适用范围;生僻字读错率从15.2%大幅降至5.3%,这一数据意味着专业古籍、学术文献等包含生僻字的内容,也能实现高精度语音播报。同时,模型的首包延迟降低35%,让实时语音交互的响应速度更贴近自然对话的节奏。
更重要的是,Fun-CosyVoice3.5支持FreeStyle指令生成,用户无需依赖固定格式的指令,仅用自然语言就能定制语音的语气、节奏、情感等细节——比如“用沉稳的日语朗读这段包含生僻汉字的历史资料”,模型能精准理解并输出符合要求的语音内容。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录