少找工具,多做创作

通义实验室发布双FreeStyle语音大模型,生僻字读错率大降超六成

近日,通义实验室发布两款支持FreeStyle指令生成的语音大模型Fun-CosyVoice3.5与Fun-AudioGen-VD。其中Fun-CosyVoice3.5新增4个语种支持,通过技术优化将生僻字读错率从15.2%降至5.3%,首包延迟降低35%;Fun-AudioGen-VD则聚焦场景化声音建模,两款模型为语音AI的精细化应用与场景拓展提供了新可能。

在有声读物播报、专业学术文献朗读等场景中,生僻字读错一直是困扰语音AI落地的核心难题——据行业调研,传统语音模型对生僻字的读错率普遍超过15%,这不仅影响信息传递的准确性,还可能在文化传播、专业服务等场景下引发误解。

作为通义实验室CosyVoice系列的最新迭代产品,Fun-CosyVoice3.5在多语种覆盖与语音精度上实现了关键突破。此次版本新增4个语种支持,进一步拓宽了跨境语音交互的适用范围;生僻字读错率从15.2%大幅降至5.3%,这一数据意味着专业古籍、学术文献等包含生僻字的内容,也能实现高精度语音播报。同时,模型的首包延迟降低35%,让实时语音交互的响应速度更贴近自然对话的节奏。

更重要的是,Fun-CosyVoice3.5支持FreeStyle指令生成,用户无需依赖固定格式的指令,仅用自然语言就能定制语音的语气、节奏、情感等细节——比如“用沉稳的日语朗读这段包含生僻汉字的历史资料”,模型能精准理解并输出符合要求的语音内容。

如果说Fun-CosyVoice3.5聚焦于“人”的语音表达,那么Fun-AudioGen-VD则瞄准了“环境与场景”的声音构建。这款模型同样支持FreeStyle指令,用户可以通过自由表述,要求模型生成特定场景下的声音组合——比如“模拟雷雨夜晚的小木屋壁炉声,夹杂轻微的书页翻动声”,或者“生成工厂车间里机器运作的背景音,带有轻微的金属碰撞声”。

这种对声音属性的精确控制能力,为内容创作行业打开了新的想象空间。影视后期制作、游戏音效设计、元宇宙场景搭建等领域,以往可能需要花费大量时间录制或编辑声音素材,而Fun-AudioGen-VD能快速生成符合要求的定制化声音,大幅提升创作效率。

两款模型均搭载的FreeStyle指令生成能力,是此次技术发布的核心变革点之一。传统语音大模型通常需要用户输入标准化指令,才能输出符合要求的内容;而FreeStyle指令允许用户以更灵活、口语化的方式下达需求,无需学习复杂的指令格式。

这一转变不仅降低了普通用户使用语音AI的门槛,也让专业从业者能更高效地实现创意表达。比如有声书主播可以直接要求“用老年男性的沙哑声音,带着惆怅的语气朗读这段诗词”,而无需拆解成多个标准化指令,这种“所见即所得”的自由创作模式,是语音AI从“工具”向“创作伙伴”转变的重要信号。

目前语音AI已经在智能音箱、在线教育、智能客服等领域实现规模化应用,但精度不足、功能僵化等问题始终制约着行业向更高阶场景渗透。通义实验室此次发布的两款模型,通过针对性的技术优化解决了生僻字读错、首包延迟等实际痛点,同时以FreeStyle指令打破了功能边界,有望推动语音AI进入“精细化定制”的新阶段。

对于垂直行业而言,这类技术升级将直接带来生产效率的提升与用户体验的优化。比如在有声读物行业,生僻字读错率的降低意味着古籍、专业书籍等内容能更精准地传递文化与知识;在跨境电商领域,多语种语音复刻与精细化表达能力,能为海外用户提供更贴近本土的客服体验。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
所属分类
相关资讯