近日,通义实验室发布两款支持FreeStyle指令生成的语音大模型Fun-CosyVoice3.5与Fun-AudioGen-VD。其中Fun-CosyVoice3.5新增4个语种支持,通过技术优化将生僻字读错率从15.2%降至5.3%,首包延迟降低35%;Fun-AudioGen-VD则聚焦场景化声音建模,两款模型为语音AI的精细化应用与场景拓展提供了新可能。
在有声读物播报、专业学术文献朗读等场景中,生僻字读错一直是困扰语音AI落地的核心难题——据行业调研,传统语音模型对生僻字的读错率普遍超过15%,这不仅影响信息传递的准确性,还可能在文化传播、专业服务等场景下引发误解。
作为通义实验室CosyVoice系列的最新迭代产品,Fun-CosyVoice3.5在多语种覆盖与语音精度上实现了关键突破。此次版本新增4个语种支持,进一步拓宽了跨境语音交互的适用范围;生僻字读错率从15.2%大幅降至5.3%,这一数据意味着专业古籍、学术文献等包含生僻字的内容,也能实现高精度语音播报。同时,模型的首包延迟降低35%,让实时语音交互的响应速度更贴近自然对话的节奏。
更重要的是,Fun-CosyVoice3.5支持FreeStyle指令生成,用户无需依赖固定格式的指令,仅用自然语言就能定制语音的语气、节奏、情感等细节——比如“用沉稳的日语朗读这段包含生僻汉字的历史资料”,模型能精准理解并输出符合要求的语音内容。
如果说Fun-CosyVoice3.5聚焦于“人”的语音表达,那么Fun-AudioGen-VD则瞄准了“环境与场景”的声音构建。这款模型同样支持FreeStyle指令,用户可以通过自由表述,要求模型生成特定场景下的声音组合——比如“模拟雷雨夜晚的小木屋壁炉声,夹杂轻微的书页翻动声”,或者“生成工厂车间里机器运作的背景音,带有轻微的金属碰撞声”。
这种对声音属性的精确控制能力,为内容创作行业打开了新的想象空间。影视后期制作、游戏音效设计、元宇宙场景搭建等领域,以往可能需要花费大量时间录制或编辑声音素材,而Fun-AudioGen-VD能快速生成符合要求的定制化声音,大幅提升创作效率。
两款模型均搭载的FreeStyle指令生成能力,是此次技术发布的核心变革点之一。传统语音大模型通常需要用户输入标准化指令,才能输出符合要求的内容;而FreeStyle指令允许用户以更灵活、口语化的方式下达需求,无需学习复杂的指令格式。
这一转变不仅降低了普通用户使用语音AI的门槛,也让专业从业者能更高效地实现创意表达。比如有声书主播可以直接要求“用老年男性的沙哑声音,带着惆怅的语气朗读这段诗词”,而无需拆解成多个标准化指令,这种“所见即所得”的自由创作模式,是语音AI从“工具”向“创作伙伴”转变的重要信号。
目前语音AI已经在智能音箱、在线教育、智能客服等领域实现规模化应用,但精度不足、功能僵化等问题始终制约着行业向更高阶场景渗透。通义实验室此次发布的两款模型,通过针对性的技术优化解决了生僻字读错、首包延迟等实际痛点,同时以FreeStyle指令打破了功能边界,有望推动语音AI进入“精细化定制”的新阶段。
对于垂直行业而言,这类技术升级将直接带来生产效率的提升与用户体验的优化。比如在有声读物行业,生僻字读错率的降低意味着古籍、专业书籍等内容能更精准地传递文化与知识;在跨境电商领域,多语种语音复刻与精细化表达能力,能为海外用户提供更贴近本土的客服体验。

2 天前
近日,阿里通义实验室语音团队推出两款全新语音生成模型——Fun-CosyVoice3.5与Fun-AudioGen-VD。其中Fun-CosyVoice3.5升级语音理解力,新增4种语言支持并将首包延迟降低35%;Fun-AudioGen-VD可实现音色定制、角色模拟等功能,两款模型均支持FreeStyle指令,大幅降低语音创作门槛,将为播客、游戏等领域提供AI助力。

2 天前
3月2日,阿里通义实验室语音团队正式发布两款支持FreeStyle指令生成的语音AI模型——Fun-CosyVoice3.5与Fun-AudioGen-VD。前者主打多语种音色复刻与精细化表达控制,后者聚焦声音设计与场景化音频生成,用户仅需自然语言指令即可实现定制化音频内容的快速生成,无需复杂参数调整或专业技能。

2 天前
3月2日,阿里通义实验室语音团队发布Fun-CosyVoice3.5和Fun-AudioGen-VD两款语音生成模型,主打FreeStyle自然语言控制能力,用户无需复杂参数即可通过文字指令调控音色风格或构建音频场景。其中Fun-CosyVoice3.5作为迭代升级产品,新增泰语等4种语种支持,将生僻字读错率从15.2%降至5.3%,在多语种复刻领域实现精细化突破。

2 天前
3月2日,阿里通义实验室正式发布Fun-CosyVoice3.5与Fun-AudioGen-VD两款语音大模型,首次支持FreeStyle自然语言指令交互,实现“一句话生成语音”的自由体验。其中Fun-CosyVoice3.5新增4个语种支持,通过强化学习技术将生僻字读错率从15.2%降至5.3%,首包延迟降低35%。

30 分钟前
美国佛罗里达州36岁男子乔纳森·加瓦拉斯的家属,近日将谷歌告上加州圣何塞联邦法院,指控旗下Gemini聊天机器人在数月互动中诱导男子陷入暴力计划与自残倾向,最终导致其自杀;谷歌回应称已提供危机干预热线,并持续优化AI安全措施。

32 分钟前
据科技媒体The Information爆料,OpenAI计划推出新一代大语言模型GPT-5.4,其上下文窗口容量将突破100万Tokens,较前代GPT-5.2的40万Tokens实现翻倍式提升。此外,GPT-5.4新增“极限推理模式”,可针对复杂问题分配更多计算资源,进一步强化模型推理能力,旨在缩小与谷歌、Anthropic竞品的上下文能力差距。

32 分钟前
近日,Meta正式组建应用人工智能工程部门,由现实实验室副总裁Maher Saba掌舵,直接向首席技术官Andrew Bosworth汇报。该部门将与Meta超级智能实验室协作打造模型迭代数据引擎,采用管理者与员工比例最高1:50的扁平化架构,对标英伟达高效模式,有望大幅加速其超级智能研发进程。

57 分钟前
据内部知情人士透露,Meta正组建全新应用AI工程部门,由现实实验室副总裁Maher Saba领衔,直接向首席技术官Andrew Bosworth汇报。该部门下设工具开发与数据支持两大核心团队,目标打造“数据引擎”加速大模型迭代,内部管理者与员工比例最高可达1:50,深度践行扎克伯格近期强调的扁平化组织理念,全力推进超级智能研发进程。