3月2日,阿里通义实验室正式发布Fun-CosyVoice3.5与Fun-AudioGen-VD两款语音大模型,首次支持FreeStyle自然语言指令交互,实现“一句话生成语音”的自由体验。其中Fun-CosyVoice3.5新增4个语种支持,通过强化学习技术将生僻字读错率从15.2%降至5.3%,首包延迟降低35%。
想象一下,无需设置复杂的音色标签、语调参数,只需说出“用慵懒的印尼语念一首热带小诗,背景混着海浪声”,就能直接生成符合要求的语音内容——这正是通义实验室最新发布的FreeStyle语音大模型带来的全新体验。
此前,多数语音生成模型依赖预设的音色、语调、语种等标签参数,用户需要在有限选项中组合调整,难以实现个性化的自由表达。而此次发布的两款模型均支持FreeStyle自然语言指令,用户只需用日常语言描述需求,就能触发深度交互,真正实现“一句话自由生成语音”的愿景。这种模式将语音生成的门槛从“专业参数设置”拉低至“自然语言表达”,为普通用户打开了语音内容创作的大门。
作为语音复刻与多语种表达的核心模型,Fun-CosyVoice3.5在原有基础上完成了两大关键升级。一方面,新增泰语、印尼语等4个语种支持,进一步拓展了多语种语音生成的覆盖范围,满足跨区域内容创作的需求;另一方面,通过引入DiffRO与GRPO强化学习技术,模型的精细化表达能力大幅提升:生僻字读错率从15.2%直接降至5.3%,首包延迟降低35%,既保证了专业文本的朗读准确性,又优化了实时交互的流畅度。
与专注语音朗读的Fun-CosyVoice3.5形成互补,Fun-AudioGen-VD则聚焦于场景化声音的一体化生成。它支持通过自然语言指令精确控制角色性别、情绪强度,甚至空间声学效果——比如用户只需指令“生成疯狂反派的咆哮声,背景是热闹的咖啡馆环境音”,模型就能直接输出融合角色语音与场景背景的完整音频,无需分步骤生成再拼接。这种一体化的场景生成能力,为有声剧、游戏配音、广告音频等领域提供了更高效的解决方案。
从单一语种到多语种覆盖,从标签控制到自然语言交互,通义实验室的双模型发布,本质上是语音大模型向“以人为中心”交互逻辑的靠拢。未来,随着多模态技术的进一步融合,语音模型或许能实现“看文生声”“看图配声”的更复杂交互,在教育、娱乐、企业服务等场景释放更大价值。

2 天前
近日,通义实验室发布两款支持FreeStyle指令生成的语音大模型Fun-CosyVoice3.5与Fun-AudioGen-VD。其中Fun-CosyVoice3.5新增4个语种支持,通过技术优化将生僻字读错率从15.2%降至5.3%,首包延迟降低35%;Fun-AudioGen-VD则聚焦场景化声音建模,两款模型为语音AI的精细化应用与场景拓展提供了新可能。

2 天前
近日,阿里通义实验室语音团队推出两款全新语音生成模型——Fun-CosyVoice3.5与Fun-AudioGen-VD。其中Fun-CosyVoice3.5升级语音理解力,新增4种语言支持并将首包延迟降低35%;Fun-AudioGen-VD可实现音色定制、角色模拟等功能,两款模型均支持FreeStyle指令,大幅降低语音创作门槛,将为播客、游戏等领域提供AI助力。

2 天前
3月2日,阿里通义实验室语音团队正式发布两款支持FreeStyle指令生成的语音AI模型——Fun-CosyVoice3.5与Fun-AudioGen-VD。前者主打多语种音色复刻与精细化表达控制,后者聚焦声音设计与场景化音频生成,用户仅需自然语言指令即可实现定制化音频内容的快速生成,无需复杂参数调整或专业技能。

2 天前
3月2日,阿里通义实验室语音团队发布Fun-CosyVoice3.5和Fun-AudioGen-VD两款语音生成模型,主打FreeStyle自然语言控制能力,用户无需复杂参数即可通过文字指令调控音色风格或构建音频场景。其中Fun-CosyVoice3.5作为迭代升级产品,新增泰语等4种语种支持,将生僻字读错率从15.2%降至5.3%,在多语种复刻领域实现精细化突破。

1 分钟前
据外媒《The Information》披露,人工智能巨头OpenAI正着手开发全新代码托管平台,直接对标微软旗下全球主流代码协作平台GitHub。GitHub近几个月频发的服务中断问题,是促使OpenAI布局该赛道、与微软展开正面竞争的核心动因,此举也标志着OpenAI在开发者生态领域的进一步扩张。

11 分钟前
混沌学园2026年3月的分享中指出,当前多数企业斥资搭建AI团队、开展内部AI试点,却普遍难以实现正向盈利,甚至因高薪AI人才成本陷入亏本困境。其创新领教提出,应转向开拓性AI应用而非守成抠成本,探讨“人人配备AI程序员”的职场与商业变革逻辑。

21 分钟前
3月初,微软在Windows 11中激进推广内置AI功能引发海外社区舆论风波,大量用户因不满微软忽视系统稳定性,将微软调侃为“Microslop”。微软官方Discord频道启动敏感词过滤拦截该表述,用户转而使用变体词刷屏,微软随后升级管控措施实施禁言,微软称此举为“安全防御”,但强硬管理或加剧官方与用户的对立。

31 分钟前
摘要:2026年3月,阿里巴巴千问大模型核心负责人林俊旸官宣卸任,距其带队发布开源模型Qwen3.5并获马斯克公开点赞仅48小时,随后至少四位核心成员相继离职。消息显示,通义实验室拆分Qwen团队、调整考核标准与林俊旸技术理念相悖,或为离职主因。目前阿里官方未正式回应,团队已启动补位,行业关注此次变动对阿里AI品牌战略的影响。