少找工具,多做创作

阿里通义发布两款语音生成模型,AI语音创作门槛再降低

近日,阿里通义实验室语音团队推出两款全新语音生成模型——Fun-CosyVoice3.5与Fun-AudioGen-VD。其中Fun-CosyVoice3.5升级语音理解力,新增4种语言支持并将首包延迟降低35%;Fun-AudioGen-VD可实现音色定制、角色模拟等功能,两款模型均支持FreeStyle指令,大幅降低语音创作门槛,将为播客、游戏等领域提供AI助力。

对于播客创作者、游戏语音设计师而言,过去生成符合需求的语音内容往往依赖专业音频知识或复杂参数调试,如今阿里通义实验室的新模型正在打破这一壁垒,用自然语言交互重构语音创作的体验。

Fun-CosyVoice3.5 聚焦于语音表达的“理解力”与实用性升级。此次更新新增4种语言支持,进一步拓展了跨语言语音创作的边界;核心性能上实现首包延迟降低35%,让语音生成的即时响应体验大幅提升。同时,模型优化了生僻字识别逻辑,读错率显著下降,搭配FreeStyle自然语言指令,用户无需掌握专业术语,用日常表述就能精准控制语音的语速、语调与情感走向。

如果说Fun-CosyVoice3.5是高效的“语音执行者”,Fun-AudioGen-VD 则更像一位专业“声音导演”。这款模型主打定制化与场景化表达,支持用户一键生成专属音色,还能模拟不同角色的语音风格——从沉稳的纪录片旁白到活泼的动漫角色,甚至能精准还原悲伤、兴奋等复杂情绪状态。此外,它可直接叠加背景音与空间音效,让生成的音频直接适配影视片段、游戏剧情等复杂场景,无需后期二次加工。

两款模型共同搭载的FreeStyle指令 是本次升级的核心亮点。区别于传统语音工具需要输入诸如“基频”“共振峰”等专业参数,用户只需用自然语言描述需求,比如“用温暖的美式英语读一段儿童睡前故事,语速放缓,带轻微呼吸声”,模型就能精准理解指令并生成符合要求的语音内容。这种“零门槛”交互方式,让非专业用户也能快速产出高质量语音素材,甚至实现“想到就能生成”的自由创作。

在内容生产领域,这两款模型的落地将带来效率的革命性提升:播客创作者可快速生成多语言旁白,游戏厂商能批量制作角色语音素材,影视团队也能通过定制音色模拟剧中人物,大幅压缩制作周期与成本。未来,随着模型的开放程度进一步提升,语音AI还可能渗透到在线教育、智能客服等更多场景,为不同行业打造个性化的音频解决方案。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
所属分类
相关资讯