登录体验完整功能(收藏、点赞、评论等) —

让AI触手可及,让应用激发潜能

阿里通义发布两款语音生成模型,AI语音创作门槛再降低

近日,阿里通义实验室语音团队推出两款全新语音生成模型——Fun-CosyVoice3.5与Fun-AudioGen-VD。其中Fun-CosyVoice3.5升级语音理解力,新增4种语言支持并将首包延迟降低35%;Fun-AudioGen-VD可实现音色定制、角色模拟等功能,两款模型均支持FreeStyle指令,大幅降低语音创作门槛,将为播客、游戏等领域提供AI助力。

对于播客创作者、游戏语音设计师而言,过去生成符合需求的语音内容往往依赖专业音频知识或复杂参数调试,如今阿里通义实验室的新模型正在打破这一壁垒,用自然语言交互重构语音创作的体验。

Fun-CosyVoice3.5 聚焦于语音表达的“理解力”与实用性升级。此次更新新增4种语言支持,进一步拓展了跨语言语音创作的边界;核心性能上实现首包延迟降低35%,让语音生成的即时响应体验大幅提升。同时,模型优化了生僻字识别逻辑,读错率显著下降,搭配FreeStyle自然语言指令,用户无需掌握专业术语,用日常表述就能精准控制语音的语速、语调与情感走向。

如果说Fun-CosyVoice3.5是高效的“语音执行者”,Fun-AudioGen-VD 则更像一位专业“声音导演”。这款模型主打定制化与场景化表达,支持用户一键生成专属音色,还能模拟不同角色的语音风格——从沉稳的纪录片旁白到活泼的动漫角色,甚至能精准还原悲伤、兴奋等复杂情绪状态。此外,它可直接叠加背景音与空间音效,让生成的音频直接适配影视片段、游戏剧情等复杂场景,无需后期二次加工。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯
AI小创