登录体验完整功能(收藏、点赞、评论等) —

让AI触手可及,让应用激发潜能

阿里通义发布两款FreeStyle语音模型,一句话生成定制化音频

3月2日,阿里通义实验室语音团队正式发布两款支持FreeStyle指令生成的语音AI模型——Fun-CosyVoice3.5与Fun-AudioGen-VD。前者主打多语种音色复刻与精细化表达控制,后者聚焦声音设计与场景化音频生成,用户仅需自然语言指令即可实现定制化音频内容的快速生成,无需复杂参数调整或专业技能。

当你想生成一段带东北方言腔的英语童话朗读,或是为短视频制作一段“夏夜蝉鸣+轻快吉他伴奏+AI旁白”的复合音频,以往可能需要在多个工具间切换、调整数十项参数。而现在,只需一句话的自然语言指令,阿里通义实验室的新模型就能帮你实现。

作为语音合成类模型,Fun-CosyVoice3.5的核心优势在于多语种音色复刻精细化表达控制。用户无需提供大量样本数据,仅需描述“温柔的台湾腔女声朗读唐诗”“粗犷的俄语男声播报体育新闻”,模型就能精准匹配音色、语言与情感,实现接近真人的语音输出。对于内容创作者来说,这意味着可以快速生成不同风格的有声内容,无需依赖专业配音团队。

不同于专注语音合成的前者,Fun-AudioGen-VD更聚焦声音设计与场景化音频生成。它支持用户通过指令定制包含环境音、音效、语音的复合音频,比如“生成一段海边背景音搭配治愈系女声讲述旅行故事的音频”“制作游戏中战斗场景的激昂音效+旁白配音”。这种一体化的生成能力,能够大幅降低短视频、游戏、播客等场景的音频制作门槛。

过去,语音生成技术更多面向专业开发者,需要掌握复杂的参数设置与样本处理流程,这让普通用户望而却步。而阿里通义此次发布的两款FreeStyle模型,将核心操作简化为自然语言指令,本质上是把语音AI从“专业工具”转化为“大众创作助手”。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯
AI小创