少找工具,多做创作

阿里通义发布两款FreeStyle语音模型,一句话生成定制化音频

3月2日,阿里通义实验室语音团队正式发布两款支持FreeStyle指令生成的语音AI模型——Fun-CosyVoice3.5与Fun-AudioGen-VD。前者主打多语种音色复刻与精细化表达控制,后者聚焦声音设计与场景化音频生成,用户仅需自然语言指令即可实现定制化音频内容的快速生成,无需复杂参数调整或专业技能。

当你想生成一段带东北方言腔的英语童话朗读,或是为短视频制作一段“夏夜蝉鸣+轻快吉他伴奏+AI旁白”的复合音频,以往可能需要在多个工具间切换、调整数十项参数。而现在,只需一句话的自然语言指令,阿里通义实验室的新模型就能帮你实现。

作为语音合成类模型,Fun-CosyVoice3.5的核心优势在于多语种音色复刻精细化表达控制。用户无需提供大量样本数据,仅需描述“温柔的台湾腔女声朗读唐诗”“粗犷的俄语男声播报体育新闻”,模型就能精准匹配音色、语言与情感,实现接近真人的语音输出。对于内容创作者来说,这意味着可以快速生成不同风格的有声内容,无需依赖专业配音团队。

不同于专注语音合成的前者,Fun-AudioGen-VD更聚焦声音设计与场景化音频生成。它支持用户通过指令定制包含环境音、音效、语音的复合音频,比如“生成一段海边背景音搭配治愈系女声讲述旅行故事的音频”“制作游戏中战斗场景的激昂音效+旁白配音”。这种一体化的生成能力,能够大幅降低短视频、游戏、播客等场景的音频制作门槛。

过去,语音生成技术更多面向专业开发者,需要掌握复杂的参数设置与样本处理流程,这让普通用户望而却步。而阿里通义此次发布的两款FreeStyle模型,将核心操作简化为自然语言指令,本质上是把语音AI从“专业工具”转化为“大众创作助手”。

这一转变背后,是语音AI市场的需求升级。当前有声书、短视频配音、游戏音效等领域对定制化音频的需求持续增长,中小内容创作者、小商家往往难以承担专业配音与音效制作的成本。而这类低门槛的生成模型,能够帮助他们快速产出符合需求的音频内容,降低创作成本与时间成本。

Fun-CosyVoice3.5与Fun-AudioGen-VD的发布,也折射出语音生成技术的一个重要趋势——以自然语言为核心的自由化交互。以往的语音生成模型多依赖固定模板或有限参数调整,而FreeStyle指令则允许用户以更贴近日常表达的方式描述需求,进一步消除技术与用户之间的壁垒。

未来,这种模式有望渗透到更多音频生产场景:比如教育领域生成定制化的外语听力材料,企业客服生成个性化的语音导航,甚至是个人用户为自己的vlog快速制作专属配音与背景音。随着技术的迭代,语音AI可能不再是辅助工具,而是成为内容创作链条中不可或缺的核心环节。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
所属分类
相关资讯