阿里通义发布两款FreeStyle语音模型，一句话生成定制化音频

AI小创 1 个月前

AI快讯

3月2日，阿里通义实验室语音团队正式发布两款支持FreeStyle指令生成的语音AI模型——Fun-CosyVoice3.5与Fun-AudioGen-VD。前者主打多语种音色复刻与精细化表达控制，后者聚焦声音设计与场景化音频生成，用户仅需自然语言指令即可实现定制化音频内容的快速生成，无需复杂参数调整或专业技能。

当你想生成一段带东北方言腔的英语童话朗读，或是为短视频制作一段“夏夜蝉鸣+轻快吉他伴奏+AI旁白”的复合音频，以往可能需要在多个工具间切换、调整数十项参数。而现在，只需一句话的自然语言指令，阿里通义实验室的新模型就能帮你实现。

作为语音合成类模型，Fun-CosyVoice3.5的核心优势在于多语种音色复刻与精细化表达控制。用户无需提供大量样本数据，仅需描述“温柔的台湾腔女声朗读唐诗”“粗犷的俄语男声播报体育新闻”，模型就能精准匹配音色、语言与情感，实现接近真人的语音输出。对于内容创作者来说，这意味着可以快速生成不同风格的有声内容，无需依赖专业配音团队。

不同于专注语音合成的前者，Fun-AudioGen-VD更聚焦声音设计与场景化音频生成。它支持用户通过指令定制包含环境音、音效、语音的复合音频，比如“生成一段海边背景音搭配治愈系女声讲述旅行故事的音频”“制作游戏中战斗场景的激昂音效+旁白配音”。这种一体化的生成能力，能够大幅降低短视频、游戏、播客等场景的音频制作门槛。

过去，语音生成技术更多面向专业开发者，需要掌握复杂的参数设置与样本处理流程，这让普通用户望而却步。而阿里通义此次发布的两款FreeStyle模型，将核心操作简化为自然语言指令，本质上是把语音AI从“专业工具”转化为“大众创作助手”。

人工智能 Fun-CosyVoice3.5 语音生成模型阿里通义 Fun-AudioGen-VD

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

沁言学术

科研AI写作与文献助手

百度文库组词造句

百度文库文学智囊团Agent

电商差评诊断技能

电商差评诊断AI技能

女娲.skill

蒸馏顶级思维为可调用认知工具

有一云AI

新媒体全流程AI创作提效工具

GPT Image 2

AI生成编辑4K逼真图像

GPTImg

快速生成高质量AI图像

GPT Image 2

一站式AI图像生成与编辑工具

阿里通义发布两款FreeStyle语音模型，一句话生成定制化音频