3月2日,阿里通义实验室语音团队正式发布两款支持FreeStyle指令生成的语音AI模型——Fun-CosyVoice3.5与Fun-AudioGen-VD。前者主打多语种音色复刻与精细化表达控制,后者聚焦声音设计与场景化音频生成,用户仅需自然语言指令即可实现定制化音频内容的快速生成,无需复杂参数调整或专业技能。
当你想生成一段带东北方言腔的英语童话朗读,或是为短视频制作一段“夏夜蝉鸣+轻快吉他伴奏+AI旁白”的复合音频,以往可能需要在多个工具间切换、调整数十项参数。而现在,只需一句话的自然语言指令,阿里通义实验室的新模型就能帮你实现。
作为语音合成类模型,Fun-CosyVoice3.5的核心优势在于多语种音色复刻与精细化表达控制。用户无需提供大量样本数据,仅需描述“温柔的台湾腔女声朗读唐诗”“粗犷的俄语男声播报体育新闻”,模型就能精准匹配音色、语言与情感,实现接近真人的语音输出。对于内容创作者来说,这意味着可以快速生成不同风格的有声内容,无需依赖专业配音团队。
不同于专注语音合成的前者,Fun-AudioGen-VD更聚焦声音设计与场景化音频生成。它支持用户通过指令定制包含环境音、音效、语音的复合音频,比如“生成一段海边背景音搭配治愈系女声讲述旅行故事的音频”“制作游戏中战斗场景的激昂音效+旁白配音”。这种一体化的生成能力,能够大幅降低短视频、游戏、播客等场景的音频制作门槛。
过去,语音生成技术更多面向专业开发者,需要掌握复杂的参数设置与样本处理流程,这让普通用户望而却步。而阿里通义此次发布的两款FreeStyle模型,将核心操作简化为自然语言指令,本质上是把语音AI从“专业工具”转化为“大众创作助手”。
这一转变背后,是语音AI市场的需求升级。当前有声书、短视频配音、游戏音效等领域对定制化音频的需求持续增长,中小内容创作者、小商家往往难以承担专业配音与音效制作的成本。而这类低门槛的生成模型,能够帮助他们快速产出符合需求的音频内容,降低创作成本与时间成本。
Fun-CosyVoice3.5与Fun-AudioGen-VD的发布,也折射出语音生成技术的一个重要趋势——以自然语言为核心的自由化交互。以往的语音生成模型多依赖固定模板或有限参数调整,而FreeStyle指令则允许用户以更贴近日常表达的方式描述需求,进一步消除技术与用户之间的壁垒。
未来,这种模式有望渗透到更多音频生产场景:比如教育领域生成定制化的外语听力材料,企业客服生成个性化的语音导航,甚至是个人用户为自己的vlog快速制作专属配音与背景音。随着技术的迭代,语音AI可能不再是辅助工具,而是成为内容创作链条中不可或缺的核心环节。

30 分钟前
据科技媒体The Information爆料,OpenAI计划推出新一代大语言模型GPT-5.4,其上下文窗口容量将突破100万Tokens,较前代GPT-5.2的40万Tokens实现翻倍式提升。此外,GPT-5.4新增“极限推理模式”,可针对复杂问题分配更多计算资源,进一步强化模型推理能力,旨在缩小与谷歌、Anthropic竞品的上下文能力差距。

31 分钟前
近日,Meta正式组建应用人工智能工程部门,由现实实验室副总裁Maher Saba掌舵,直接向首席技术官Andrew Bosworth汇报。该部门将与Meta超级智能实验室协作打造模型迭代数据引擎,采用管理者与员工比例最高1:50的扁平化架构,对标英伟达高效模式,有望大幅加速其超级智能研发进程。

55 分钟前
据内部知情人士透露,Meta正组建全新应用AI工程部门,由现实实验室副总裁Maher Saba领衔,直接向首席技术官Andrew Bosworth汇报。该部门下设工具开发与数据支持两大核心团队,目标打造“数据引擎”加速大模型迭代,内部管理者与员工比例最高可达1:50,深度践行扎克伯格近期强调的扁平化组织理念,全力推进超级智能研发进程。

57 分钟前
字节火山引擎近日正式公布旗下多模态视频生成AI模型Doubao-Seedance-2.0的API服务定价,其中视频输入类(编辑)服务为28元/百万Tokens,纯视频生成服务为46元/百万Tokens。作为豆包大模型团队推出的新一代产品,Seedance 2.0支持图像、视频、音频等多模态输入,此次定价明确标志着其商业化落地的关键一步。

58 分钟前
3月4日消息,韩媒披露特斯拉采购高管本周将赴韩拜访三星电子,磋商大幅提升其2nm工艺AI6芯片的产能规模。此前特斯拉向三星晶圆代工的月投片量约1.6万片晶圆,当前额外需求达2.4万片。作为特斯拉定位的通用型AI芯片,AI6可支撑其电动车、人形机器人及数据中心等多元业务的算力需求。

59 分钟前
Reddit用户RatonVaquero所属的软件开发公司因谷歌Gemini API密钥被盗,48小时内产生超8.2万美元的天价使用费用,远超其每月180美元的常规开销。该开发者指责谷歌缺乏异常消费冻结、消费上限等防护机制,目前已向FBI报案,寄望谷歌能基于善意减免费用,避免公司陷入破产危机。

1 小时前
继与美国国防部达成合作后,OpenAI正洽谈将AI技术部署至北约非机密网络。CEO山姆·奥尔特曼坦言此举短期内可能引发品牌危机,但仍认为是“复杂但正确的决定”。其竞争对手Anthropic此前因反对AI用于大规模监控和自主武器,已终止与美国国防部的合作。

1 小时前
前Meta研究工程师在被公司裁员后,发起了一场极具趣味性的编程实验:让小狗随机敲击键盘生成无逻辑乱码,再借助Anthropic的大语言模型Claude,将这些乱码转化为可正常运行的网页小游戏,目前已将项目代码全面开源,为AI辅助创意编程领域提供了荒诞却极具启发的新实践。