3月2日,阿里通义实验室语音团队发布Fun-CosyVoice3.5和Fun-AudioGen-VD两款语音生成模型,主打FreeStyle自然语言控制能力,用户无需复杂参数即可通过文字指令调控音色风格或构建音频场景。其中Fun-CosyVoice3.5作为迭代升级产品,新增泰语等4种语种支持,将生僻字读错率从15.2%降至5.3%,在多语种复刻领域实现精细化突破。
过去想要调整AI语音生成的音色风格,往往需要在后台反复调试十几种参数,或是严格遵循标准化指令模板——这一技术门槛如今被阿里通义的新成果彻底打破。
两款模型的核心突破性在于全新的FreeStyle指令系统。不同于以往依赖专业参数配置的操作逻辑,用户仅需通过一句自然语言描述,就能精准控制声音的表达风格,或是从零构建完整的音频场景。
比如想要生成一段职场汇报风格的语音,无需输入“语速+10%、情绪强度0.8、风格正式”这类复杂参数,只需一句“语气坚定、语速适中的职场汇报语音”,模型就能立刻输出符合要求的内容;针对音频场景构建,一句“清晨森林里的鸟鸣搭配轻柔的钢琴声”,就能让Fun-AudioGen-VD生成对应的环境音频。
作为经典语音模型CosyVoice的迭代版本,Fun-CosyVoice3.5聚焦多语种音色复刻与精细化控制能力的提升。在语种覆盖上,模型新增泰语、印尼语、葡萄牙语、越南语4种语言支持,目前已覆盖13种主流语种,且在转写准确率(WER)与音色相似度两项核心指标上保持业内领先水平。
针对中文语音生成的痛点,团队还对生僻字发音进行专项调优,将生僻字读错率从15.2%大幅降至5.3%,解决了古籍朗读、专业术语播报等场景下的发音不准确问题。此外,模型对语音的细节控制能力进一步加强,用户可通过自然语言指令灵活调整语速、语调甚至地域口音特征,实现“千人千声”的个性化语音生成。
此次发布的两款模型形成了互补的产品矩阵:Fun-CosyVoice3.5专注于高质量的人声生成与风格调控,满足有声书制作、智能客服、虚拟人配音等以人声为核心的场景;而Fun-AudioGen-VD则主打音频场景的构建,能够将人声与背景音效、环境音进行自然融合,为短视频配乐、游戏音效设计、有声剧制作等提供一站式解决方案。
这种双模型协同的布局,意味着用户无需在多个工具间切换,仅通过一套自然语言指令,就能完成从单一语音生成到复杂音频场景搭建的全流程操作,进一步降低了AI语音技术的应用门槛。
随着语音AI技术从“能用”向“好用”升级,自然语言控制将成为未来语音生成工具的核心标配。阿里通义此次发布的双模型,不仅在技术精度上实现突破,更通过FreeStyle指令系统拉近了普通用户与AI语音技术的距离,或将推动语音生成在更多垂直领域的规模化落地。

32 分钟前
据科技媒体The Information爆料,OpenAI计划推出新一代大语言模型GPT-5.4,其上下文窗口容量将突破100万Tokens,较前代GPT-5.2的40万Tokens实现翻倍式提升。此外,GPT-5.4新增“极限推理模式”,可针对复杂问题分配更多计算资源,进一步强化模型推理能力,旨在缩小与谷歌、Anthropic竞品的上下文能力差距。

32 分钟前
近日,Meta正式组建应用人工智能工程部门,由现实实验室副总裁Maher Saba掌舵,直接向首席技术官Andrew Bosworth汇报。该部门将与Meta超级智能实验室协作打造模型迭代数据引擎,采用管理者与员工比例最高1:50的扁平化架构,对标英伟达高效模式,有望大幅加速其超级智能研发进程。

57 分钟前
据内部知情人士透露,Meta正组建全新应用AI工程部门,由现实实验室副总裁Maher Saba领衔,直接向首席技术官Andrew Bosworth汇报。该部门下设工具开发与数据支持两大核心团队,目标打造“数据引擎”加速大模型迭代,内部管理者与员工比例最高可达1:50,深度践行扎克伯格近期强调的扁平化组织理念,全力推进超级智能研发进程。

58 分钟前
字节火山引擎近日正式公布旗下多模态视频生成AI模型Doubao-Seedance-2.0的API服务定价,其中视频输入类(编辑)服务为28元/百万Tokens,纯视频生成服务为46元/百万Tokens。作为豆包大模型团队推出的新一代产品,Seedance 2.0支持图像、视频、音频等多模态输入,此次定价明确标志着其商业化落地的关键一步。

59 分钟前
3月4日消息,韩媒披露特斯拉采购高管本周将赴韩拜访三星电子,磋商大幅提升其2nm工艺AI6芯片的产能规模。此前特斯拉向三星晶圆代工的月投片量约1.6万片晶圆,当前额外需求达2.4万片。作为特斯拉定位的通用型AI芯片,AI6可支撑其电动车、人形机器人及数据中心等多元业务的算力需求。

1 小时前
Reddit用户RatonVaquero所属的软件开发公司因谷歌Gemini API密钥被盗,48小时内产生超8.2万美元的天价使用费用,远超其每月180美元的常规开销。该开发者指责谷歌缺乏异常消费冻结、消费上限等防护机制,目前已向FBI报案,寄望谷歌能基于善意减免费用,避免公司陷入破产危机。

1 小时前
继与美国国防部达成合作后,OpenAI正洽谈将AI技术部署至北约非机密网络。CEO山姆·奥尔特曼坦言此举短期内可能引发品牌危机,但仍认为是“复杂但正确的决定”。其竞争对手Anthropic此前因反对AI用于大规模监控和自主武器,已终止与美国国防部的合作。

1 小时前
前Meta研究工程师在被公司裁员后,发起了一场极具趣味性的编程实验:让小狗随机敲击键盘生成无逻辑乱码,再借助Anthropic的大语言模型Claude,将这些乱码转化为可正常运行的网页小游戏,目前已将项目代码全面开源,为AI辅助创意编程领域提供了荒诞却极具启发的新实践。