近日,阿里通义实验室语音团队推出两款全新语音生成模型——Fun-CosyVoice3.5与Fun-AudioGen-VD。其中Fun-CosyVoice3.5升级语音理解力,新增4种语言支持并将首包延迟降低35%;Fun-AudioGen-VD可实现音色定制、角色模拟等功能,两款模型均支持FreeStyle指令,大幅降低语音创作门槛,将为播客、游戏等领域提供AI助力。
对于播客创作者、游戏语音设计师而言,过去生成符合需求的语音内容往往依赖专业音频知识或复杂参数调试,如今阿里通义实验室的新模型正在打破这一壁垒,用自然语言交互重构语音创作的体验。
Fun-CosyVoice3.5 聚焦于语音表达的“理解力”与实用性升级。此次更新新增4种语言支持,进一步拓展了跨语言语音创作的边界;核心性能上实现首包延迟降低35%,让语音生成的即时响应体验大幅提升。同时,模型优化了生僻字识别逻辑,读错率显著下降,搭配FreeStyle自然语言指令,用户无需掌握专业术语,用日常表述就能精准控制语音的语速、语调与情感走向。
如果说Fun-CosyVoice3.5是高效的“语音执行者”,Fun-AudioGen-VD 则更像一位专业“声音导演”。这款模型主打定制化与场景化表达,支持用户一键生成专属音色,还能模拟不同角色的语音风格——从沉稳的纪录片旁白到活泼的动漫角色,甚至能精准还原悲伤、兴奋等复杂情绪状态。此外,它可直接叠加背景音与空间音效,让生成的音频直接适配影视片段、游戏剧情等复杂场景,无需后期二次加工。
两款模型共同搭载的FreeStyle指令 是本次升级的核心亮点。区别于传统语音工具需要输入诸如“基频”“共振峰”等专业参数,用户只需用自然语言描述需求,比如“用温暖的美式英语读一段儿童睡前故事,语速放缓,带轻微呼吸声”,模型就能精准理解指令并生成符合要求的语音内容。这种“零门槛”交互方式,让非专业用户也能快速产出高质量语音素材,甚至实现“想到就能生成”的自由创作。
在内容生产领域,这两款模型的落地将带来效率的革命性提升:播客创作者可快速生成多语言旁白,游戏厂商能批量制作角色语音素材,影视团队也能通过定制音色模拟剧中人物,大幅压缩制作周期与成本。未来,随着模型的开放程度进一步提升,语音AI还可能渗透到在线教育、智能客服等更多场景,为不同行业打造个性化的音频解决方案。

31 分钟前
据科技媒体The Information爆料,OpenAI计划推出新一代大语言模型GPT-5.4,其上下文窗口容量将突破100万Tokens,较前代GPT-5.2的40万Tokens实现翻倍式提升。此外,GPT-5.4新增“极限推理模式”,可针对复杂问题分配更多计算资源,进一步强化模型推理能力,旨在缩小与谷歌、Anthropic竞品的上下文能力差距。

32 分钟前
近日,Meta正式组建应用人工智能工程部门,由现实实验室副总裁Maher Saba掌舵,直接向首席技术官Andrew Bosworth汇报。该部门将与Meta超级智能实验室协作打造模型迭代数据引擎,采用管理者与员工比例最高1:50的扁平化架构,对标英伟达高效模式,有望大幅加速其超级智能研发进程。

57 分钟前
据内部知情人士透露,Meta正组建全新应用AI工程部门,由现实实验室副总裁Maher Saba领衔,直接向首席技术官Andrew Bosworth汇报。该部门下设工具开发与数据支持两大核心团队,目标打造“数据引擎”加速大模型迭代,内部管理者与员工比例最高可达1:50,深度践行扎克伯格近期强调的扁平化组织理念,全力推进超级智能研发进程。

58 分钟前
字节火山引擎近日正式公布旗下多模态视频生成AI模型Doubao-Seedance-2.0的API服务定价,其中视频输入类(编辑)服务为28元/百万Tokens,纯视频生成服务为46元/百万Tokens。作为豆包大模型团队推出的新一代产品,Seedance 2.0支持图像、视频、音频等多模态输入,此次定价明确标志着其商业化落地的关键一步。

59 分钟前
3月4日消息,韩媒披露特斯拉采购高管本周将赴韩拜访三星电子,磋商大幅提升其2nm工艺AI6芯片的产能规模。此前特斯拉向三星晶圆代工的月投片量约1.6万片晶圆,当前额外需求达2.4万片。作为特斯拉定位的通用型AI芯片,AI6可支撑其电动车、人形机器人及数据中心等多元业务的算力需求。

1 小时前
Reddit用户RatonVaquero所属的软件开发公司因谷歌Gemini API密钥被盗,48小时内产生超8.2万美元的天价使用费用,远超其每月180美元的常规开销。该开发者指责谷歌缺乏异常消费冻结、消费上限等防护机制,目前已向FBI报案,寄望谷歌能基于善意减免费用,避免公司陷入破产危机。

1 小时前
继与美国国防部达成合作后,OpenAI正洽谈将AI技术部署至北约非机密网络。CEO山姆·奥尔特曼坦言此举短期内可能引发品牌危机,但仍认为是“复杂但正确的决定”。其竞争对手Anthropic此前因反对AI用于大规模监控和自主武器,已终止与美国国防部的合作。

1 小时前
前Meta研究工程师在被公司裁员后,发起了一场极具趣味性的编程实验:让小狗随机敲击键盘生成无逻辑乱码,再借助Anthropic的大语言模型Claude,将这些乱码转化为可正常运行的网页小游戏,目前已将项目代码全面开源,为AI辅助创意编程领域提供了荒诞却极具启发的新实践。