3月2日,阿里通义实验室语音团队发布Fun-CosyVoice3.5和Fun-AudioGen-VD两款语音生成模型,主打FreeStyle自然语言控制能力,用户无需复杂参数即可通过文字指令调控音色风格或构建音频场景。其中Fun-CosyVoice3.5作为迭代升级产品,新增泰语等4种语种支持,将生僻字读错率从15.2%降至5.3%,在多语种复刻领域实现精细化突破。
过去想要调整AI语音生成的音色风格,往往需要在后台反复调试十几种参数,或是严格遵循标准化指令模板——这一技术门槛如今被阿里通义的新成果彻底打破。
两款模型的核心突破性在于全新的FreeStyle指令系统。不同于以往依赖专业参数配置的操作逻辑,用户仅需通过一句自然语言描述,就能精准控制声音的表达风格,或是从零构建完整的音频场景。
比如想要生成一段职场汇报风格的语音,无需输入“语速+10%、情绪强度0.8、风格正式”这类复杂参数,只需一句“语气坚定、语速适中的职场汇报语音”,模型就能立刻输出符合要求的内容;针对音频场景构建,一句“清晨森林里的鸟鸣搭配轻柔的钢琴声”,就能让Fun-AudioGen-VD生成对应的环境音频。
作为经典语音模型CosyVoice的迭代版本,Fun-CosyVoice3.5聚焦多语种音色复刻与精细化控制能力的提升。在语种覆盖上,模型新增泰语、印尼语、葡萄牙语、越南语4种语言支持,目前已覆盖13种主流语种,且在转写准确率(WER)与音色相似度两项核心指标上保持业内领先水平。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
14 小时前
2026年4月,人工智能研发公司OpenAI正式推出新一代大语言模型GPT-5.5,该模型在多模态理解、复杂任务推理、长上下文处理等多维度能力均实现大幅提升。此次迭代也被视作OpenAI推进“一站式AI超级应用”长期战略的重要节点,将对全球消费级AI工具的市场竞争格局产生深远影响。

17 小时前
AI硬件软件平台开发商Era于近日宣布完成1100万美元融资,本轮资金将主要用于面向多形态AI硬件的底层软件平台研发,覆盖智能眼镜、智能戒指、智能吊坠等消费级AI可穿戴品类。该公司认为未来AI硬件将脱离手机附属品定位,形成多形态并行的独立生态,其研发的通用软件平台将解决不同硬件形态的AI能力适配难题。

19 小时前
2026年以来,全球天文领域正大规模落地AI星系探测技术,科研团队依托GPU算力支撑,可快速从PB级星际观测数据中筛选出微弱的未知天体信号。这类新增科研算力需求,已成为继大语言模型训练、AIGC内容生产之后,全球GPU供应缺口扩大的新诱因,当前高端通用GPU交付周期已延长至14个月,高端H100芯片市场溢价率超40%。

20 小时前
4月21日MIT Technology Review资深记者Mat Honan发布专题报道指出,2026年全球AI应用渗透率已突破72%,覆盖办公、消费、公共服务等全场景,但伴随隐私争议、岗位替代焦虑、信息过载等问题持续发酵,公众对AI的正面认可度较2023年峰值下跌28个百分点,全球AI产业首次进入业界所称的“AI倦怠期”。

20 小时前
2026年4月23日,腾讯正式发布混元系列最新开源大语言模型Hy3 Preview,该模型总参数达295亿,在复杂推理、指令遵循、代码处理等维度表现实现显著提升,研发阶段坚持实用性、真实评测、高性价比三大原则,目前已接入多款腾讯自有产品,同时兼容主流开源智能体工具,为开发者提供了新的高性价比选型。

20 小时前
Alphabet首席执行官桑达尔·皮查伊近日披露,谷歌内部超75%的新增代码已由人工智能自动生成,标志其“AI优先”战略落地取得实质性突破。该比例2025年4月仅为30%,一年间涨幅超150%,所有AI生成代码仍需经过专业开发工程师严格审核以保障安全。2026年Alphabet预计全年资本支出将达1750亿美元,持续加码AI底层布局。

20 小时前
2026年4月23日第26个世界知识产权日来临前夕,杭州市中级人民法院公开开庭审理全国首例AI智能体流量劫持不正当竞争案,该案由杭州中院院长、一级高级法官唐学兵担任审判长。原告为AI应用“K智能体”运营方,指控被告通过输入法植入的“W智能大模型”功能劫持自身平台用户流量,案件引发AI领域竞争规则的广泛讨论。

20 小时前
2026年4月以来,国内社交平台接连出现AI合成虚假资讯:先是伪造的小米汽车官宣苹果CEO库克出任CEO海报登上微博热搜,小米高管紧急公开辟谣;随后特斯拉CEO马斯克加入拼多多旗下拼好饭的假海报再度引发大范围传播,此类足以乱真的AI合成内容造谣成本近乎为零,引发公众对数字时代信息真实性的广泛讨论。