近日,阿里通义实验室语音团队推出两款全新语音生成模型——Fun-CosyVoice3.5与Fun-AudioGen-VD。其中Fun-CosyVoice3.5升级语音理解力,新增4种语言支持并将首包延迟降低35%;Fun-AudioGen-VD可实现音色定制、角色模拟等功能,两款模型均支持FreeStyle指令,大幅降低语音创作门槛,将为播客、游戏等领域提供AI助力。
对于播客创作者、游戏语音设计师而言,过去生成符合需求的语音内容往往依赖专业音频知识或复杂参数调试,如今阿里通义实验室的新模型正在打破这一壁垒,用自然语言交互重构语音创作的体验。
Fun-CosyVoice3.5 聚焦于语音表达的“理解力”与实用性升级。此次更新新增4种语言支持,进一步拓展了跨语言语音创作的边界;核心性能上实现首包延迟降低35%,让语音生成的即时响应体验大幅提升。同时,模型优化了生僻字识别逻辑,读错率显著下降,搭配FreeStyle自然语言指令,用户无需掌握专业术语,用日常表述就能精准控制语音的语速、语调与情感走向。
如果说Fun-CosyVoice3.5是高效的“语音执行者”,Fun-AudioGen-VD 则更像一位专业“声音导演”。这款模型主打定制化与场景化表达,支持用户一键生成专属音色,还能模拟不同角色的语音风格——从沉稳的纪录片旁白到活泼的动漫角色,甚至能精准还原悲伤、兴奋等复杂情绪状态。此外,它可直接叠加背景音与空间音效,让生成的音频直接适配影视片段、游戏剧情等复杂场景,无需后期二次加工。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
13 小时前
2026年4月,人工智能研发公司OpenAI正式推出新一代大语言模型GPT-5.5,该模型在多模态理解、复杂任务推理、长上下文处理等多维度能力均实现大幅提升。此次迭代也被视作OpenAI推进“一站式AI超级应用”长期战略的重要节点,将对全球消费级AI工具的市场竞争格局产生深远影响。

15 小时前
AI硬件软件平台开发商Era于近日宣布完成1100万美元融资,本轮资金将主要用于面向多形态AI硬件的底层软件平台研发,覆盖智能眼镜、智能戒指、智能吊坠等消费级AI可穿戴品类。该公司认为未来AI硬件将脱离手机附属品定位,形成多形态并行的独立生态,其研发的通用软件平台将解决不同硬件形态的AI能力适配难题。

17 小时前
2026年以来,全球天文领域正大规模落地AI星系探测技术,科研团队依托GPU算力支撑,可快速从PB级星际观测数据中筛选出微弱的未知天体信号。这类新增科研算力需求,已成为继大语言模型训练、AIGC内容生产之后,全球GPU供应缺口扩大的新诱因,当前高端通用GPU交付周期已延长至14个月,高端H100芯片市场溢价率超40%。

18 小时前
4月21日MIT Technology Review资深记者Mat Honan发布专题报道指出,2026年全球AI应用渗透率已突破72%,覆盖办公、消费、公共服务等全场景,但伴随隐私争议、岗位替代焦虑、信息过载等问题持续发酵,公众对AI的正面认可度较2023年峰值下跌28个百分点,全球AI产业首次进入业界所称的“AI倦怠期”。

18 小时前
2026年4月23日,腾讯正式发布混元系列最新开源大语言模型Hy3 Preview,该模型总参数达295亿,在复杂推理、指令遵循、代码处理等维度表现实现显著提升,研发阶段坚持实用性、真实评测、高性价比三大原则,目前已接入多款腾讯自有产品,同时兼容主流开源智能体工具,为开发者提供了新的高性价比选型。

18 小时前
Alphabet首席执行官桑达尔·皮查伊近日披露,谷歌内部超75%的新增代码已由人工智能自动生成,标志其“AI优先”战略落地取得实质性突破。该比例2025年4月仅为30%,一年间涨幅超150%,所有AI生成代码仍需经过专业开发工程师严格审核以保障安全。2026年Alphabet预计全年资本支出将达1750亿美元,持续加码AI底层布局。

18 小时前
2026年4月23日第26个世界知识产权日来临前夕,杭州市中级人民法院公开开庭审理全国首例AI智能体流量劫持不正当竞争案,该案由杭州中院院长、一级高级法官唐学兵担任审判长。原告为AI应用“K智能体”运营方,指控被告通过输入法植入的“W智能大模型”功能劫持自身平台用户流量,案件引发AI领域竞争规则的广泛讨论。

18 小时前
2026年4月以来,国内社交平台接连出现AI合成虚假资讯:先是伪造的小米汽车官宣苹果CEO库克出任CEO海报登上微博热搜,小米高管紧急公开辟谣;随后特斯拉CEO马斯克加入拼多多旗下拼好饭的假海报再度引发大范围传播,此类足以乱真的AI合成内容造谣成本近乎为零,引发公众对数字时代信息真实性的广泛讨论。