近日,通义实验室发布两款支持FreeStyle指令生成的语音大模型Fun-CosyVoice3.5与Fun-AudioGen-VD。其中Fun-CosyVoice3.5新增4个语种支持,通过技术优化将生僻字读错率从15.2%降至5.3%,首包延迟降低35%;Fun-AudioGen-VD则聚焦场景化声音建模,两款模型为语音AI的精细化应用与场景拓展提供了新可能。
在有声读物播报、专业学术文献朗读等场景中,生僻字读错一直是困扰语音AI落地的核心难题——据行业调研,传统语音模型对生僻字的读错率普遍超过15%,这不仅影响信息传递的准确性,还可能在文化传播、专业服务等场景下引发误解。
作为通义实验室CosyVoice系列的最新迭代产品,Fun-CosyVoice3.5在多语种覆盖与语音精度上实现了关键突破。此次版本新增4个语种支持,进一步拓宽了跨境语音交互的适用范围;生僻字读错率从15.2%大幅降至5.3%,这一数据意味着专业古籍、学术文献等包含生僻字的内容,也能实现高精度语音播报。同时,模型的首包延迟降低35%,让实时语音交互的响应速度更贴近自然对话的节奏。
更重要的是,Fun-CosyVoice3.5支持FreeStyle指令生成,用户无需依赖固定格式的指令,仅用自然语言就能定制语音的语气、节奏、情感等细节——比如“用沉稳的日语朗读这段包含生僻汉字的历史资料”,模型能精准理解并输出符合要求的语音内容。
如果说Fun-CosyVoice3.5聚焦于“人”的语音表达,那么Fun-AudioGen-VD则瞄准了“环境与场景”的声音构建。这款模型同样支持FreeStyle指令,用户可以通过自由表述,要求模型生成特定场景下的声音组合——比如“模拟雷雨夜晚的小木屋壁炉声,夹杂轻微的书页翻动声”,或者“生成工厂车间里机器运作的背景音,带有轻微的金属碰撞声”。
这种对声音属性的精确控制能力,为内容创作行业打开了新的想象空间。影视后期制作、游戏音效设计、元宇宙场景搭建等领域,以往可能需要花费大量时间录制或编辑声音素材,而Fun-AudioGen-VD能快速生成符合要求的定制化声音,大幅提升创作效率。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
21 天前
2026年4月2日,阿里通义实验室正式推出大语言模型Qwen3.6-Plus,聚焦解决AI智能体编程任务执行不稳定的核心痛点。该模型现已通过阿里云百炼API开放调用,默认支持100万字符上下文窗口,模型尺寸不足K2.5、GLM-5的一半,在前端生成、代码修复等场景编码能力领先国内同尺寸模型。

24 天前
2026年3月31日,阿里巴巴通义实验室正式推出新一代全模态大模型Qwen3.5-Omni。该模型采用原生全模态架构及Hybrid-Attention MoE底层架构,可无缝处理文本、图像、音频、视频输入,在音视频分析、推理、翻译等多领域测试中拿下215项SOTA,音频理解能力全面超越谷歌Gemini-3.1Pro,推动AI从屏幕助手向物理世界智能体演进。

1 个月前
2026年3月24日,阿里通义实验室正式推出全新视频生成音频框架PrismAudio,通过引入分解式思维链机制,实现AI先解析视频内容逻辑再生成匹配音效,可彻底解决行业长期存在的音画错位、声不对位问题,相关研究成果已被顶级AI学术会议ICLR2026收录,将大幅提升AIGC视频内容的用户沉浸感。

1 个月前
2026年3月16日,IBM正式发布专为边缘计算与企业级部署打造的紧凑型多模态语音大模型Granite 4.0 1B Speech。该模型参数量仅为前代产品的50%,性能实现显著跃升,新增日语自动语音识别、关键词偏置功能,英文转录准确率大幅提升,目前已支持6种主流语言的语音识别与双向互译。

1 个月前
2026年3月16日,阿里云旗下通义实验室正式开源国内首个影视级多场景配音多模态大模型Fun-CineForge。该模型针对传统AI配音情绪表达不足、口型匹配度低、多人对话音色混乱等痛点,实现口型同步、情绪匹配、音色统一、毫秒级时间对齐四大核心能力,首次攻克影视场景多人对话配音的核心难题,可大幅降低影视、动画内容的制作成本。

1 个月前
近日,阿里通义实验室语音团队推出两款全新语音生成模型——Fun-CosyVoice3.5与Fun-AudioGen-VD。其中Fun-CosyVoice3.5升级语音理解力,新增4种语言支持并将首包延迟降低35%;Fun-AudioGen-VD可实现音色定制、角色模拟等功能,两款模型均支持FreeStyle指令,大幅降低语音创作门槛,将为播客、游戏等领域提供AI助力。

1 个月前
3月2日,阿里通义实验室语音团队正式发布两款支持FreeStyle指令生成的语音AI模型——Fun-CosyVoice3.5与Fun-AudioGen-VD。前者主打多语种音色复刻与精细化表达控制,后者聚焦声音设计与场景化音频生成,用户仅需自然语言指令即可实现定制化音频内容的快速生成,无需复杂参数调整或专业技能。

1 个月前
3月2日,阿里通义实验室语音团队发布Fun-CosyVoice3.5和Fun-AudioGen-VD两款语音生成模型,主打FreeStyle自然语言控制能力,用户无需复杂参数即可通过文字指令调控音色风格或构建音频场景。其中Fun-CosyVoice3.5作为迭代升级产品,新增泰语等4种语种支持,将生僻字读错率从15.2%降至5.3%,在多语种复刻领域实现精细化突破。