登录体验完整功能(收藏、点赞、评论等) — 已累计有 8620 人加入

让AI触手可及,让应用激发潜能

阿里通义开源Fun-CineForge 攻克影视级AI配音核心痛点

2026年3月16日,阿里通义实验室正式发布并开源影视级配音多模态大模型Fun-CineForge,针对AI配音长期存在的口型不同步、情感表达缺失、多角色音色不一致等核心痛点,创新引入“时间模态”概念实现精准音画对齐,同步开源的CineDub数据集构建流程可将中英文字错率降至1%、说话人分离错误率仅1.2%。

2026年3月16日,阿里通义实验室将全新影视级多场景配音大模型Fun-CineForge的权重、推理代码及配套工具全部上传至全球知名开源社区,此前困扰内容生产行业多年的AI配音痛点,终于迎来了可落地的开源解决方案。

近两年来,随着国产内容出海、短视频二创、虚拟内容生产的需求爆发,配音环节的效率瓶颈愈发凸显:传统人工配音成本动辄每分钟数百元,译制类内容还需要额外花费大量人力对齐口型,周期通常按周计算;而此前市面上的AI配音工具大多只能满足普通有声书、旁白的需求,面对影视级场景的复杂要求,普遍存在口型错位、情感干瘪、多角色音色混淆等问题,始终无法进入专业内容生产链路。

Fun-CineForge的核心创新在于首次将时间模态概念引入配音大模型架构。不同于传统模型仅关注文本内容和静态面部特征,该模型把时间维度纳入训练框架,通过精准的时间戳控制语音生成的节点,即便在画面中人物被遮挡、镜头频繁切换或面部模糊的复杂影视场景下,依然能实现极高的音画同步率和指令遵循能力。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯
AI小创