2026年3月16日,阿里云旗下通义实验室正式开源国内首个影视级多场景配音多模态大模型Fun-CineForge。该模型针对传统AI配音情绪表达不足、口型匹配度低、多人对话音色混乱等痛点,实现口型同步、情绪匹配、音色统一、毫秒级时间对齐四大核心能力,首次攻克影视场景多人对话配音的核心难题,可大幅降低影视、动画内容的制作成本。
国内动画、网剧市场的产能爆发,正在倒逼后期制作环节的技术升级。据影视行业协会发布的调研数据,2025年国内待上线的动画番剧总时长突破1200小时,专业配音演员的档期缺口超过40%,不少制作组为了赶上线节点,不得不牺牲配音质量,而此前的AI配音工具始终无法满足影视级的制作要求。
此前主流的AI配音工具大多基于单模态文字转语音(TTS)技术,仅能根据文字生成对应的语音,无法结合画面信息调整发音状态,在面对影视、动画等专业场景时,容易出现口型对不上、情绪不符合人物状态、多人对话时同一个角色音色忽变等问题,甚至还有不少工具会出现半秒钟左右的音画时差,完全达不到播出标准。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录