2026年3月16日,阿里通义实验室正式发布并开源全球首个支持影视级、多场景配音的多模态大模型Fun-CineForge。该模型采用“数据+模型”一体化设计,可破解传统AI配音机械感、播音腔痛点,实现角色情感细腻表达、环境音自然融合与口型精准同步,同时配套开放高质量数据集构建方法,有望推动影视配音环节智能化变革。
如果你看过用AI配音的影视剪辑,大概率会对那种平白无起伏的“机械音”印象深刻:明明角色正在经历生离死别,AI的语调却和播报天气预报毫无差别,更不用提和角色口型对齐、贴合背景环境音这些进阶要求。而这一困扰行业多年的痛点,如今终于有了成熟的解决方案。
AIGC在文字创作、图像生成领域已经实现工业化应用,但音频领域尤其是配音环节,始终是AI难以攻破的堡垒。过去的TTS(语音合成)模型最多能满足短视频旁白、有声书等低要求场景,一旦进入影视剧、动画等专业领域,三大问题始终无解:一是情感表达生硬,无法匹配角色的情绪起伏、性格特征;二是声场适配性差,无法匹配画面中的环境背景音,需要后期二次混音;三是口型匹配度低,经常出现音画不同步的问题,后期调整成本甚至高于人工配音。
也正因此,专业配音环节始终依赖人工,成本高、周期长,中小制作团队往往难以负担。以国内网剧市场为例,单集配音成本最高可达15万元,部分小成本项目甚至因为承担不起配音费用,只能选择让演员自己后期补录,最终效果大打折扣。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录