登录体验完整功能(收藏、点赞、评论等) — 已累计有 8620 人加入

让AI触手可及,让应用激发潜能

阿里通义开源全球首个影视级配音大模型 破解AI配音情感瓶颈

2026年3月16日,阿里通义实验室正式发布并开源全球首个支持影视级、多场景配音的多模态大模型Fun-CineForge。该模型采用“数据+模型”一体化设计,可破解传统AI配音机械感、播音腔痛点,实现角色情感细腻表达、环境音自然融合与口型精准同步,同时配套开放高质量数据集构建方法,有望推动影视配音环节智能化变革。

如果你看过用AI配音的影视剪辑,大概率会对那种平白无起伏的“机械音”印象深刻:明明角色正在经历生离死别,AI的语调却和播报天气预报毫无差别,更不用提和角色口型对齐、贴合背景环境音这些进阶要求。而这一困扰行业多年的痛点,如今终于有了成熟的解决方案。

AIGC在文字创作、图像生成领域已经实现工业化应用,但音频领域尤其是配音环节,始终是AI难以攻破的堡垒。过去的TTS(语音合成)模型最多能满足短视频旁白、有声书等低要求场景,一旦进入影视剧、动画等专业领域,三大问题始终无解:一是情感表达生硬,无法匹配角色的情绪起伏、性格特征;二是声场适配性差,无法匹配画面中的环境背景音,需要后期二次混音;三是口型匹配度低,经常出现音画不同步的问题,后期调整成本甚至高于人工配音。

也正因此,专业配音环节始终依赖人工,成本高、周期长,中小制作团队往往难以负担。以国内网剧市场为例,单集配音成本最高可达15万元,部分小成本项目甚至因为承担不起配音费用,只能选择让演员自己后期补录,最终效果大打折扣。

此次发布的Fun-CineForge最大的特点,就是采用了行业首创的“数据+模型”一体化设计。和过去单纯优化模型参数的路线不同,通义实验室不仅开源了模型本身,还配套开放了高质量影视配音数据集的构建方法,用户可以根据自身需求微调模型,适配不同语种、方言甚至特定演员的声线需求。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯
AI小创