2026年3月24日,阿里通义实验室正式推出全新视频生成音频框架PrismAudio,通过引入分解式思维链机制,实现AI先解析视频内容逻辑再生成匹配音效,可彻底解决行业长期存在的音画错位、声不对位问题,相关研究成果已被顶级AI学术会议ICLR2026收录,将大幅提升AIGC视频内容的用户沉浸感。
不少体验过AI生成视频的用户都有过类似的尴尬:画面里马蹄踏过青石板,传出的却是清脆的鸟叫;角色抬手关上门,关门声却慢了整整半拍。在文生视频技术迭代速度远超预期的2026年,音效匹配度低已经成为阻碍AIGC视频走向工业化应用的核心短板。
过去一年间,AIGC视频赛道跑出了包括OpenAI Sora、字节即梦等多款现象级产品,视频分辨率从480P跃升至4K,生成时长从几秒拉长到10分钟以上,画面的真实度几乎可以媲美实拍内容。
但与之相对的是,音频生成环节的技术迭代始终滞后。传统的视频配音模型大多采用“输入画面直接输出音频”的直觉式生成逻辑,没有对画面内容的语义、时序、空间信息做分层解析,最终生成的音效要么与画面内容无关,要么时序错位,甚至出现空间方位错误,直接拉低整个视频的体验质感。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录