登录体验完整功能(收藏、点赞、评论等)

少找工具,多做创作

通义实验室发布PrismAudio 破解AI视频音画不同步痛点获ICLR2026收录

2026年3月24日,阿里通义实验室正式推出全新视频生成音频框架PrismAudio,通过引入分解式思维链机制,实现AI先解析视频内容逻辑再生成匹配音效,可彻底解决行业长期存在的音画错位、声不对位问题,相关研究成果已被顶级AI学术会议ICLR2026收录,将大幅提升AIGC视频内容的用户沉浸感。

不少体验过AI生成视频的用户都有过类似的尴尬:画面里马蹄踏过青石板,传出的却是清脆的鸟叫;角色抬手关上门,关门声却慢了整整半拍。在文生视频技术迭代速度远超预期的2026年,音效匹配度低已经成为阻碍AIGC视频走向工业化应用的核心短板。

过去一年间,AIGC视频赛道跑出了包括OpenAI Sora、字节即梦等多款现象级产品,视频分辨率从480P跃升至4K,生成时长从几秒拉长到10分钟以上,画面的真实度几乎可以媲美实拍内容。

但与之相对的是,音频生成环节的技术迭代始终滞后。传统的视频配音模型大多采用“输入画面直接输出音频”的直觉式生成逻辑,没有对画面内容的语义、时序、空间信息做分层解析,最终生成的音效要么与画面内容无关,要么时序错位,甚至出现空间方位错误,直接拉低整个视频的体验质感。

此次通义实验室推出的PrismAudio,核心差异就在于引入了分解式思维链机制,彻底改变了传统模型的生成逻辑。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创