2026年3月24日,阿里通义实验室正式推出全新视频生成音频框架PrismAudio,通过引入分解式思维链机制,实现AI先解析视频内容逻辑再生成匹配音效,可彻底解决行业长期存在的音画错位、声不对位问题,相关研究成果已被顶级AI学术会议ICLR2026收录,将大幅提升AIGC视频内容的用户沉浸感。
不少体验过AI生成视频的用户都有过类似的尴尬:画面里马蹄踏过青石板,传出的却是清脆的鸟叫;角色抬手关上门,关门声却慢了整整半拍。在文生视频技术迭代速度远超预期的2026年,音效匹配度低已经成为阻碍AIGC视频走向工业化应用的核心短板。
过去一年间,AIGC视频赛道跑出了包括OpenAI Sora、字节即梦等多款现象级产品,视频分辨率从480P跃升至4K,生成时长从几秒拉长到10分钟以上,画面的真实度几乎可以媲美实拍内容。
但与之相对的是,音频生成环节的技术迭代始终滞后。传统的视频配音模型大多采用“输入画面直接输出音频”的直觉式生成逻辑,没有对画面内容的语义、时序、空间信息做分层解析,最终生成的音效要么与画面内容无关,要么时序错位,甚至出现空间方位错误,直接拉低整个视频的体验质感。
此次通义实验室推出的PrismAudio,核心差异就在于引入了分解式思维链机制,彻底改变了传统模型的生成逻辑。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
2 天前
2026年4月2日,阿里通义实验室正式推出大语言模型Qwen3.6-Plus,聚焦解决AI智能体编程任务执行不稳定的核心痛点。该模型现已通过阿里云百炼API开放调用,默认支持100万字符上下文窗口,模型尺寸不足K2.5、GLM-5的一半,在前端生成、代码修复等场景编码能力领先国内同尺寸模型。

4 天前
2026年3月31日,阿里巴巴通义实验室正式推出新一代全模态大模型Qwen3.5-Omni。该模型采用原生全模态架构及Hybrid-Attention MoE底层架构,可无缝处理文本、图像、音频、视频输入,在音视频分析、推理、翻译等多领域测试中拿下215项SOTA,音频理解能力全面超越谷歌Gemini-3.1Pro,推动AI从屏幕助手向物理世界智能体演进。

19 天前
2026年3月16日,阿里云旗下通义实验室正式开源国内首个影视级多场景配音多模态大模型Fun-CineForge。该模型针对传统AI配音情绪表达不足、口型匹配度低、多人对话音色混乱等痛点,实现口型同步、情绪匹配、音色统一、毫秒级时间对齐四大核心能力,首次攻克影视场景多人对话配音的核心难题,可大幅降低影视、动画内容的制作成本。

1 个月前
近日,通义实验室发布两款支持FreeStyle指令生成的语音大模型Fun-CosyVoice3.5与Fun-AudioGen-VD。其中Fun-CosyVoice3.5新增4个语种支持,通过技术优化将生僻字读错率从15.2%降至5.3%,首包延迟降低35%;Fun-AudioGen-VD则聚焦场景化声音建模,两款模型为语音AI的精细化应用与场景拓展提供了新可能。

1 个月前
近日,阿里通义实验室语音团队推出两款全新语音生成模型——Fun-CosyVoice3.5与Fun-AudioGen-VD。其中Fun-CosyVoice3.5升级语音理解力,新增4种语言支持并将首包延迟降低35%;Fun-AudioGen-VD可实现音色定制、角色模拟等功能,两款模型均支持FreeStyle指令,大幅降低语音创作门槛,将为播客、游戏等领域提供AI助力。

1 个月前
3月2日,阿里通义实验室正式发布Fun-CosyVoice3.5与Fun-AudioGen-VD两款语音大模型,首次支持FreeStyle自然语言指令交互,实现“一句话生成语音”的自由体验。其中Fun-CosyVoice3.5新增4个语种支持,通过强化学习技术将生僻字读错率从15.2%降至5.3%,首包延迟降低35%。

2 小时前
近期,科技巨头微软针对旗下AI助手Copilot发布官方用户提示,明确不建议用户在高风险场景下过度依赖该工具。作为微软过去5年重点布局的核心AI产品,Copilot已覆盖Windows系统、Office办公套件、Azure云服务等全产品线,此前累计投入相关研发推广资源超100亿美元,此次态度转向引发AI产业对通用助手落地边界的广泛讨论。

4 小时前
近期微软确认将加大自研AI模型投入,打破此前AI产品线核心能力主要依赖OpenAI技术的合作模式,旗下AI助手Copilot、Azure云AI服务将逐步接入自研大模型,与OpenAI GPT系列、谷歌Gemini系列形成直接竞争。本次自研模型覆盖通用对话、代码生成、多模态处理等场景,预计2025年上半年完成核心产品线适配。