2026年3月31日,阿里巴巴通义实验室正式推出新一代全模态大模型Qwen3.5-Omni。该模型采用原生全模态架构及Hybrid-Attention MoE底层架构,可无缝处理文本、图像、音频、视频输入,在音视频分析、推理、翻译等多领域测试中拿下215项SOTA,音频理解能力全面超越谷歌Gemini-3.1Pro,推动AI从屏幕助手向物理世界智能体演进。
3月30日晚的通义实验室技术开放日上,这款打磨了14个月的新模型并没有做过多的概念包装,而是直接甩出了全测试集的跑分成绩——涵盖37个主流多模态评测基准的215项单项第一,直接刷新了全球同参数级大模型的最好成绩。
过去两年,大模型的竞争已经从文本能力的“单赛道赛跑”,转向多模态、全感官能力的“全能比拼”。从OpenAI推出GPT-4o实现音视频实时交互,到谷歌Gemini系列不断迭代多模态处理能力,海外科技巨头已经在全模态领域布局超过一年,而国内厂商此前的多模态产品大多是在文本底座上拼接视觉、音频模块,存在融合效率低、交互延迟高等问题。Qwen3.5-Omni的发布,意味着国内厂商首次在全模态综合能力上追平甚至超越海外头部产品。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录