少找工具,多做创作

阿里发布千问Qwen3.5-Omni 215项SOTA超越Gemini登顶全模态赛道

2026年3月30日,阿里巴巴正式发布新一代全模态大模型千问Qwen3.5-Omni。该模型搭载混合注意力MoE架构,支持图片、视频、语音、文字全模态无缝交互,在音视频理解、识别等215项测试任务中拿下SOTA,性能大幅领先Google Gemini-3.1Pro,标志国产大模型在视听交互领域达到全球顶尖水平。

国内大模型产业的追赶式发展,终于在全模态赛道实现了历史性反超。在3月30日的阿里千问年度发布会上,官方披露的测试数据显示,Qwen3.5-Omni在DailyOmni、QualcommInteractive等多个聚焦真实场景视听交互的权威测试集中,平均得分较Google Gemini-3.1Pro高出7.2个百分点,即便是在嘈杂背景、低清音视频的极端测试条件下,识别准确率仍比竞品高出12%。

近两年大模型的迭代方向已经从单一的文字处理能力,转向对多类型信息的综合理解能力。全模态大模型能够同时理解和输出文字、图像、音频、视频等不同形式的信息,交互逻辑更接近人类的自然感知方式,也被认为是下一代智能设备的核心交互入口。

此前该领域的技术优势始终掌握在海外厂商手中,OpenAI的GPT-4o、Google的Gemini系列长期占据各类测试榜榜首,国产大模型大多处于追平阶段,尚未实现实质性的性能超越。

此次Qwen3.5-Omni能够拿下215项SOTA(当前最优性能),核心得益于其采用的混合注意力MoE架构

和传统多模态模型先将音视频、图像信息转化为文本再进行处理的逻辑不同,新架构实现了不同模态信息的原生并行处理,大幅降低了信息转换过程中的精度损耗。官方数据显示,215项SOTA覆盖了图像细粒度识别、长视频动作理解、复杂环境语音识别、多轮跨模态交互等多个细分领域,几乎实现了全模态赛道的全面霸榜。

性能的跨越式提升,也为全模态大模型的落地打开了新的想象空间。据阿里千问团队透露,Qwen3.5-Omni的轻量化版本已经可以实现端侧部署,后续将率先应用在阿里生态内的智能办公、车载交互、电商导购等场景,同时也会对外开放API接口,降低中小开发者搭建全模态应用的技术门槛。

有行业分析师指出,此次国产大模型在全模态赛道的领跑,不仅是技术研发能力的有力证明,也将为国内智能硬件、无障碍服务、工业检测等相关产业的发展提供底层技术支撑,有望带动整个AI应用生态的进一步繁荣。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创