少找工具,多做创作

通义实验室发布全模态大模型Qwen3.5-Omni 斩获215项SOTA

2026年3月31日,阿里巴巴通义实验室正式推出新一代全模态大模型Qwen3.5-Omni。该模型采用原生全模态架构及Hybrid-Attention MoE底层架构,可无缝处理文本、图像、音频、视频输入,在音视频分析、推理、翻译等多领域测试中拿下215项SOTA,音频理解能力全面超越谷歌Gemini-3.1Pro,推动AI从屏幕助手向物理世界智能体演进。

3月30日晚的通义实验室技术开放日上,这款打磨了14个月的新模型并没有做过多的概念包装,而是直接甩出了全测试集的跑分成绩——涵盖37个主流多模态评测基准的215项单项第一,直接刷新了全球同参数级大模型的最好成绩。

过去两年,大模型的竞争已经从文本能力的“单赛道赛跑”,转向多模态、全感官能力的“全能比拼”。从OpenAI推出GPT-4o实现音视频实时交互,到谷歌Gemini系列不断迭代多模态处理能力,海外科技巨头已经在全模态领域布局超过一年,而国内厂商此前的多模态产品大多是在文本底座上拼接视觉、音频模块,存在融合效率低、交互延迟高等问题。Qwen3.5-Omni的发布,意味着国内厂商首次在全模态综合能力上追平甚至超越海外头部产品。

和行业主流的“拼接式”多模态架构不同,Qwen3.5-Omni采用原生全模态架构,可以实现四种输入模态的底层融合,不需要针对不同模态单独做适配,处理跨模态任务的效率提升超过40%。

官方公布的测试数据显示,该模型在音视频分析、推理、对话、翻译四大类测试中,一共拿下215项SOTA(业界最佳成绩),其中在通用音频理解与识别领域的表现全面超越谷歌Gemini-3.1Pro,视觉与文本能力则保持了与同尺寸Qwen3.5模型持平的顶尖水准。

底层架构上,Qwen3.5-Omni延续了通义经典的Thinker-Talker分工模式并做了重构:Thinker作为理解中枢升级为Hybrid-Attention MoE架构,负责多模态信息的融合推理;Talker作为交互模块负责输出符合场景需求的自然内容,二者的配合大幅提升了模型的交互感和任务执行力。

此前的多模态大模型大多被定位为“屏幕内的助手”,主要服务于数字内容生成、线上咨询等场景。而原生全模态架构的落地,让AI拥有了类似人类的“全感官”理解能力,可以直接处理真实世界的音视频输入。

据通义实验室透露,目前Qwen3.5-Omni已经在工业巡检、线下服务机器人、无障碍辅助、实时多模态同传等场景开启测试,未来将逐步向开发者开放API接口,降低全模态AI应用的开发门槛。业内分析认为,随着全模态大模型能力的不断成熟,AI将真正走出手机、电脑的屏幕,成为能理解物理世界、参与现实交互的通用智能体。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创