通义实验室发布全模态大模型Qwen3.5-Omni 斩获215项SOTA

AI创作导航 1 个月前

风向

103

2026年3月31日，阿里巴巴通义实验室正式推出新一代全模态大模型Qwen3.5-Omni。该模型采用原生全模态架构及Hybrid-Attention MoE底层架构，可无缝处理文本、图像、音频、视频输入，在音视频分析、推理、翻译等多领域测试中拿下215项SOTA，音频理解能力全面超越谷歌Gemini-3.1Pro，推动AI从屏幕助手向物理世界智能体演进。

3月30日晚的通义实验室技术开放日上，这款打磨了14个月的新模型并没有做过多的概念包装，而是直接甩出了全测试集的跑分成绩——涵盖37个主流多模态评测基准的215项单项第一，直接刷新了全球同参数级大模型的最好成绩。

过去两年，大模型的竞争已经从文本能力的“单赛道赛跑”，转向多模态、全感官能力的“全能比拼”。从OpenAI推出GPT-4o实现音视频实时交互，到谷歌Gemini系列不断迭代多模态处理能力，海外科技巨头已经在全模态领域布局超过一年，而国内厂商此前的多模态产品大多是在文本底座上拼接视觉、音频模块，存在融合效率低、交互延迟高等问题。Qwen3.5-Omni的发布，意味着国内厂商首次在全模态综合能力上追平甚至超越海外头部产品。

和行业主流的“拼接式”多模态架构不同，Qwen3.5-Omni采用原生全模态架构，可以实现四种输入模态的底层融合，不需要针对不同模态单独做适配，处理跨模态任务的效率提升超过40%。

官方公布的测试数据显示，该模型在音视频分析、推理、对话、翻译四大类测试中，一共拿下215项SOTA（业界最佳成绩），其中在通用音频理解与识别领域的表现全面超越谷歌Gemini-3.1Pro，视觉与文本能力则保持了与同尺寸Qwen3.5模型持平的顶尖水准。

Gemini SOTA 全模态大模型通义实验室 Qwen3.5-Omni

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

Animate Anything AI

AI在线图片转视频工具

AI Music Gen

免费AI文生带人声音乐工具

C Dance AI

多模态AI动作视频生成工具

AI Baby Dance

免费AI宝宝舞蹈视频生成工具

veo 4 AI

AI生成4K电影级视频工具

Fxroom AI

面向创作者的AI图像视频创意工

MojoMake

一站式AI视频图像创作平台，零

SeeVido AI

AI生成文本图像转视频的创作工