少找工具,多做创作

阿里发布Qwen3.5-Omni全模态大模型 斩获215项全球评测SOTA

2026年3月30日,阿里正式推出新一代全模态大模型Qwen3.5-Omni。该模型原生支持文本、图片、音视频多模态输入,适配256k长上下文与最长10小时音频输入,实测可完整理解50分钟《老友记》剧情,在全球215项权威评测中拿下SOTA,部分性能表现超过谷歌Gemini 3.1 Pro。

不少用户此前测试全模态大模型时都遇到过类似尴尬:上传一段10分钟以上的视频,模型要么只能提炼出大概剧情,要么对细节问题频频出错。而在Qwen3.5-Omni的实测中,研究人员将整集50分钟的《老友记》无剪辑上传,模型不仅能完整复述整集剧情脉络,还能精准回答“第12分钟莫妮卡和瑞秋吵架的导火索是什么”“钱德勒全程一共说了多少句冷笑话”这类细节问题,准确率达到95%以上。

Qwen3.5-Omni《老友记》理解测试结果示意

距离阿里上次更新Omni系列全模态模型仅过去半年,本次推出的Qwen3.5-Omni在架构上放弃了传统多模态模型“分模块处理再拼接”的方案,采用统一的原生全模态架构,对不同类型输入的处理效率和准确率都有大幅提升。

本次发布的Qwen3.5-Omni共包含Plus、Flash、Light三种尺寸,覆盖云端推理、低成本部署、端侧落地三类场景,全系标配256k长上下文窗口,最长可支持10小时连续音频输入,同时支持文本、语音双模态输出,用户既可以要求模型输出文字总结,也能直接生成对应风格的语音内容。

根据官方披露的测试数据,Qwen3.5-Omni在视觉理解、语音识别、长时序内容推理、跨模态关联等核心赛道的215项全球权威评测中拿下SOTA(最优表现),部分核心指标已经超过谷歌最新发布的Gemini 3.1 Pro,跻身全球全模态大模型第一梯队。

业内人士分析,此前海外厂商在全模态赛道长期保持领先优势,但国内大模型厂商在长上下文、多模态理解等场景的本土化优化进展更快,本次Qwen3.5-Omni的发布也进一步缩小了国内外大模型的技术差距。

10小时级的音频/视频处理能力,也让全模态大模型的商用落地边界进一步拓宽。相较于此前行业普遍支持的1-2小时音频输入,Qwen3.5-Omni可以直接处理完整的会议录音、公开课全集、影视剧单集内容,无需提前分片切割,处理效率提升超过400%。

从落地场景来看,高性能的Plus版本可用于长视频审核、专业内容生产等对精度要求较高的场景,轻量的Flash和Light版本则可以部署在智能终端、智能家居设备上,为端侧智能助手提供更流畅的交互体验。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创