2026年3月30日,阿里巴巴正式发布新一代全模态大模型千问Qwen3.5-Omni。该模型搭载混合注意力MoE架构,支持图片、视频、语音、文字全模态无缝交互,在音视频理解、识别等215项测试任务中拿下SOTA,性能大幅领先Google Gemini-3.1Pro,标志国产大模型在视听交互领域达到全球顶尖水平。
国内大模型产业的追赶式发展,终于在全模态赛道实现了历史性反超。在3月30日的阿里千问年度发布会上,官方披露的测试数据显示,Qwen3.5-Omni在DailyOmni、QualcommInteractive等多个聚焦真实场景视听交互的权威测试集中,平均得分较Google Gemini-3.1Pro高出7.2个百分点,即便是在嘈杂背景、低清音视频的极端测试条件下,识别准确率仍比竞品高出12%。
近两年大模型的迭代方向已经从单一的文字处理能力,转向对多类型信息的综合理解能力。全模态大模型能够同时理解和输出文字、图像、音频、视频等不同形式的信息,交互逻辑更接近人类的自然感知方式,也被认为是下一代智能设备的核心交互入口。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录