2026年3月31日,阿里巴巴通义实验室正式推出新一代全模态大模型Qwen3.5-Omni。该模型采用原生全模态架构及Hybrid-Attention MoE底层架构,可无缝处理文本、图像、音频、视频输入,在音视频分析、推理、翻译等多领域测试中拿下215项SOTA,音频理解能力全面超越谷歌Gemini-3.1Pro,推动AI从屏幕助手向物理世界智能体演进。
3月30日晚的通义实验室技术开放日上,这款打磨了14个月的新模型并没有做过多的概念包装,而是直接甩出了全测试集的跑分成绩——涵盖37个主流多模态评测基准的215项单项第一,直接刷新了全球同参数级大模型的最好成绩。
过去两年,大模型的竞争已经从文本能力的“单赛道赛跑”,转向多模态、全感官能力的“全能比拼”。从OpenAI推出GPT-4o实现音视频实时交互,到谷歌Gemini系列不断迭代多模态处理能力,海外科技巨头已经在全模态领域布局超过一年,而国内厂商此前的多模态产品大多是在文本底座上拼接视觉、音频模块,存在融合效率低、交互延迟高等问题。Qwen3.5-Omni的发布,意味着国内厂商首次在全模态综合能力上追平甚至超越海外头部产品。
和行业主流的“拼接式”多模态架构不同,Qwen3.5-Omni采用原生全模态架构,可以实现四种输入模态的底层融合,不需要针对不同模态单独做适配,处理跨模态任务的效率提升超过40%。
官方公布的测试数据显示,该模型在音视频分析、推理、对话、翻译四大类测试中,一共拿下215项SOTA(业界最佳成绩),其中在通用音频理解与识别领域的表现全面超越谷歌Gemini-3.1Pro,视觉与文本能力则保持了与同尺寸Qwen3.5模型持平的顶尖水准。
底层架构上,Qwen3.5-Omni延续了通义经典的Thinker-Talker分工模式并做了重构:Thinker作为理解中枢升级为Hybrid-Attention MoE架构,负责多模态信息的融合推理;Talker作为交互模块负责输出符合场景需求的自然内容,二者的配合大幅提升了模型的交互感和任务执行力。
此前的多模态大模型大多被定位为“屏幕内的助手”,主要服务于数字内容生成、线上咨询等场景。而原生全模态架构的落地,让AI拥有了类似人类的“全感官”理解能力,可以直接处理真实世界的音视频输入。
据通义实验室透露,目前Qwen3.5-Omni已经在工业巡检、线下服务机器人、无障碍辅助、实时多模态同传等场景开启测试,未来将逐步向开发者开放API接口,降低全模态AI应用的开发门槛。业内分析认为,随着全模态大模型能力的不断成熟,AI将真正走出手机、电脑的屏幕,成为能理解物理世界、参与现实交互的通用智能体。

4 小时前
2026年3月30日,阿里巴巴正式发布新一代全模态大模型千问Qwen3.5-Omni。该模型搭载混合注意力MoE架构,支持图片、视频、语音、文字全模态无缝交互,在音视频理解、识别等215项测试任务中拿下SOTA,性能大幅领先Google Gemini-3.1Pro,标志国产大模型在视听交互领域达到全球顶尖水平。

4 天前
2026年3月27日,谷歌宣布旗下Google Translate的Live Translate(实时翻译)功能正式登陆iOS系统,打破此前仅支持Pixel系列自有硬件的限制。该功能由Gemini AI大模型底层驱动,支持70余种语言翻译,搭配任意带麦克风的耳机即可实现低延迟跨语言对话,语调自然度大幅提升,现已覆盖iOS、Android双端移动端用户。

4 天前
2026年3月27日,谷歌正式面向全球超过200个国家和地区推出多模态搜索功能Search Live,该功能搭载全新Gemini 3.1 Flash Live大模型,支持用户通过手机摄像头、语音指令完成与现实场景的实时AI交互,可覆盖家具组装指导、动植物识别等多场景需求,是谷歌应对AI搜索赛道竞争的核心战略动作。

4 天前
2026年3月披露的产业合作信息显示,苹果公司已获得谷歌Gemini大模型的完全访问权限,将依托Gemini输出的高质量答案、逻辑思维链数据,通过模型蒸馏技术训练自研轻量化端侧AI模型,缩小小模型与顶级大模型的能力差距。目前苹果Apple Foundation Models团队仍同步推进底层大模型自研,相关AI功能最快将于年内落地终端产品。

4 天前
2026年3月27日,谷歌旗下AI助手Gemini正式上线「记忆导入」功能,支持用户将其他AI助理的对话记忆、个人偏好快速迁移至Gemini平台。该功能提供轻量总结同步、批量数据上传两种迁移路径,批量上传最高支持5GB压缩文件,彻底解决AI用户更换平台需重新调教助手的痛点,大幅降低跨平台迁移成本。

4 天前
美国科技巨头谷歌于2026年3月26日正式推出面向AI聊天机器人用户的跨平台迁移工具,支持用户将ChatGPT、Claude等其他主流AI助手的历史对话、个性化设置等个人数据一键导入Gemini平台,无需手动复制整理,预计将大幅降低用户切换AI服务的迁移成本,进一步搅动全球消费级大语言模型市场的竞争格局。

5 天前
2026年3月,全球在线旅游巨头Booking Holdings首席执行官格伦·福格尔公开表态,直指谷歌Gemini、OpenAI ChatGPT等AI助手的单一化推荐机制,正在挤压中小酒店生存空间。当前AI搜索仅为用户提供1-3个筛选后的“最优解”,缺乏AI运营能力的中小酒店极易被完全过滤,或将进一步加剧在线旅游流量分配的垄断格局。

5 天前
2026年3月披露的合作信息显示,苹果与谷歌达成深度授权协议,允许苹果工程师直接访问数据中心内的Gemini全量大模型,通过知识蒸馏技术将云端Gemini转化为适配iPhone的轻量化端侧AI组件。此举既保留了Gemini的推理精度与响应速度,又大幅降低端侧算力需求,将进一步强化苹果端侧AI的用户体验与技术自主性。