
1 小时前
2026年4月29日,英伟达正式发布开放式多模态大模型Nemotron 3 Nano Omni,采用30B-A3B混合专家架构,原生集成音视觉编码器无需额外感知模型,推理效率较传统方案提升9倍,在复杂文档解析、音视频理解等领域表现优异,跻身六大权威评测榜单前列,H Company首席执行官Gautier Cloix称其为智能体技术的重要突破。

3 小时前
当地时间2026年4月28日,英伟达正式推出开放式多模态大模型Nemotron3Nano Omni,该产品采用30B-A3B混合专家架构,内置视觉与音频编码器,可同步处理视频、音频、图像、文本四类内容。官方数据显示其吞吐量为同类开放式全向模型的9倍,在六大权威多模态能力排行榜中均位列第一,可大幅降低开发者部署AI应用的成本。

28 天前
2026年3月30日,阿里正式推出新一代全模态大模型Qwen3.5-Omni。该模型原生支持文本、图片、音视频多模态输入,适配256k长上下文与最长10小时音频输入,实测可完整理解50分钟《老友记》剧情,在全球215项权威评测中拿下SOTA,部分性能表现超过谷歌Gemini 3.1 Pro。

29 天前
2026年3月30日,阿里巴巴正式发布新一代全模态大模型千问Qwen3.5-Omni。该模型搭载混合注意力MoE架构,支持图片、视频、语音、文字全模态无缝交互,在音视频理解、识别等215项测试任务中拿下SOTA,性能大幅领先Google Gemini-3.1Pro,标志国产大模型在视听交互领域达到全球顶尖水平。

29 天前
2026年3月31日,阿里巴巴通义实验室正式推出新一代全模态大模型Qwen3.5-Omni。该模型采用原生全模态架构及Hybrid-Attention MoE底层架构,可无缝处理文本、图像、音频、视频输入,在音视频分析、推理、翻译等多领域测试中拿下215项SOTA,音频理解能力全面超越谷歌Gemini-3.1Pro,推动AI从屏幕助手向物理世界智能体演进。

2 个月前
蚂蚁开源全模态大模型Ming-flash-omni 2.0 部分指标超越Gemini 2.5 Pro 2月11日,蚂蚁集团正式开源发布全模态大模型Ming-flash-omni 2.0,在视觉语言理解、语音生成、图像编辑等多维度基准测试中表现优异,部分核心指标超越Google Gemini 2...
v2.0 · 创作导航全站AI助手
您好!我是AI小创,问答助手
当前模式:日常对话 — 自由聊天模式,不强制引用站内知识
为了获得更好的交流体验: