2026年4月29日,英伟达正式发布开放式多模态大模型Nemotron 3 Nano Omni,采用30B-A3B混合专家架构,原生集成音视觉编码器无需额外感知模型,推理效率较传统方案提升9倍,在复杂文档解析、音视频理解等领域表现优异,跻身六大权威评测榜单前列,H Company首席执行官Gautier Cloix称其为智能体技术的重要突破。
过去两年AI智能体的商业化落地始终卡在多模态感知的效率瓶颈——大多数行业方案需要将大语言模型与独立的图像、音频、视频识别模型串联调用,不仅部署成本高,推理延迟更是难以满足实时交互需求,直接限制了智能体在办公、工业检测等场景的规模化应用。
随着AI应用从单一场景向复杂交互场景延伸,行业对多模态模型的要求已经从“能识别”转向“快响应、低成本”。此前多数厂商推出的多模态方案普遍采用“大模型+外挂感知模块”的拼接架构,用户调用时需要完成多次模型间的信号传输与格式转换,单次推理的算力消耗是纯文本模型的3-5倍,且精度往往受限于感知模块的适配效果。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录