登录体验完整功能(收藏、点赞、评论等) —

让AI触手可及,让应用激发潜能

英伟达发布Nemotron 3多模态大模型 智能体效率提升9倍

2026年4月29日,英伟达正式发布开放式多模态大模型Nemotron 3 Nano Omni,采用30B-A3B混合专家架构,原生集成音视觉编码器无需额外感知模型,推理效率较传统方案提升9倍,在复杂文档解析、音视频理解等领域表现优异,跻身六大权威评测榜单前列,H Company首席执行官Gautier Cloix称其为智能体技术的重要突破。

过去两年AI智能体的商业化落地始终卡在多模态感知的效率瓶颈——大多数行业方案需要将大语言模型与独立的图像、音频、视频识别模型串联调用,不仅部署成本高,推理延迟更是难以满足实时交互需求,直接限制了智能体在办公、工业检测等场景的规模化应用。

随着AI应用从单一场景向复杂交互场景延伸,行业对多模态模型的要求已经从“能识别”转向“快响应、低成本”。此前多数厂商推出的多模态方案普遍采用“大模型+外挂感知模块”的拼接架构,用户调用时需要完成多次模型间的信号传输与格式转换,单次推理的算力消耗是纯文本模型的3-5倍,且精度往往受限于感知模块的适配效果。

本次英伟达推出的Nemotron 3 Nano Omni最大的革新,就是将视频、音频、图像、文本的推理能力完全整合到同一模型框架中,采用30B-A3B混合专家架构原生集成视觉与音频编码器,完全不需要依赖额外的感知模型支持。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯
AI小创