登录体验完整功能(收藏、点赞、评论等) —

让AI触手可及,让应用激发潜能

英伟达发布多模态全能大模型 推理效率达同类型产品9倍

当地时间2026年4月28日,英伟达正式推出开放式多模态大模型Nemotron3Nano Omni,该产品采用30B-A3B混合专家架构,内置视觉与音频编码器,可同步处理视频、音频、图像、文本四类内容。官方数据显示其吞吐量为同类开放式全向模型的9倍,在六大权威多模态能力排行榜中均位列第一,可大幅降低开发者部署AI应用的成本。

近两年企业级AI智能体的落地潮中,多模态能力的适配始终是核心难点。市面上绝大多数多模态方案都采用「大语言模型外挂独立感知模块」的拼接式设计,不仅跨模态上下文衔接不畅、理解准确率偏低,多重模型调用也会拉高推理成本、拉长响应延迟,不少企业都卡在「效果和成本二选一」的落地困境中。

过去几年,多模态大模型的能力边界不断拓展,但落地端的痛点始终没有得到根本解决。为了实现对图像、音频、视频等非文本内容的处理,大多数厂商选择在通用大语言模型之外,额外接入独立的视觉识别、语音识别模型,再通过中间层做数据对齐。

这种模式下,不同模态的信息无法在同一上下文空间内交互,很容易出现「用户发了带文字的图片,AI只能识别图片内容却读不懂图中文字」的低级错误,同时多轮接口调用也会让推理成本翻倍,高并发场景下的延迟甚至能到秒级,完全达不到实时交互的要求。

英伟达此次推出的Nemotron3Nano Omni,核心创新就是从架构层面解决了多模态拼接的问题。该模型采用30B-A3B混合专家(MoE)架构,首次将视觉编码器、音频编码器直接集成到模型的原生架构中,所有模态的数据都能在统一的上下文空间内处理,彻底告别了过去碎片化的信息流转模式。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯
AI小创