当地时间2026年4月28日,英伟达正式推出开放式多模态大模型Nemotron3Nano Omni,该产品采用30B-A3B混合专家架构,内置视觉与音频编码器,可同步处理视频、音频、图像、文本四类内容。官方数据显示其吞吐量为同类开放式全向模型的9倍,在六大权威多模态能力排行榜中均位列第一,可大幅降低开发者部署AI应用的成本。
近两年企业级AI智能体的落地潮中,多模态能力的适配始终是核心难点。市面上绝大多数多模态方案都采用「大语言模型外挂独立感知模块」的拼接式设计,不仅跨模态上下文衔接不畅、理解准确率偏低,多重模型调用也会拉高推理成本、拉长响应延迟,不少企业都卡在「效果和成本二选一」的落地困境中。
过去几年,多模态大模型的能力边界不断拓展,但落地端的痛点始终没有得到根本解决。为了实现对图像、音频、视频等非文本内容的处理,大多数厂商选择在通用大语言模型之外,额外接入独立的视觉识别、语音识别模型,再通过中间层做数据对齐。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录