少找工具,多做创作

英伟达发布Nemotron 3 Super开源大模型 推理速度提升300%

2026年3月12日,英伟达(NVIDIA)正式发布专为AI智能体设计的开源大模型Nemotron 3 Super。该模型采用Mamba-MoE混合架构,总参数达1200亿、激活参数仅120亿,推理速度提升300%、吞吐量上涨5倍,支持1M超长上下文,多项权威测评表现突出,发布后迅速成为开源社区关注焦点。

在闭源大模型不断拉高性能上限的当下,开源阵营的效率突破往往更能牵动整个开发者生态的神经。英伟达此次发布的Nemotron 3 Super,没有一味堆高参数规模,而是瞄准AI智能体落地的核心痛点做了针对性优化,也让开源模型的商用价值再上一个台阶。

不同于传统大模型的Transformer架构,Nemotron 3 Super采用了创新的Mamba-MoE混合架构,总参数规模达到1200亿,但单次推理的激活参数仅为120亿,仅为总参数的十分之一。这种设计在保留大模型通用能力的同时,直接将推理速度提升300%,吞吐量更是暴涨5倍,大幅降低了大模型的部署和调用成本。

此外,该模型还支持1M超长上下文窗口,可一次性容纳数十万字的交互信息,有效解决了多智能体协同场景中常见的“目标跑偏”“上下文爆炸”等行业共性问题,为复杂任务的多智能体调度提供了稳定的底座支撑。

在Artificial Analysis发布的最新大模型评测榜单中,Nemotron 3 Super同时登顶效率榜与开放性榜两大核心榜单,综合任务表现已经接近闭源头部模型GPT-5.4的水平,打破了此前开源大模型与闭源产品之间的性能断层。

作为一款完全开源的大模型,Nemotron 3 Super允许开发者免费商用、自主微调,无需像闭源模型一样受限于API调用额度和数据安全限制,对需要定制化AI智能体方案的企业而言吸引力极强。

此前AI智能体的落地一直受限于两大瓶颈:一是高配置大模型的推理成本过高,中小团队难以负担;二是现有模型的上下文长度不足,无法支撑多轮复杂协同任务。Nemotron 3 Super的出现刚好同时解决了这两个问题,也为AI智能体从demo阶段走向规模化商用扫清了核心障碍。

从英伟达的全栈布局来看,从底层GPU算力,到中间层大模型底座,再到上层的智能体开发工具,英伟达已经形成了完整的AI生态闭环,此次开源模型的发布也将进一步巩固其在AI基础设施领域的主导地位。

据了解,英伟达后续还将推出配套的微调工具包和轻量化部署方案,覆盖从边缘设备到云端算力集群的全场景部署需求,进一步降低AI智能体的开发门槛。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创