登录体验完整功能(收藏、点赞、评论等) — 已累计有 12674 人加入

英伟达开源60B双塔离散扩散大模型 文本生成效率提升2.42倍

详情页推荐

2026年7月2日,英伟达正式发布Nemotron-Labs-TwoTower离散扩散语言模型,相关权重已在Huggingface开源。该60B参数双塔架构模型解决了传统大模型逐token生成速度慢的痛点,文本生成吞吐速度提升2.42倍的同时,综合能力保留原版Nemotron模型的98.7%,且可复用预训练权重降低开发成本。

配图

当前大模型的规模化落地始终受限于推理效率瓶颈:长文本生成场景下,传统逐token串行输出的模式往往需要用户等待数秒甚至数十秒,高并发场景下的算力成本更是居高不下,行业一直在探索不损失效果的效率优化方案,此次英伟达推出的新架构模型正是该方向的突破性成果。

不同于传统大模型逐token串行输出的推理逻辑,Nemotron-Labs-TwoTower采用创新的双塔分工设计:总参数量60B,拆分为两座30B独立神经网络协同工作,每塔仅激活3B参数,同时搭载128个可路由专家模块动态调度算力。其中上下文塔固定冻结,负责留存全文语义信息避免上下文丢失;去噪塔单独针对性训练,依靠扩散机制实现并行文本生成,两塔通过交叉注意力模块实时互通数据。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。