英伟达开源双塔扩散语言模型生成吞吐量提升超2.4倍

AI创作导航管理员 LV4 资深连续登录7天萌新

19 小时前

风向

2026年7月1日，英伟达正式开源旗下全新Nemotron-Labs-TwoTower扩散语言模型，通过创新双塔架构突破传统自回归大模型的串行解码瓶颈。在2×H100 GPU的测试环境下，该模型在保留基线模型98.7%生成质量的前提下，实现了2.42倍的吞吐量提升，为大规模文本合成场景提供了兼顾效率与质量的全新技术路径。

随着大模型在批量内容生成、合成数据生产等场景的应用规模持续扩大，传统自回归架构的效率瓶颈正在成为制约行业降本的核心痛点。此前行业主流的优化方案多集中在量化、KV缓存等工程层面，很少从底层架构上给出突破性解法，英伟达此次的新模型恰恰填补了这一空白。

当前主流大语言模型普遍采用自回归（AR）架构，生成文本时需要按顺序逐个输出token，前一个token的生成结果会直接影响下一个token的计算，这种串行逻辑在单条交互场景下体验尚可，但面对需要批量生成数千、数万条文本的任务时，吞吐量不足的问题会被无限放大。

据国内多家大模型厂商的内部测算，在大规模合成数据生产、电商批量商品描述生成等场景中，推理算力成本已经占到总运营成本的60%以上，不少企业为了控制成本，不得不选择压缩模型参数、降低生成质量要求，陷入“效率与质量不可兼得”的两难境地。

大语言模型英伟达 AI推理扩散语言模型 Nemotron-Labs-TwoTower

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

英伟达开源双塔扩散语言模型生成吞吐量提升超2.4倍

最新文章

X社区 · 无限公约

二狗PPT

SpaceX收购代码编辑器Cursor 第三方大模型接入权引行业关注

OpenAI提议捐5%股权至美主权财富基金探索AI红利公共分配

微软斥资25亿美元成立AI部署公司加码企业级落地布局

生成式AI生成C#代码效率远超人工业界发布合规使用指南

热门文章

OpenCut

抖音创作者中心

小云雀AI

视频号助手

通义万相

朱雀AI检测助手

标签

探索分类

帮助与支持

联系我们

让AI触手可及，让应用激发潜能

英伟达开源双塔扩散语言模型 生成吞吐量提升超2.4倍

最新文章

X社区 · 无限公约

二狗PPT

SpaceX收购代码编辑器Cursor 第三方大模型接入权引行业关注

OpenAI提议捐5%股权至美主权财富基金 探索AI红利公共分配

微软斥资25亿美元成立AI部署公司 加码企业级落地布局

生成式AI生成C#代码效率远超人工 业界发布合规使用指南

热门文章

OpenCut

抖音创作者中心

小云雀AI

视频号助手

通义万相

朱雀AI检测助手

标签

探索分类

帮助与支持

联系我们

安装网站应用

英伟达开源双塔扩散语言模型生成吞吐量提升超2.4倍

OpenAI提议捐5%股权至美主权财富基金探索AI红利公共分配

微软斥资25亿美元成立AI部署公司加码企业级落地布局

生成式AI生成C#代码效率远超人工业界发布合规使用指南