登录体验完整功能(收藏、点赞、评论等) — 已累计有 12638 人加入

英伟达开源双塔扩散语言模型 生成吞吐量提升超2.4倍

详情页推荐

2026年7月1日,英伟达正式开源旗下全新Nemotron-Labs-TwoTower扩散语言模型,通过创新双塔架构突破传统自回归大模型的串行解码瓶颈。在2×H100 GPU的测试环境下,该模型在保留基线模型98.7%生成质量的前提下,实现了2.42倍的吞吐量提升,为大规模文本合成场景提供了兼顾效率与质量的全新技术路径。

配图

随着大模型在批量内容生成、合成数据生产等场景的应用规模持续扩大,传统自回归架构的效率瓶颈正在成为制约行业降本的核心痛点。此前行业主流的优化方案多集中在量化、KV缓存等工程层面,很少从底层架构上给出突破性解法,英伟达此次的新模型恰恰填补了这一空白。

当前主流大语言模型普遍采用自回归(AR)架构,生成文本时需要按顺序逐个输出token,前一个token的生成结果会直接影响下一个token的计算,这种串行逻辑在单条交互场景下体验尚可,但面对需要批量生成数千、数万条文本的任务时,吞吐量不足的问题会被无限放大。

据国内多家大模型厂商的内部测算,在大规模合成数据生产、电商批量商品描述生成等场景中,推理算力成本已经占到总运营成本的60%以上,不少企业为了控制成本,不得不选择压缩模型参数、降低生成质量要求,陷入“效率与质量不可兼得”的两难境地。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。