2026年7月1日,英伟达正式开源旗下全新Nemotron-Labs-TwoTower扩散语言模型,通过创新双塔架构突破传统自回归大模型的串行解码瓶颈。在2×H100 GPU的测试环境下,该模型在保留基线模型98.7%生成质量的前提下,实现了2.42倍的吞吐量提升,为大规模文本合成场景提供了兼顾效率与质量的全新技术路径。

随着大模型在批量内容生成、合成数据生产等场景的应用规模持续扩大,传统自回归架构的效率瓶颈正在成为制约行业降本的核心痛点。此前行业主流的优化方案多集中在量化、KV缓存等工程层面,很少从底层架构上给出突破性解法,英伟达此次的新模型恰恰填补了这一空白。
当前主流大语言模型普遍采用自回归(AR)架构,生成文本时需要按顺序逐个输出token,前一个token的生成结果会直接影响下一个token的计算,这种串行逻辑在单条交互场景下体验尚可,但面对需要批量生成数千、数万条文本的任务时,吞吐量不足的问题会被无限放大。
据国内多家大模型厂商的内部测算,在大规模合成数据生产、电商批量商品描述生成等场景中,推理算力成本已经占到总运营成本的60%以上,不少企业为了控制成本,不得不选择压缩模型参数、降低生成质量要求,陷入“效率与质量不可兼得”的两难境地。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录