全球算力巨头英伟达于近期推出全新开源权重扩散语言模型Nemotron-Labs-TwoTower,该模型以冻结的自回归架构Nemotron-3-Nano-30B-A3B为底座研发,兼顾了自回归大模型的语言理解能力与扩散模型的生成稳定性,将为AIGC开发者、AI Agent研发团队提供更低门槛的模型选型方案。

就在生成式AI行业普遍陷入“参数规模堆料边际效益递减”的瓶颈期时,英伟达此次推出的混合架构大模型,为行业技术迭代给出了新的可能。
当前主流生成式大模型普遍采用自回归架构,虽然通用语言理解、指令遵循能力表现优异,但在长文本生成、结构化内容输出、逻辑链较长的推理场景下,容易出现事实幻觉、前后逻辑矛盾、格式错误等问题。而扩散模型虽然生成一致性、可控性更高,却普遍存在语言理解能力短板,难以适配复杂的自然语言指令需求。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录