登录体验完整功能(收藏、点赞、评论等) — 已累计有 12638 人加入

英伟达发布开源扩散语言模型TwoTower 基于300亿参数Nemotron底座

详情页推荐

全球算力巨头英伟达于近期推出全新开源权重扩散语言模型Nemotron-Labs-TwoTower,该模型以冻结的自回归架构Nemotron-3-Nano-30B-A3B为底座研发,兼顾了自回归大模型的语言理解能力与扩散模型的生成稳定性,将为AIGC开发者、AI Agent研发团队提供更低门槛的模型选型方案。

配图

就在生成式AI行业普遍陷入“参数规模堆料边际效益递减”的瓶颈期时,英伟达此次推出的混合架构大模型,为行业技术迭代给出了新的可能。

当前主流生成式大模型普遍采用自回归架构,虽然通用语言理解、指令遵循能力表现优异,但在长文本生成、结构化内容输出、逻辑链较长的推理场景下,容易出现事实幻觉、前后逻辑矛盾、格式错误等问题。而扩散模型虽然生成一致性、可控性更高,却普遍存在语言理解能力短板,难以适配复杂的自然语言指令需求。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。