登录体验完整功能(收藏、点赞、评论等) — 已累计有 9385 人加入

让AI触手可及,让应用激发潜能

英伟达AI发布三模式大语言模型 推理Token效率较Qwen3-8B提升六倍

近日英伟达AI正式开源发布全新三模态大语言模型Nemotron-Labs-Diffusion,该模型创新性融合自回归AR、扩散生成、自投机解码三大核心技术,单步前向推理可输出Token数达到5.99倍,相比通义千问Qwen3-8B的推理效率实现近6倍跃升,或将彻底改变端侧与云端大模型高吞吐部署的现有行业格局。

过去一年大语言模型的吞吐效率瓶颈始终是行业落地的核心堵点——主流7B-8B参数级开源模型单步前向仅能输出1个Token,高并发场景下动辄需要数倍的算力堆叠才能满足需求,极大拉高了中小开发者的调用成本。

当前开源大模型赛道的竞争已经从参数规模比拼转向效率优化,阿里达摩院推出的Qwen3-8B凭借均衡的性能表现已经成为绝大多数端侧部署场景的首选基准模型,但其单步生成1Token的固有架构限制,还是让高吞吐服务场景的算力成本居高不下,行业普遍期待能在不损失生成质量的前提下,推出支持多Token并行生成的全新架构方案。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯