登录体验完整功能(收藏、点赞、评论等)

Mercury 2扩散模型登顶速度榜:每秒1009tokens,英伟达微软押注

2026年2月26日,一款名为Mercury 2的扩散推理大语言模型正式亮相,凭借每秒生成1009个tokens的速度登顶全球最快AI深度思考模型宝座——这一速度是GPT-5(mini)、Claude-4.5(haiku)等传统自回归模型的5倍。该模型由获英伟达、微软投资的团队研发,颠覆了自回归“打字机式”生成范式,引发AI行业的广泛热议。

不少AI从业者对“token等待焦虑”并不陌生:在使用自回归大模型生成万字报告时,需要等模型逐个吐出近7000个tokens,耗时往往超过10分钟;而Mercury 2的出现,让这类等待直接缩短至7秒以内。

传统自回归大模型的速度瓶颈,根源在于其“单向顺序生成”的底层范式——就像老式打字机只能从左到右逐个敲字,每生成一个token都要依赖此前所有token的结果,GPU的多核心算力无法被并行利用,这也让自回归模型的速度天花板早早显现。

Mercury 2则跳出了这一框架,将原本多用于图像生成的扩散模型引入大语言模型推理环节。其核心逻辑是“并行生成+全局优化”:模型可以同时预测多个token的概率分布,再通过多轮扩散过程调整优化,就像人类编辑先搭好全文框架再逐段润色,而非从零开始逐字撰写。

在英伟达GPU的硬件支持下,Mercury 2实现了每秒1009个tokens的生成速度,经第三方测评,这一成绩是GPT-5(mini)的5倍、Claude-4.5(haiku)的4.8倍,且在常识推理、逻辑问答等任务上的准确率,与传统顶尖自回归模型持平。

英伟达第一时间在官方社交平台发文祝贺Mercury 2的发布,除了技术层面的认可,更因为其是该模型研发团队的早期投资方之一;微软也参与了该团队的A轮融资,看中的是扩散模型在实时交互、批量内容生成等场景的落地潜力。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创