Mercury 2扩散模型登顶速度榜:每秒1009tokens,英伟达微软押注

1 天前 AI快讯 4

2026年2月26日,一款名为Mercury 2的扩散推理大语言模型正式亮相,凭借每秒生成1009个tokens的速度登顶全球最快AI深度思考模型宝座——这一速度是GPT-5(mini)、Claude-4.5(haiku)等传统自回归模型的5倍。该模型由获英伟达、微软投资的团队研发,颠覆了自回归“打字机式”生成范式,引发AI行业的广泛热议。

不少AI从业者对“token等待焦虑”并不陌生:在使用自回归大模型生成万字报告时,需要等模型逐个吐出近7000个tokens,耗时往往超过10分钟;而Mercury 2的出现,让这类等待直接缩短至7秒以内。

传统自回归大模型的速度瓶颈,根源在于其“单向顺序生成”的底层范式——就像老式打字机只能从左到右逐个敲字,每生成一个token都要依赖此前所有token的结果,GPU的多核心算力无法被并行利用,这也让自回归模型的速度天花板早早显现。

Mercury 2则跳出了这一框架,将原本多用于图像生成的扩散模型引入大语言模型推理环节。其核心逻辑是“并行生成+全局优化”:模型可以同时预测多个token的概率分布,再通过多轮扩散过程调整优化,就像人类编辑先搭好全文框架再逐段润色,而非从零开始逐字撰写。

在英伟达GPU的硬件支持下,Mercury 2实现了每秒1009个tokens的生成速度,经第三方测评,这一成绩是GPT-5(mini)的5倍、Claude-4.5(haiku)的4.8倍,且在常识推理、逻辑问答等任务上的准确率,与传统顶尖自回归模型持平。

英伟达第一时间在官方社交平台发文祝贺Mercury 2的发布,除了技术层面的认可,更因为其是该模型研发团队的早期投资方之一;微软也参与了该团队的A轮融资,看中的是扩散模型在实时交互、批量内容生成等场景的落地潜力。

当前AI行业的竞争,已从早年的“参数规模竞赛”转向“效率竞赛”——随着大模型参数逼近物理极限,如何在保证核心能力的前提下提升生成速度、降低算力成本,成为决定大模型能否规模化落地的核心问题。扩散模型的并行范式能充分利用GPU的多核心算力,完美适配英伟达的硬件生态,也符合微软在Office Copilot、Azure AI等场景的实时交互需求。

这一技术突破也引发了AI圈的热议,不少网友在社交平台调侃“终于告别龙虾式等待”(指像龙虾一样被“按头等待”token生成的焦虑),还有业内人士戏称“自回归模型的‘黄金时代’或许要迎来拐点”。

Mercury 2研发团队的负责人在接受采访时表示:“AI不应该像单向打字机那样运作,而应该更像一个编辑。”除了速度优势,Mercury 2还能在生成过程中进行全局逻辑校验,比如在生成学术论文时,会同步检查前后论点的一致性,避免自回归模型常见的“前后矛盾”“逻辑断裂”问题。

业内专家认为,未来扩散模型与自回归模型未必是“取代关系”,更可能形成互补:在需要实时交互的客服、直播等场景,扩散模型的速度优势将得到充分发挥;而在需要精准长文本生成的法律文书、代码编写等场景,自回归模型的顺序生成逻辑仍有不可替代的价值。同时,巨头的押注也会推动更多研发资源流入扩散模型领域,加速其在多模态生成、自动驾驶决策等场景的落地。

所属分类
×

微信二维码

请选择您要添加的方式

AI小创