Mercury 2扩散模型登顶速度榜：每秒1009tokens，英伟达微软押注

AI小创 1 个月前

AI快讯

2026年2月26日，一款名为Mercury 2的扩散推理大语言模型正式亮相，凭借每秒生成1009个tokens的速度登顶全球最快AI深度思考模型宝座——这一速度是GPT-5（mini）、Claude-4.5（haiku）等传统自回归模型的5倍。该模型由获英伟达、微软投资的团队研发，颠覆了自回归“打字机式”生成范式，引发AI行业的广泛热议。

不少AI从业者对“token等待焦虑”并不陌生：在使用自回归大模型生成万字报告时，需要等模型逐个吐出近7000个tokens，耗时往往超过10分钟；而Mercury 2的出现，让这类等待直接缩短至7秒以内。

传统自回归大模型的速度瓶颈，根源在于其“单向顺序生成”的底层范式——就像老式打字机只能从左到右逐个敲字，每生成一个token都要依赖此前所有token的结果，GPU的多核心算力无法被并行利用，这也让自回归模型的速度天花板早早显现。

Mercury 2则跳出了这一框架，将原本多用于图像生成的扩散模型引入大语言模型推理环节。其核心逻辑是“并行生成+全局优化”：模型可以同时预测多个token的概率分布，再通过多轮扩散过程调整优化，就像人类编辑先搭好全文框架再逐段润色，而非从零开始逐字撰写。

在英伟达GPU的硬件支持下，Mercury 2实现了每秒1009个tokens的生成速度，经第三方测评，这一成绩是GPT-5（mini）的5倍、Claude-4.5（haiku）的4.8倍，且在常识推理、逻辑问答等任务上的准确率，与传统顶尖自回归模型持平。

英伟达第一时间在官方社交平台发文祝贺Mercury 2的发布，除了技术层面的认可，更因为其是该模型研发团队的早期投资方之一；微软也参与了该团队的A轮融资，看中的是扩散模型在实时交互、批量内容生成等场景的落地潜力。

大语言模型人工智能 2 英伟达 Mercury 扩散模型

本文内容来源于公开互联网信息，并包含平台新增内容及用户发布内容，旨在进行知识整理与分享。文中所有信息与观点均仅供参考，不代表任何官方或特定立场，亦不构成任何操作或决策建议，请读者谨慎甄别，详情请见完整免责声明

提示工程指南

提示工程领域专业学习平台

SoraShorts AI

基于Sora2的AI短视频生成

Claude

Claude 是由 Anthropic 研发的 AI 助手与大语言模型

OpenAI

OpenAI 是全球领先的人工智能研究机构与模型提供商

ProMind AI

专业AI代理，内容代码生成提效

SourceNext（ソースネクスト）

综合软硬件与AI服务平台

OpenResume

免费开源简历制作与检测工具

Templated

图像视频PDF自动化生成工具