登录体验完整功能(收藏、点赞、评论等)

Inception Labs发布全球首个扩散式推理大模型Mercury 2,弃用Transformer

人工智能初创公司Inception Labs近日推出全球首个基于扩散模型的推理大模型Mercury 2,弃用当前主流的Transformer架构。该模型可同时对多文本块进行全局优化与重写,在英伟达Blackwell GPU驱动下实测生成速度达每秒1009个Token,为大语言模型的架构创新开辟了新路径。

当行业仍在围绕Transformer架构做参数堆叠、垂直场景微调时,Inception Labs的最新动作正在打破技术共识。这家初创公司跳出了统治大模型赛道数年的框架,以扩散模型为底层逻辑重构文本推理模型,为AI技术演进注入了全新变量。

过去十年,Transformer架构凭借自注意力机制在序列数据处理上的高效性,成为大语言模型的标准配置——从OpenAI的GPT系列到谷歌Gemini,核心底层均未脱离这一框架。而Mercury 2则另辟蹊径,将此前多用于图像生成的扩散模型技术,成功迁移至文本推理场景。
与Transformer聚焦局部序列的自注意力不同,扩散模型通过逐步去噪的方式生成文本,天然具备全局语义优化能力。Mercury 2能够同时对多个独立文本块进行跨段落的语义梳理与重写,这在长文档处理、多文本关联推理等场景中,具备传统Transformer模型难以比拟的优势。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创