登录体验完整功能(收藏、点赞、评论等) —

让AI触手可及,让应用激发潜能

Moonshot AI携手清华推出PrfaaS架构 破解大模型算力瓶颈

2026年4月,人工智能公司Moonshot AI(中文名月之暗面)与清华大学计算机学科研究团队联合发布新型大语言模型架构预填充即服务(PrfaaS),该架构通过拆分大模型推理的预填充、解码两个阶段,重新优化数据中心的算力资源分配,解决了传统架构中两类资源需求错配引发的服务拥堵问题,可显著提升大模型推理效率,为破解大模型落地的算力瓶颈提供了全新技术路径。

随着大语言模型参数规模不断攀升,推理环节的性能与成本问题已经成为行业落地的主要障碍之一。对于大模型服务商而言,即便投入巨资搭建数据中心,也常常陷入“算力浪费、性能不够”的尴尬处境。

传统大模型推理流程中,预填充和解码两个阶段始终被捆绑在同一台服务器甚至同一块芯片上运行,但二者对硬件资源的需求完全不同:预填充阶段是计算密集型任务,核心需求是充足的浮点运算能力;而解码阶段属于内存带宽密集型任务,更依赖高速内存带宽。这种捆绑式部署直接导致资源分配失衡,要么算力闲置带宽不足,要么带宽空余算力不够,最终推高服务延迟、增加运营成本。

此次Moonshot AI与清华大学联合提出的PrfaaS架构,核心思路就是用“拆分解耦”破解资源错配难题。

!
信息及评测声明: 本文部分信息整理自互联网公开资料,并包含由 AI创作导航 团队独立进行的实测体验。我们力求内容客观准确,但因工具功能、价格及政策可能存在实时调整,所有信息仅供参考,请务必在使用前访问官网确认。文中观点不构成任何决策建议,读者需自行评估和承担使用风险。如发现内容有误或侵权,欢迎随时反馈,我们将及时核实处理。
相关资讯
AI小创