登录体验完整功能(收藏、点赞、评论等) — 已累计有 12580 人加入

Moonshot AI联手清华大学 推出PrfaaS架构破解LLM推理瓶颈

详情页推荐

2026年4月,人工智能公司Moonshot AI与清华大学研究团队联合发布预填充即服务(PrfaaS)新型架构,针对当前大语言模型推理阶段的计算资源瓶颈,通过跨数据中心分离预填充与解码流程优化资源分配。公开测试数据显示,该架构相比传统同集群部署方案,可将大语言模型服务吞吐量提升54%,为大模型落地降本提效提供了全新技术路线。

随着大语言模型参数规模不断扩张,行业落地场景持续增加,推理环节的资源消耗已经成为制约大模型规模化服务的核心痛点。当前大语言模型的推理过程固定分为两个阶段,两类阶段对硬件资源的需求差异极大。预填充阶段是计算密集型任务:模型一次性处理完用户输入的全部提示词,生成后续解码需要的键值缓存(KVCache),这个过程对算力的需求远高于带宽。而解码阶段则是内存带宽密集型任务,模型需要逐字生成输出响应,对内存带宽的要求更高。传统推理架构要求两个阶段必须在同一数据中心内完成,导致两种不同需求的任务争抢有限资源,要么算力不够拖慢预填充,要么带宽浪费拉低整体吞吐量,长期以来都没有低成本的通用优化方案。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。