Moonshot AI联手清华大学推出PrfaaS架构破解LLM推理瓶颈

AI创作导航 3 小时前

AI快讯

2026年4月，人工智能公司Moonshot AI与清华大学研究团队联合发布预填充即服务（PrfaaS）新型架构，针对当前大语言模型推理阶段的计算资源瓶颈，通过跨数据中心分离预填充与解码流程优化资源分配。公开测试数据显示，该架构相比传统同集群部署方案，可将大语言模型服务吞吐量提升54%，为大模型落地降本提效提供了全新技术路线。

随着大语言模型参数规模不断扩张，行业落地场景持续增加，推理环节的资源消耗已经成为制约大模型规模化服务的核心痛点。当前大语言模型的推理过程固定分为两个阶段，两类阶段对硬件资源的需求差异极大。预填充阶段是计算密集型任务：模型一次性处理完用户输入的全部提示词，生成后续解码需要的键值缓存（KVCache），这个过程对算力的需求远高于带宽。而解码阶段则是内存带宽密集型任务，模型需要逐字生成输出响应，对内存带宽的要求更高。传统推理架构要求两个阶段必须在同一数据中心内完成，导致两种不同需求的任务争抢有限资源，要么算力不够拖慢预填充，要么带宽浪费拉低整体吞吐量，长期以来都没有低成本的通用优化方案。

Moonshot AI与清华大学研究团队提出的PrfaaS架构，核心创新就是打破“两个阶段必须同数据中心部署”的传统限制，通过分离部署实现资源最大化利用。具体来说，PrfaaS架构把计算密集的预填充任务，整体卸载到专用的高计算集群，预填充完成生成KVCache后，再通过通用以太网把缓存传输到本地的解码集群，由本地集群专门负责解码输出响应。

AI 大语言模型 Moonshot 推理优化 PrfaaS架构

信息及评测声明：本文部分信息整理自互联网公开资料，并包含由 AI创作导航团队独立进行的实测体验。我们力求内容客观准确，但因工具功能、价格及政策可能存在实时调整，所有信息仅供参考，请务必在使用前访问官网确认。文中观点不构成任何决策建议，读者需自行评估和承担使用风险。如发现内容有误或侵权，欢迎随时反馈，我们将及时核实处理。

Smallppt

AI快速生成专业演示PPT

提示工程指南

提示工程领域专业学习平台

Leap Rank

AI全流程SEO自动化工具

Friends & Fables

AI驱动DND风格文字RPG平

Swiftbrief

一体化AI SEO内容运营工具

Hitem3D

AI可控式3D建模平台

SVGMaker

AI驱动SVG矢量图工具

SAM 3D

单图转3D AI重构工具