2026年4月,人工智能公司Moonshot AI与清华大学研究团队联合发布预填充即服务(PrfaaS)新型架构,针对当前大语言模型推理阶段的计算资源瓶颈,通过跨数据中心分离预填充与解码流程优化资源分配。公开测试数据显示,该架构相比传统同集群部署方案,可将大语言模型服务吞吐量提升54%,为大模型落地降本提效提供了全新技术路线。
随着大语言模型参数规模不断扩张,行业落地场景持续增加,推理环节的资源消耗已经成为制约大模型规模化服务的核心痛点。当前大语言模型的推理过程固定分为两个阶段,两类阶段对硬件资源的需求差异极大。预填充阶段是计算密集型任务:模型一次性处理完用户输入的全部提示词,生成后续解码需要的键值缓存(KVCache),这个过程对算力的需求远高于带宽。而解码阶段则是内存带宽密集型任务,模型需要逐字生成输出响应,对内存带宽的要求更高。传统推理架构要求两个阶段必须在同一数据中心内完成,导致两种不同需求的任务争抢有限资源,要么算力不够拖慢预填充,要么带宽浪费拉低整体吞吐量,长期以来都没有低成本的通用优化方案。
Moonshot AI与清华大学研究团队提出的PrfaaS架构,核心创新就是打破“两个阶段必须同数据中心部署”的传统限制,通过分离部署实现资源最大化利用。具体来说,PrfaaS架构把计算密集的预填充任务,整体卸载到专用的高计算集群,预填充完成生成KVCache后,再通过通用以太网把缓存传输到本地的解码集群,由本地集群专门负责解码输出响应。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
1 小时前
2026年4月20日,AI公司Anthropic在发布Claude Opus 4.7模型仅一天后,正式推出全新实验性产品Claude Design。该产品由Claude Opus 4.7驱动,支持用户通过文字、图片、文档输入生成交互原型、PPT、营销物料等视觉内容,还可一键对接Claude Code...

2 小时前
AI创业公司Character.AI近日推出全新功能,支持用户将合规书籍内容转换为定制化AI角色扮演聊天机器人,引发行业对版权合规与内容安全的广泛争议。作为全球头部消费级大语言模型服务商,目前Character.AI月活跃用户规模突破1200万,本次新功能上线一周内,已有超十万名用户体验了书籍转机器人服务。

2 小时前
2026年4月国家统计局发布最新AI产业运行数据显示,我国人工智能日均Token调用量已突破140万亿次,较去年末增长超40%。这一里程碑数据标志着国内AI产业已从技术实验验证阶段迈入规模化应用期,当前腾讯、阿里巴巴加码底层“世界模型”研发,特斯拉推进具身智能硬件落地,多赛道共同推动AI产业格局加速重构。

2 小时前
2026年4月,AI独角兽Anthropic披露的最新经营数据显示,公司当前年化收入已突破300亿美元,规模达到去年年底的三倍,毛利率从2024年的-94%提升至2025年的40%。业绩增长主要来自Claude Code、Cowork产品及推理模型代币销售,亮眼表现让市场预计其估值有望突破万亿美元,在大模型赛道对OpenAI形成有力竞争。

3 小时前
2026年4月,国际顶级学术期刊Nature刊发最新AI安全研究,研究团队首次证实,大型语言模型(LLM)存在“潜意识学习”现象:即便上游训练数据经过严格有害内容过滤,不良行为特征仍能通过纯数字序列等看似无害的载体,经由行业通用的模型蒸馏技术传递给下游小模型。这一发现打破了原有AI安全防护逻辑,给大模型产业化落地的安全体系敲响了警钟。

3 小时前
AI编程初创公司Cursor即将完成新一轮至少20亿美元融资,本轮由现有投资方Thrive、安德森·霍洛维茨基金主导,Battery Ventures、英伟达有望参与投资,融资后公司估值将达500亿美元,较半年前估值翻倍。这家AI辅助编程工具开发商增长迅猛,预计2026年底年化营收将突破60亿美元,今年2月年化营收已达20亿美元,是AI编码赛道的高成长黑马。

3 小时前
2026年4月19日,全球头部AI公司OpenAI发生重大核心层人事变动,凯文・韦尔、比尔・皮布尔斯、斯里尼瓦斯・纳拉亚南三位核心高管同日宣布离职。此次变动伴随公司战略转型,旗下爆火AI视频生成工具Sora将于4月26日停止服务,该工具峰值用户达100万,当前日均运营成本超100万美元,变动引发业界对OpenAI发展方向的热议。

3 小时前
2026年4月,美国政府打破此前相关限制,计划将AI公司Anthropic开发的Claude Mythos大模型引入多家联邦核心敏感机构。白宫已与Anthropic首席执行官达里奥·阿莫代伊(Dario Amodei)举行秘密会谈,讨论推出合规修改版供国防部、财政部等核心部门使用,目前白宫管理与预算办公室已要求各部门安全负责人提前完成部署准备,具体落地时间与应用范围尚未最终确定。