2026年4月,人工智能公司Moonshot AI(中文名月之暗面)与清华大学计算机学科研究团队联合发布新型大语言模型架构预填充即服务(PrfaaS),该架构通过拆分大模型推理的预填充、解码两个阶段,重新优化数据中心的算力资源分配,解决了传统架构中两类资源需求错配引发的服务拥堵问题,可显著提升大模型推理效率,为破解大模型落地的算力瓶颈提供了全新技术路径。
随着大语言模型参数规模不断攀升,推理环节的性能与成本问题已经成为行业落地的主要障碍之一。对于大模型服务商而言,即便投入巨资搭建数据中心,也常常陷入“算力浪费、性能不够”的尴尬处境。
传统大模型推理流程中,预填充和解码两个阶段始终被捆绑在同一台服务器甚至同一块芯片上运行,但二者对硬件资源的需求完全不同:预填充阶段是计算密集型任务,核心需求是充足的浮点运算能力;而解码阶段属于内存带宽密集型任务,更依赖高速内存带宽。这种捆绑式部署直接导致资源分配失衡,要么算力闲置带宽不足,要么带宽空余算力不够,最终推高服务延迟、增加运营成本。
此次Moonshot AI与清华大学联合提出的PrfaaS架构,核心思路就是用“拆分解耦”破解资源错配难题。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
15 分钟前
近期,国际AI领域就企业级多智能体系统的构建问题,邀请十余位来自头部科技企业与科研机构的资深AI研发专家展开深度访谈,围绕技术选型、架构设计、行业规范、开发路径与安全防护五大维度,梳理了当前领域内快速兴起的主流方案与发展趋势,为全球企业布局智能体生态、搭建自主AI服务提供了可落地的行业参考框架。

19 分钟前
近日海外科技行业关注到,AI实时直播技术正在中国互联网市场快速渗透,字节跳动、快手、百度等头部互联网平台纷纷开放相关技术工具,第三方行业统计显示,目前国内主流直播平台已有超12%的开播场次接入各类AI生成工具,从业者预测年内AI辅助直播的整体渗透率有望突破30%,这一快速普及的趋势也引发了关于用户接受度与内容合规的广泛讨论。

37 分钟前
2026年4月19日,阿里云千问团队正式面向全球开发者开源中等尺寸混合专家大模型Qwen3.6-35B-A3B。该模型总参数量达350亿,依托混合专家MoE架构设计,实际推理阶段仅激活30亿参数,可显著降低开发者的算力使用成本。在多项权威AI基准测试中,其性能超越前代产品,可媲美更大参数量的稠密模型,同时新增多模态思考能力。

41 分钟前
2026年4月20日,阿里巴巴正式推出Qwen系列新一代旗舰预览模型Qwen3.6-Max-Preview,目前用户可通过QwenStudio交互体验,开发者也可通过阿里云百炼API调用。相较于上代Qwen3.6-Plus,新模型在智能体编程、世界知识、指令遵循三大能力上实现显著提升,且在SWE-benchPro等六项主流编程基准测试中全部拿下最高分,树立了AI编程能力的新标杆。

1 小时前
近日,微软首席执行官萨提亚・纳德拉正式宣布,位于美国威斯康辛州芒特普莱森特的Fairwater AI超算数据中心提前完成建设并投入启用。该项目总投资33亿美元(约合人民币225亿元),占地127.6公顷,配备数十万块英伟达GB200超级芯片,总算力达到当前全球最快超算的十倍,将主要支撑前沿大模型训练等AI研发任务,引发全球AI算力领域高度关注。

5 小时前
2026年4月20日,AI公司Anthropic在发布Claude Opus 4.7模型仅一天后,正式推出全新实验性产品Claude Design。该产品由Claude Opus 4.7驱动,支持用户通过文字、图片、文档输入生成交互原型、PPT、营销物料等视觉内容,还可一键对接Claude Code...

6 小时前
AI创业公司Character.AI近日推出全新功能,支持用户将合规书籍内容转换为定制化AI角色扮演聊天机器人,引发行业对版权合规与内容安全的广泛争议。作为全球头部消费级大语言模型服务商,目前Character.AI月活跃用户规模突破1200万,本次新功能上线一周内,已有超十万名用户体验了书籍转机器人服务。

6 小时前
2026年4月国家统计局发布最新AI产业运行数据显示,我国人工智能日均Token调用量已突破140万亿次,较去年末增长超40%。这一里程碑数据标志着国内AI产业已从技术实验验证阶段迈入规模化应用期,当前腾讯、阿里巴巴加码底层“世界模型”研发,特斯拉推进具身智能硬件落地,多赛道共同推动AI产业格局加速重构。