智谱联合产学研团队推出ZCube架构大模型推理吞吐升15%成本降三成

AI创作导航 42 分钟前

风向

近日智谱联合驭驯网络与清华大学团队研发的ZCube组网架构正式落地GLM-5.1 coding生产环境，该成果此前已在网络领域顶级学术会议ACM SIGCOMM2025发表。实测数据显示，在GPU、软件栈与上层应用完全不变的前提下，大模型推理吞吐提升15%，网络相关资本支出削减33%，首Token时延降低超四成，为大模型算力基建降本提效提供了全新可行路径。

2026年整个AI行业的竞争焦点已经从“堆参数堆算力”转向“单位算力的效能挖掘”，随着长上下文推理普及、Prefill-Decode分离部署成为行业主流，跨节点的KV Cache传输流量呈现出极强的非对称性，传统通用组网架构的冗余设计开始拖慢整个算力集群的运行效率。

过去几年大量厂商快速扩容万卡级GPU集群时，普遍将预算重心放在GPU卡采购上，默认沿用传统为对称通用流量设计的CLOS多层交换网络。但随着大模型推理的流量特征快速演变，这套组网架构的适配性漏洞开始凸显：大量为均衡流量预留的带宽资源被闲置，反而需要采购大量高端交换机、高速光模块来应对峰值突发流量，网络相关投入的占比甚至攀升到整个算力集群成本的30%以上。

更值得注意的是，无效的跨节点数据排队还会进一步拉高传输时延，很多算力集群的GPU实际利用率长期徘徊在40%-50%区间，接近三分之一的性能损耗都来自数据传输环节的拖慢，网络已经成了释放大模型算力潜能的核心瓶颈。

针对这一行业共性痛点，智谱、驭驯网络与清华大学组成的产学研团队早在2025年9月就完成了ZCube组网架构的原型研究，相关成果被网络领域顶会ACM SIGCOMM2025收录，直到2026年5月完成生产环境全量适配，最终落地在智谱面向代码生成场景的GLM-5.1 coding业务集群中。

大语言模型智谱AI ACM 大模型推理优化 ZCube网络架构 SIGCOMM2025

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

提示工程指南

提示工程领域专业学习平台

Claude

Claude 是由 Anthropic 研发的 AI 助手与大语言模型

OpenAI

OpenAI 是全球领先的人工智能研究机构与模型提供商

Pixal3D

AI 3D模型与动作生成工具

Tat Ink

AI生成个性化纹身设计平台

Omni Video

在线文本图片转AI视频工具

Podsuite

AI一站式播客内容运营工具

iDox.ai Guardrail

AI代理安全防护防数据泄漏