登录体验完整功能(收藏、点赞、评论等) — 已累计有 9410 人加入

让AI触手可及,让应用激发潜能

智谱联合产学研团队推出ZCube架构 大模型推理吞吐升15%成本降三成

近日智谱联合驭驯网络与清华大学团队研发的ZCube组网架构正式落地GLM-5.1 coding生产环境,该成果此前已在网络领域顶级学术会议ACM SIGCOMM2025发表。实测数据显示,在GPU、软件栈与上层应用完全不变的前提下,大模型推理吞吐提升15%,网络相关资本支出削减33%,首Token时延降低超四成,为大模型算力基建降本提效提供了全新可行路径。

2026年整个AI行业的竞争焦点已经从“堆参数堆算力”转向“单位算力的效能挖掘”,随着长上下文推理普及、Prefill-Decode分离部署成为行业主流,跨节点的KV Cache传输流量呈现出极强的非对称性,传统通用组网架构的冗余设计开始拖慢整个算力集群的运行效率。

过去几年大量厂商快速扩容万卡级GPU集群时,普遍将预算重心放在GPU卡采购上,默认沿用传统为对称通用流量设计的CLOS多层交换网络。但随着大模型推理的流量特征快速演变,这套组网架构的适配性漏洞开始凸显:大量为均衡流量预留的带宽资源被闲置,反而需要采购大量高端交换机、高速光模块来应对峰值突发流量,网络相关投入的占比甚至攀升到整个算力集群成本的30%以上。

更值得注意的是,无效的跨节点数据排队还会进一步拉高传输时延,很多算力集群的GPU实际利用率长期徘徊在40%-50%区间,接近三分之一的性能损耗都来自数据传输环节的拖慢,网络已经成了释放大模型算力潜能的核心瓶颈。

针对这一行业共性痛点,智谱、驭驯网络与清华大学组成的产学研团队早在2025年9月就完成了ZCube组网架构的原型研究,相关成果被网络领域顶会ACM SIGCOMM2025收录,直到2026年5月完成生产环境全量适配,最终落地在智谱面向代码生成场景的GLM-5.1 coding业务集群中。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯