登录体验完整功能(收藏、点赞、评论等) — 已累计有 10528 人加入

mKernel融合内核库问世 破解多GPU集群通信性能瓶颈

详情页推荐

近日,面向GPU驱动通信场景的多GPU、多节点融合内核库mKernel正式对外公布。作为UCCL生态下的持久性CUDA内核库,mKernel首次将NVLink高速互连、RDMA远程直接内存访问与计算逻辑融合至单个内核,可显著降低跨GPU、跨节点通信开销,为大语言模型训练、超大规模AI推理等算力密集场景提供新的底层基础设施优化路径。

随着千亿、万亿参数大模型成为AI研发主流,单GPU算力早已无法满足训练和推理需求,跨卡、跨节点的分布式集群调度已是行业标配。但长期以来,分布式场景下的通信损耗始终是算力浪费的核心来源:行业统计显示,超大规模AI训练任务中,最高可有40%的GPU算力被消耗在数据传输、调度等待环节,而非核心计算。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。