近日,面向GPU驱动通信场景的多GPU、多节点融合内核库mKernel正式对外公布。作为UCCL生态下的持久性CUDA内核库,mKernel首次将NVLink高速互连、RDMA远程直接内存访问与计算逻辑融合至单个内核,可显著降低跨GPU、跨节点通信开销,为大语言模型训练、超大规模AI推理等算力密集场景提供新的底层基础设施优化路径。
随着千亿、万亿参数大模型成为AI研发主流,单GPU算力早已无法满足训练和推理需求,跨卡、跨节点的分布式集群调度已是行业标配。但长期以来,分布式场景下的通信损耗始终是算力浪费的核心来源:行业统计显示,超大规模AI训练任务中,最高可有40%的GPU算力被消耗在数据传输、调度等待环节,而非核心计算。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录