英伟达近期完成对开源集群调度工具Slurm的开发主体SchedMD的收购,引发全球AI计算领域对开源工具商业独立性的广泛讨论。据行业调研数据,当前全球超70%的AI训练GPU集群采用Slurm作为调度核心,其中近六成集群搭载多品牌异构GPU,此次收购后Slurm的开源属性与路线适配性成为企业用户核心关切。
此次收购的标的SchedMD是Slurm项目的核心开发与维护主体,成立以来始终保持中立运营,此前Slurm作为开源项目可同时适配英伟达、AMD、英特尔等多家厂商的GPU与加速芯片,是AI训练、超算领域应用最广泛的调度工具之一。
对于动辄调度数千张GPU协同运行的大模型训练任务而言,调度系统的效率直接决定了训练周期的长短和算力资源的利用率,其地位相当于AI计算集群的“操作系统内核”。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录