2026年4月,谷歌旗下DeepMind正式推出新型分布式AI训练架构解耦式DiLoCo,针对大规模大模型训练中传统同步架构易受单点硬件故障影响的痛点,通过异步隔离设计提升训练稳定性与效率。公开实验数据显示,该架构在高硬件故障率场景下,仍可维持88%以上的训练性能,为大模型低成本规模化训练提供了新的技术路径。
随着大模型参数规模从百亿级攀升至万亿甚至十万亿级,分布式训练已经成为行业主流方案。当前绝大多数大模型训练采用紧密同步的架构设计,要求所有参与计算的硬件节点在梯度更新环节完全同步,只要任意一个节点出现硬件故障,就会导致整个训练任务停滞,甚至需要回滚到上一个检查点重新计算,浪费大量算力和时间。对于训练周期长达数周的超大规模模型而言,单点故障带来的隐形成本已经不可忽视。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录