登录体验完整功能(收藏、点赞、评论等) —

让AI触手可及,让应用激发潜能

谷歌DeepMind推出DiLoCo架构 提升大模型训练效率与容错能力

2026年4月,谷歌旗下DeepMind正式推出新型分布式AI训练架构解耦式DiLoCo,针对大规模大模型训练中传统同步架构易受单点硬件故障影响的痛点,通过异步隔离设计提升训练稳定性与效率。公开实验数据显示,该架构在高硬件故障率场景下,仍可维持88%以上的训练性能,为大模型低成本规模化训练提供了新的技术路径。

随着大模型参数规模从百亿级攀升至万亿甚至十万亿级,分布式训练已经成为行业主流方案。当前绝大多数大模型训练采用紧密同步的架构设计,要求所有参与计算的硬件节点在梯度更新环节完全同步,只要任意一个节点出现硬件故障,就会导致整个训练任务停滞,甚至需要回滚到上一个检查点重新计算,浪费大量算力和时间。对于训练周期长达数周的超大规模模型而言,单点故障带来的隐形成本已经不可忽视。

DiLoCo的核心突破,就是通过解耦式设计解决了同步架构的容错痛点。它将整个训练任务拆分到多个异步独立、故障隔离的“计算孤岛”中,每个被称为“学习单元”的集群可以独立完成多轮本地梯度计算,仅需要将压缩后的梯度结果发送给全局优化器汇总,不需要等待其他节点的计算进度。

这种设计从架构层面隔离了故障风险:即使某一个学习单元因硬件故障退出运行,其余单元仍然可以正常推进训练,不会对整体任务造成影响,彻底解决了传统架构“一点掉链,全线停工”的问题。DeepMind的实验结果也验证了这一优势,在高硬件故障率的测试环境中,DiLoCo依然维持了88%以上的训练性能,没有出现大幅效果下滑。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯
AI小创