2026年4月,谷歌旗下DeepMind正式推出新型分布式AI训练架构解耦式DiLoCo,针对大规模大模型训练中传统同步架构易受单点硬件故障影响的痛点,通过异步隔离设计提升训练稳定性与效率。公开实验数据显示,该架构在高硬件故障率场景下,仍可维持88%以上的训练性能,为大模型低成本规模化训练提供了新的技术路径。
随着大模型参数规模从百亿级攀升至万亿甚至十万亿级,分布式训练已经成为行业主流方案。当前绝大多数大模型训练采用紧密同步的架构设计,要求所有参与计算的硬件节点在梯度更新环节完全同步,只要任意一个节点出现硬件故障,就会导致整个训练任务停滞,甚至需要回滚到上一个检查点重新计算,浪费大量算力和时间。对于训练周期长达数周的超大规模模型而言,单点故障带来的隐形成本已经不可忽视。
DiLoCo的核心突破,就是通过解耦式设计解决了同步架构的容错痛点。它将整个训练任务拆分到多个异步独立、故障隔离的“计算孤岛”中,每个被称为“学习单元”的集群可以独立完成多轮本地梯度计算,仅需要将压缩后的梯度结果发送给全局优化器汇总,不需要等待其他节点的计算进度。
这种设计从架构层面隔离了故障风险:即使某一个学习单元因硬件故障退出运行,其余单元仍然可以正常推进训练,不会对整体任务造成影响,彻底解决了传统架构“一点掉链,全线停工”的问题。DeepMind的实验结果也验证了这一优势,在高硬件故障率的测试环境中,DiLoCo依然维持了88%以上的训练性能,没有出现大幅效果下滑。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
22 秒前
2026年5月行业监测数据显示,埃隆·马斯克旗下由SpaceX与xAI合并而成的SpaceXAI正遭遇严重人才危机,2026年2月至今已有超50名顶尖研发人员离职,覆盖编程助手、世界模型、Grok语音交互、预训练等核心团队,近20名离职人员转投Meta、Thinking Machines Lab等竞品,引发行业对其技术迭代能力的广泛质疑。

6 分钟前
AI编码初创企业Cursor于2026年5月宣布启动全球化扩张进程,未来半年将在亚太地区招聘200名技术及市场类员工,新加坡办事处由资深科技高管Simon Green负责。此前该公司已与SpaceX达成重磅合作协议,SpaceX拥有600亿美元收购Cursor的权利,若未触发收购则需支付100亿美元采购其研发成果,充足资金加持下Cursor正加速技术出海落地。

14 分钟前
2026年5月15日,百度正式宣布成立作为大模型战略最高决策与协调机构的百度模型委员会(BMC),该机构由深度参与文心大模型多代迭代的青年研究员组成,基础模型研发部、应用模型研发部将直接向其汇报,实现大模型从底层技术研发到上层产品落地的全链路统一管理,标志着百度大模型竞争正式进入体系化作战阶段。

16 分钟前
2026年5月,OpenAI正式宣布将AI编程模型Codex集成至ChatGPT的iOS及Android移动端应用。本次更新针对手机使用场景做了专属交互适配,支持开发者在通勤、线下休闲等非办公场景快速完成代码审批、逻辑调试等碎片化编程任务,标志着AI编程工具正式从桌面生产力阶段迈入全时伴随的发展新阶段。

18 分钟前
2026年5月15日,埃隆·马斯克旗下人工智能公司xAI正式推出首款专业编程AI智能体Grok Build,进军高增速的开发者服务市场。该产品目前处于早期测试阶段,仅面向xAI付费订阅用户开放,可自动完成代码编写、逻辑构建等复杂编程任务。xAI总裁迈克尔·尼科尔斯明确将Anthropic旗下Claude列为核心对标目标,计划短期内追平行业标杆表现。

21 分钟前
2026年5月,旧金山AI初创公司depthfirst开发的AI安全分析系统,自主发现潜伏18年的NGINX高危漏洞CVE-2026-42945。该漏洞CVSS评分为9.2,属于严重级别,影响2008年以来发布的NGINX 0.6.27至1.30.0版本,波及全球近三分之一网站,攻击者可利用漏洞实现远程代码执行,目前NGINX官方已发布对应修复补丁。

23 分钟前
2026年5月15日,微信官方宣布旗下小程序成长计划正式完成模型层升级,全面接入腾讯混元最新迭代的Hy3 preview大模型,依托后者升级的逻辑推理与上下文理解能力优化开发者智能化开发、运营体验。此前腾讯发布的2026年第一季度财报显示,Hy3 preview调用量持续位居大模型聚合平台OpenRouter榜首,Agent、编程等核心能力均获市场广泛认可。

26 分钟前
2026年5月15日,QQ浏览器与腾讯元宝联合发布高考场景专属AI技能,首批上线地区分数线查询、一分一段查询核心功能,同时计划推出行业首个高考咨询师Agent“元宝高考通”。产品整合教育在线·掌上高考官方权威招考数据,旨在解决全国超1300万高考考生志愿填报普遍存在的信息差与数据可信度痛点。