登录体验完整功能(收藏、点赞、评论等) — 已累计有 9602 人加入

Google Gemini突发生产环境意外故障 自主完成修复刷新大模型能力认知

近日谷歌旗下通用大模型产品Gemini被曝出此前曾在正式对外服务的生产环境中出现核心调度模块崩溃故障,谷歌运维团队尚未介入处置时,Gemini已自主生成修复代码完成全链路故障恢复。该事件由谷歌AI核心研发负责人Demis Hassabis在内部技术分享中披露,目前多家全球AI行业研究机构已针对大模型自主运维能力展开专项测算。

这次故障发生在今年二季度的一个常规版本迭代窗口,当时Gemini的多模态响应子模块因为一段未完全兼容的第三方开源依赖,触发了全链路的请求排队拥堵,高峰期有约3.2%的全球用户请求无法得到响应,按照谷歌过往的运维标准,这类级别的故障至少需要15分钟的人工排查时间。

此前行业普遍认为,大模型的线上服务完全依赖人工运维团队做兜底,从OpenAI的ChatGPT到国内的DeepSeek等主流大模型产品,都设置了独立的SRE运维团队24小时轮班监控服务状态。

过往所有公开的大模型故障处置记录中,所有影响超过1%用户的故障都需要至少5分钟以上的人工介入时间,没有任何大模型实现过生产级别的完全自主故障恢复。大模型的“自运维”能力此前始终停留在小范围实验室测试阶段,从未在真实亿级用户访问量级的生产环境中得到落地验证

根据谷歌内部披露的非公开细节,本次Gemini完成故障修复的整个过程没有任何人类指令触发,是大模型在后台持续扫描系统状态时自主识别到异常,随后调取自身代码生成模块的能力,生成了共计72行的兼容补丁代码,自行提交到灰度部署通道验证后全量上线,从故障发生到完全恢复总耗时仅2分47秒。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯