少找工具,多做创作

AI运维技术再迭代 恢复感知重驱框架实现微服务主动自愈

全球顶尖企业级IT媒体InfoWorld最新发布的技术观测报告显示,搭载AI故障预判能力的恢复感知重驱框架已完成落地验证,可将分布式微服务系统的故障恢复时长缩短72%,非计划停机时间降低68%,目前亚马逊云科技、阿里云等主流云厂商已启动相关功能的内测,该技术预计2025年将成为云原生服务的标配能力。

在刚结束的北美云原生技术峰会上,这套由硅谷云原生团队联合谷歌云AI实验室研发的框架,首次公开了全场景测试数据:在承载10万个微服务节点、混合部署大模型推理业务的测试集群中,该框架成功预判了94%的潜在故障,全程未出现级联崩溃现象。

随着生成式AI应用的大规模落地,分布式微服务架构的复杂度呈指数级上升。2024年上半年全球云服务故障事件统计显示,42%的非计划停机源自微服务节点的级联崩溃,而生成式AI应用的调用峰值波动可达日常的12倍,突发故障的响应窗口已经从传统的15分钟压缩到2分钟以内,人工介入的运维模式基本失效。

过去三年,企业的微服务节点规模平均增长310%,但运维团队的人员规模仅增长47%,人才缺口超过60%。对企业而言,仅靠堆人已经无法匹配AI业务的高可用性要求,搭载AI能力的自愈式运维工具成为刚需。

此次公开的恢复感知重驱框架,核心是把AI大模型的故障识别能力和微服务的消息调度逻辑深度绑定。框架会实时采集全链路的调用数据,通过预训练的故障识别模型提前定位异常节点,在故障发生前就将流量逐步转移,同时对异常节点的未处理请求进行分级重驱,避免传统重试机制引发的流量风暴。

和目前行业普遍使用的故障熔断机制相比,这套框架的故障恢复速度提升7倍,还能减少90%的请求丢失,即便是大模型推理这类长周期请求,也不会因为节点故障出现业务中断。

目前主流云厂商已经在推进相关技术的落地,亚马逊云科技计划在2024年第四季度将该框架集成到EKS容器服务中,阿里云也已在其ACK容器服务开启小范围测试,国内多家生成式AI企业已经率先接入测试版本,核心业务的可用性提升了2个9。

Gartner发布的预测报告显示,到2025年,80%的云原生企业都会采用带AI自愈能力的微服务框架,每年可减少超过300亿美元的故障损失,该技术也将成为云厂商的核心竞争力之一。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创