少找工具,多做创作

亚马逊将近期平台故障归因于AI扩张 已启动运维专项优化

近日,电商及云计算巨头亚马逊高管首次公开将近期旗下电商平台、AWS云服务出现的多起运营异常,与公司急速扩张的生成式AI业务直接关联。目前亚马逊跨部门工程团队已启动专项排查,试图在保障大模型训练算力供给的前提下,最小化平台运行波动,相关优化方案预计将于未来3个月内逐步落地。

今年第二季度以来,亚马逊北美电商站点先后出现3次时长超过20分钟的访问故障,AWS面向中小企业的部分云服务实例也多次出现响应延迟升高的问题,此前外界普遍将故障原因归咎于亚马逊老旧的骨干网络架构,直到近期亚马逊内部沟通文档流出,才给出了完全不同的解释。

为了追赶OpenAI、谷歌在生成式AI领域的领先优势,亚马逊今年以来已经在AI算力集群上投入超过120亿美元,大量英伟达A100、H100 GPU被优先调配给AWS的大模型训练云服务,以及亚马逊电商内部的AI推荐系统、智能客服大模型迭代。原本为电商峰值流量、云服务突发需求预留的20%冗余算力,目前已经被压缩到8%以下,一旦遇到大促、突发流量峰值,就极易触发服务中断。

目前亚马逊已经成立了横跨电商业务部、AWS云计算部门的专项运维小组,核心任务是搭建动态算力调度系统:在AI训练任务的闲时窗口,将闲置的AI算力资源回补给常规业务,同时计划在未来6个月内新增30%的服务器储备,从根源上解决算力缺口问题。亚马逊CTO沃纳·沃格尔此前在内部会议上明确表态,AI业务的扩张不能以牺牲现有C端、B端用户的服务体验为代价。

亚马逊遇到的问题并非个例,今年年初谷歌搜索曾出现15分钟的全球访问异常,内部排查结果同样与大模型训练占用核心网络资源有关;Meta此前也多次下调旗下社交平台的视频码率,为元宇宙、AI大模型业务腾出算力。生成式AI爆发以来,全球科技企业的算力需求年增速已经超过50%,远超传统IT基础设施3年一迭代的常规节奏,如何平衡创新业务与成熟业务的资源分配,已经成为所有科技巨头共同面对的挑战。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创