随着生成式AI应用的快速普及,公有云平台承载的大语言模型训练、推理算力需求持续暴涨,当前公有云82%的AI算力负载采用GPU多租户共享模式,但GPU原生设计并不支持安全多租户隔离、快速故障恢复能力,已引发多起跨租户数据泄露、服务宕机事件,目前云计算厂商、芯片企业正在联合探索软硬件协同的解决方案填补这一架构空白。
今年第三季度,海外多家云服务厂商的AI推理服务先后出现异常宕机,事后排查的核心原因均指向同GPU节点下某租户的大模型微调任务显存溢出,击穿了软件层的隔离机制,导致同节点其他十余位租户的任务数据丢失、服务中断超过20分钟。这类事件的频繁出现,也让此前长期被忽视的GPU多租户问题走到了行业台前。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录