2026年6月,英伟达正式推出面向云原生AI部署场景的技术方案Dynamo Snapshot,该方案基于CRIU检查点技术,搭配自研cuda-checkpoint工具,可在Kubernetes(K8s)平台上快速恢复单GPU推理工作节点,大幅压缩AI推理服务的冷启动延迟,为云侧AI推理的弹性资源调度效率升级提供了核心技术支撑。当下大模型推理服务大多采用Kubernetes云原生架构部署,弹性扩缩容是企业平衡服务可用性与算力成本的核心手段,但传统架构下,新扩容的GPU推理节点需要完成运行环境配置、模型权重加载、服务初始化等全流程,冷启动耗时普遍在5秒到30秒区间,在电商大促、突发流量查询等场景下,会直接导致部分用户请求响应超时,这一问题已经成为云侧AI部署的普遍痛点。此次英伟达推出的Dynamo Snapshot,核心思路是将Linux平台成熟的CRIU(用户态进程检查点)能力延伸到GPU推理场景,搭配英伟达自研的cuda-checkpoint工具,可在不中断现有服务的前提下,对运行中的单GPU推理工作进程做全状态快照存储。当K8s集群需要扩容推理节点时,无需重新走完整的初始化流程,直接...