DeepSeek推出DualPath推理方案 基本消除大模型KV缓存I/O开销

1 小时前 AI快讯 4

2月26日,AI企业DeepSeek正式发布全新DualPath推理系统方案,直击当前大语言模型在智能体应用场景中的关键性能短板——KV缓存存储I/O瓶颈。该方案通过独创双路径加载机制,可显著提升系统吞吐量,基本消除KV缓存的I/O开销,为大模型落地复杂智能体场景扫清核心技术障碍。

当你使用AI智能体完成多轮代码调试、多模态内容生成或复杂任务规划时,是否遇到过对话卡顿、响应延迟飙升的情况?背后的核心诱因之一,正是大语言模型推理阶段的KV缓存存储I/O瓶颈。2月26日,专注于大模型底层技术的AI企业DeepSeek,正式推出了针对性的解决方案——DualPath推理系统。

KV缓存是大语言模型实现多轮对话、长上下文理解的核心组件:它负责存储模型推理过程中生成的每一个token的键(Key)与值(Value),避免模型每一轮对话都重新计算历史上下文,大幅降低推理耗时。但在智能体这类需要频繁进行多轮交互、工具调用的复杂场景中,KV缓存的规模会随对话轮次快速膨胀,磁盘与内存之间的I/O交互开销占比甚至能达到推理总耗时的70%以上,直接导致系统吞吐量下降、延迟升高,成为大模型商业化落地智能体场景的核心障碍。

DualPath推理系统的核心创新在于其独创的双路径KV缓存加载机制。不同于传统单路径模式下所有KV缓存块均需通过统一通道进行内存与磁盘交互,DualPath将KV缓存分为“高频热缓存”与“低频冷缓存”两类:针对当前对话轮次中需频繁调用的热缓存块,采用内存直连加载路径,实现零I/O延迟;针对历史对话中的冷缓存块,则通过预取压缩的批量处理路径,最大程度减少磁盘读写频次。据官方信息,该方案可基本消除KV缓存的I/O开销,同时显著提升系统吞吐量。

当前,大模型智能体已成为AI商业化的核心赛道之一,涵盖客服智能体、代码协作智能体、多模态助理等多个细分场景。但此前的KV缓存I/O瓶颈,不仅提升了企业的部署成本(需要更高规格的内存硬件),还严重影响了用户交互体验。DualPath推理方案的推出,不仅能降低大模型智能体的部署门槛,还能支撑更长对话轮次、更复杂的任务规划,为AI企业在智能体赛道的商业化落地扫清了关键技术障碍。对于DeepSeek而言,该方案也将与旗下的DeepSeek大语言模型、代码模型形成技术协同,进一步强化其在大模型底层技术领域的竞争优势。

所属分类
×

微信二维码

请选择您要添加的方式

AI小创