DeepSeek联合北京大学、清华大学在ArXiv平台发布最新研究论文,披露专为大模型智能体打造的DualPath推理框架。该框架创新性利用闲置网卡优化KV-Cache加载效率,直击长文本推理场景下的I/O瓶颈,打破传统PD分离架构的性能限制,确保计算资源不被存储读取拖累。
当大模型智能体处理法律文书梳理、学术文献精读等数万字级的长文本任务时,不少开发者都会遇到一个棘手的隐性瓶颈:GPU的算力利用率始终上不去,明明芯片还有富余的计算能力,却因从外部存储加载KV-Cache的速度跟不上,导致整体推理效率大打折扣。
在大模型推理的PD(预填充-解码)分离架构中,预填充阶段生成的KV-Cache(键值对缓存)会被存储在外部设备中,解码阶段则需要反复读取这些缓存数据来推进推理。传统方案采用“存储至预填充引擎”的单路径加载模式,当处理长文本时,存储读取速度远远跟不上芯片的计算需求,直接导致算力资源被闲置,智能体的推理效率大幅下滑。这一短板,也成为制约大模型智能体落地复杂长文本场景的核心障碍之一。
DeepSeek联合清北团队提出的DualPath框架,正是瞄准这一痛点的破局方案。与传统单路径模式不同,DualPath引入了“存储至解码引擎”的第二条数据传输路径,并创新性调用服务器中闲置的网卡资源承担这部分数据传输任务。
通过分流KV-Cache的加载压力,DualPath能够大幅提升数据读取速度,让计算芯片的算力得到充分释放。其核心逻辑在于:将原本集中在单一路径的I/O流量拆分,利用闲置网卡的带宽资源,确保解码阶段的KV-Cache加载与计算过程同步推进,彻底打破存储读取拖累计算效率的恶性循环。
值得注意的是,此次DualPath框架的披露,也被视为DeepSeek即将推出的V4大模型体系的重要技术铺垫。作为专注于大模型推理优化的技术厂商,DeepSeek此前已在代码大模型、长文本处理领域积累了多项成果,而DualPath框架的出现,无疑预示着其下一代V4产品将在智能体推理性能上实现显著突破,为企业级用户提供更高效的长文本处理解决方案。