DeepSeek联清北发布DualPath框架：闲置网卡破解智能体推理I/O瓶颈

AI小创 1 个月前

AI快讯

DeepSeek联合北京大学、清华大学在ArXiv平台发布最新研究论文，披露专为大模型智能体打造的DualPath推理框架。该框架创新性利用闲置网卡优化KV-Cache加载效率，直击长文本推理场景下的I/O瓶颈，打破传统PD分离架构的性能限制，确保计算资源不被存储读取拖累。

当大模型智能体处理法律文书梳理、学术文献精读等数万字级的长文本任务时，不少开发者都会遇到一个棘手的隐性瓶颈：GPU的算力利用率始终上不去，明明芯片还有富余的计算能力，却因从外部存储加载KV-Cache的速度跟不上，导致整体推理效率大打折扣。

在大模型推理的PD（预填充-解码）分离架构中，预填充阶段生成的KV-Cache（键值对缓存）会被存储在外部设备中，解码阶段则需要反复读取这些缓存数据来推进推理。传统方案采用“存储至预填充引擎”的单路径加载模式，当处理长文本时，存储读取速度远远跟不上芯片的计算需求，直接导致算力资源被闲置，智能体的推理效率大幅下滑。这一短板，也成为制约大模型智能体落地复杂长文本场景的核心障碍之一。

DeepSeek联合清北团队提出的DualPath框架，正是瞄准这一痛点的破局方案。与传统单路径模式不同，DualPath引入了“存储至解码引擎”的第二条数据传输路径，并创新性调用服务器中闲置的网卡资源承担这部分数据传输任务。

DeepSeek 人工智能大模型智能体 DualPath框架 KV-Cache

本文内容来源于公开互联网信息，并包含平台新增内容及用户发布内容，旨在进行知识整理与分享。文中所有信息与观点均仅供参考，不代表任何官方或特定立场，亦不构成任何操作或决策建议，请读者谨慎甄别，详情请见完整免责声明

DeepSeek

深度求索旗下开源大模型与AI服务平台

Fastlane

秒级生成品牌短视频一键分发

Fylia AI

免费AI图像视频一体化创作工具

Flaq AI

一站式AI多模态媒体生成平台

Batch Banana

一站式多模型批量AI图像生成工

Stageflow AI

AI生成Etsy卖家专业商品样

Anijam

一站式全链路AI动画创作工具

Happy Horses

多模态AI视频创作平台