登录体验完整功能(收藏、点赞、评论等) —

DeepSeek联清北发布DualPath框架:闲置网卡破解智能体推理I/O瓶颈

DeepSeek联合北京大学、清华大学在ArXiv平台发布最新研究论文,披露专为大模型智能体打造的DualPath推理框架。该框架创新性利用闲置网卡优化KV-Cache加载效率,直击长文本推理场景下的I/O瓶颈,打破传统PD分离架构的性能限制,确保计算资源不被存储读取拖累。

当大模型智能体处理法律文书梳理、学术文献精读等数万字级的长文本任务时,不少开发者都会遇到一个棘手的隐性瓶颈:GPU的算力利用率始终上不去,明明芯片还有富余的计算能力,却因从外部存储加载KV-Cache的速度跟不上,导致整体推理效率大打折扣。

在大模型推理的PD(预填充-解码)分离架构中,预填充阶段生成的KV-Cache(键值对缓存)会被存储在外部设备中,解码阶段则需要反复读取这些缓存数据来推进推理。传统方案采用“存储至预填充引擎”的单路径加载模式,当处理长文本时,存储读取速度远远跟不上芯片的计算需求,直接导致算力资源被闲置,智能体的推理效率大幅下滑。这一短板,也成为制约大模型智能体落地复杂长文本场景的核心障碍之一。

DeepSeek联合清北团队提出的DualPath框架,正是瞄准这一痛点的破局方案。与传统单路径模式不同,DualPath引入了“存储至解码引擎”的第二条数据传输路径,并创新性调用服务器中闲置的网卡资源承担这部分数据传输任务。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创