登录体验完整功能(收藏、点赞、评论等)

DeepSeek联合清北发布DualPath框架:闲置网卡加速智能体推理性能

2026年2月27日,DeepSeek联合北京大学、清华大学在ArXiv平台发布全新智能体推理框架DualPath。该框架针对智能体长文本推理的I/O瓶颈,通过双路径设计激活闲置网卡带宽,在660B规模生产级模型测试中实现集群存储带宽全局池化,为大模型智能体落地提供算力优化新方向。

当大模型智能体处理万字级长文本或多轮复杂对话时,制约其推理速度的往往不是GPU算力,而是存储数据的读取效率——预填充引擎满负荷运转时,解码引擎的存储网卡却常常处于闲置状态,这种资源错配正成为生产级大模型落地的隐形障碍。

针对这一痛点,DeepSeek联合清北团队提出的DualPath框架彻底重构了传统的KV-Cache加载路径。

传统智能体推理采用Storage-to-Prefill单路径模式,所有KV-Cache数据都需通过预填充引擎的存储网卡加载,不仅容易造成带宽拥堵,还让解码引擎的存储网卡(SNIC)资源被浪费。而DualPath引入了Storage-to-Decode第二条路径:直接利用解码引擎闲置的SNIC带宽读取缓存数据,再通过高速计算网络(RDMA)将数据传输至预填充引擎,实现了集群存储带宽的全局池化与动态负载均衡。

在660B规模的生产级模型实验中,DualPath框架的优势得到了充分验证。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创