DeepSeek联合北京大学、清华大学在ArXiv平台发布最新研究论文,披露专为大模型智能体打造的DualPath推理框架。该框架创新性利用闲置网卡优化KV-Cache加载效率,直击长文本推理场景下的I/O瓶颈,打破传统PD分离架构的性能限制,确保计算资源不被存储读取拖累。
当大模型智能体处理法律文书梳理、学术文献精读等数万字级的长文本任务时,不少开发者都会遇到一个棘手的隐性瓶颈:GPU的算力利用率始终上不去,明明芯片还有富余的计算能力,却因从外部存储加载KV-Cache的速度跟不上,导致整体推理效率大打折扣。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录