登录体验完整功能(收藏、点赞、评论等) — 立即登录

少找工具,多做创作

DeepSeek联合清北发布DualPath架构,推理效率最高提近2倍

近日,AI公司DeepSeek联合北京大学、清华大学发布学术论文,推出全新推理系统架构DualPath。该架构精准攻克大语言模型多轮Agent交互中的存储带宽瓶颈,经实验验证,离线批处理推理吞吐量最高提升1.87倍,在线服务场景Agent每秒处理能力平均提升1.96倍,为大模型Agent的产业化落地扫清了关键性能障碍。

当大语言模型Agent进行10轮以上的多轮交互时,传统推理架构的存储带宽往往会成为致命短板——数据读写速度跟不上模型运算需求,直接拉低整体服务效率。而DeepSeek联合顶尖高校的最新研究,恰好瞄准了这一行业长期存在的痛点。

随着大语言模型从单次问答向多轮Agent交互进化,比如智能办公助手、多轮对话式客服等场景,模型需要持续存储并调用历史交互上下文。传统推理架构中,所有上下文数据都通过单一路径读写,这会导致存储带宽被大量占用,进而限制推理吞吐量,使得服务无法支撑高并发需求。这一存储带宽瓶颈,已成为Agentic大语言模型规模化落地的核心障碍之一。

DeepSeek联合北京大学、清华大学在论文《DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference》中,提出了DualPath推理系统架构。该架构通过创新的双路径设计,将历史上下文数据与当前请求数据的读写路径分离,从根源上缓解了存储带宽压力。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创