上海交通大学联合辉羲智能、微软亚洲研究院的研究团队,近期推出基于ROM+SRAM异构存储架构的端侧大语言模型方案,将端侧LLM推理速度推至20000 tokens/s,成功突破传统算力的“内存墙”瓶颈,为AI端侧部署开辟全新路径,或将动摇当前GPU主导的大模型算力市场格局。
不久前,硅谷初创公司Taalas将大模型参数“物理焊死”进专用芯片的消息,曾在全球半导体圈引发热议——这被视为端侧AI部署的一次大胆尝试。但来自国内的研究团队,已经用更具颠覆性的架构设计,把端侧大语言模型(LLM)的推理速度推到了前所未有的高度。
传统大模型推理的核心瓶颈,是被行业称为“内存墙”的存储带宽限制:大模型的数十亿参数需要频繁在存储单元与计算单元之间搬运,而普通DRAM内存的带宽不足,直接拖慢了推理速度。当前主流的云端大模型依赖英伟达GPU的高带宽内存(HBM)缓解这一问题,但HBM的高昂成本,让大模型的端侧部署始终难以规模化。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录