登录体验完整功能(收藏、点赞、评论等)

上交大×辉羲智能:端侧LLM推理破2万tokens/s,重构算力架构

上海交通大学联合辉羲智能、微软亚洲研究院的研究团队,近期推出基于ROM+SRAM异构存储架构的端侧大语言模型方案,将端侧LLM推理速度推至20000 tokens/s,成功突破传统算力的“内存墙”瓶颈,为AI端侧部署开辟全新路径,或将动摇当前GPU主导的大模型算力市场格局。

不久前,硅谷初创公司Taalas将大模型参数“物理焊死”进专用芯片的消息,曾在全球半导体圈引发热议——这被视为端侧AI部署的一次大胆尝试。但来自国内的研究团队,已经用更具颠覆性的架构设计,把端侧大语言模型(LLM)的推理速度推到了前所未有的高度。

传统大模型推理的核心瓶颈,是被行业称为“内存墙”的存储带宽限制:大模型的数十亿参数需要频繁在存储单元与计算单元之间搬运,而普通DRAM内存的带宽不足,直接拖慢了推理速度。当前主流的云端大模型依赖英伟达GPU的高带宽内存(HBM)缓解这一问题,但HBM的高昂成本,让大模型的端侧部署始终难以规模化。

上海交通大学联合辉羲智能、微软亚洲研究院的团队跳出了“靠高带宽内存提速”的固有思路,采用ROM+SRAM异构存储架构:将大模型训练完成后固定不变的数十亿参数,存储在非易失性的ROM芯片中,而动态计算所需的临时数据,则放在高速SRAM中,彻底避免了参数反复搬运的带宽消耗。最终实现的端侧LLM推理速度达20000 tokens/s,按1token≈0.75汉字的通用换算,每秒可处理近1.5万字的AI任务,足以支撑实时长篇对话、专业文档生成等复杂场景。

当前大模型的主流部署方式是云端算力集群,虽然能支撑千亿级参数的大模型运行,但存在三大核心痛点:一是延迟高,无法满足自动驾驶、实时语音助手等对响应速度要求极高的场景;二是成本高,单台英伟达H100 GPU的年运维成本可达数十万元;三是隐私风险,用户的敏感数据需上传云端,易引发数据泄露问题。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创