上交大×辉羲智能：端侧LLM推理破2万tokens/s，重构算力架构

AI小创 1 个月前

AI快讯

上海交通大学联合辉羲智能、微软亚洲研究院的研究团队，近期推出基于ROM+SRAM异构存储架构的端侧大语言模型方案，将端侧LLM推理速度推至20000 tokens/s，成功突破传统算力的“内存墙”瓶颈，为AI端侧部署开辟全新路径，或将动摇当前GPU主导的大模型算力市场格局。

不久前，硅谷初创公司Taalas将大模型参数“物理焊死”进专用芯片的消息，曾在全球半导体圈引发热议——这被视为端侧AI部署的一次大胆尝试。但来自国内的研究团队，已经用更具颠覆性的架构设计，把端侧大语言模型（LLM）的推理速度推到了前所未有的高度。

传统大模型推理的核心瓶颈，是被行业称为“内存墙”的存储带宽限制：大模型的数十亿参数需要频繁在存储单元与计算单元之间搬运，而普通DRAM内存的带宽不足，直接拖慢了推理速度。当前主流的云端大模型依赖英伟达GPU的高带宽内存（HBM）缓解这一问题，但HBM的高昂成本，让大模型的端侧部署始终难以规模化。

上海交通大学联合辉羲智能、微软亚洲研究院的团队跳出了“靠高带宽内存提速”的固有思路，采用ROM+SRAM异构存储架构：将大模型训练完成后固定不变的数十亿参数，存储在非易失性的ROM芯片中，而动态计算所需的临时数据，则放在高速SRAM中，彻底避免了参数反复搬运的带宽消耗。最终实现的端侧LLM推理速度达20000 tokens/s，按1token≈0.75汉字的通用换算，每秒可处理近1.5万字的AI任务，足以支撑实时长篇对话、专业文档生成等复杂场景。

当前大模型的主流部署方式是云端算力集群，虽然能支撑千亿级参数的大模型运行，但存在三大核心痛点：一是延迟高，无法满足自动驾驶、实时语音助手等对响应速度要求极高的场景；二是成本高，单台英伟达H100 GPU的年运维成本可达数十万元；三是隐私风险，用户的敏感数据需上传云端，易引发数据泄露问题。

人工智能算力突破端侧大语言模型辉羲智能异构存储架构

本文内容来源于公开互联网信息，并包含平台新增内容及用户发布内容，旨在进行知识整理与分享。文中所有信息与观点均仅供参考，不代表任何官方或特定立场，亦不构成任何操作或决策建议，请读者谨慎甄别，详情请见完整免责声明