上海交通大学联合辉羲智能、微软亚洲研究院的研究团队,近期推出基于ROM+SRAM异构存储架构的端侧大语言模型方案,将端侧LLM推理速度推至20000 tokens/s,成功突破传统算力的“内存墙”瓶颈,为AI端侧部署开辟全新路径,或将动摇当前GPU主导的大模型算力市场格局。
不久前,硅谷初创公司Taalas将大模型参数“物理焊死”进专用芯片的消息,曾在全球半导体圈引发热议——这被视为端侧AI部署的一次大胆尝试。但来自国内的研究团队,已经用更具颠覆性的架构设计,把端侧大语言模型(LLM)的推理速度推到了前所未有的高度。
传统大模型推理的核心瓶颈,是被行业称为“内存墙”的存储带宽限制:大模型的数十亿参数需要频繁在存储单元与计算单元之间搬运,而普通DRAM内存的带宽不足,直接拖慢了推理速度。当前主流的云端大模型依赖英伟达GPU的高带宽内存(HBM)缓解这一问题,但HBM的高昂成本,让大模型的端侧部署始终难以规模化。
上海交通大学联合辉羲智能、微软亚洲研究院的团队跳出了“靠高带宽内存提速”的固有思路,采用ROM+SRAM异构存储架构:将大模型训练完成后固定不变的数十亿参数,存储在非易失性的ROM芯片中,而动态计算所需的临时数据,则放在高速SRAM中,彻底避免了参数反复搬运的带宽消耗。最终实现的端侧LLM推理速度达20000 tokens/s,按1token≈0.75汉字的通用换算,每秒可处理近1.5万字的AI任务,足以支撑实时长篇对话、专业文档生成等复杂场景。
当前大模型的主流部署方式是云端算力集群,虽然能支撑千亿级参数的大模型运行,但存在三大核心痛点:一是延迟高,无法满足自动驾驶、实时语音助手等对响应速度要求极高的场景;二是成本高,单台英伟达H100 GPU的年运维成本可达数十万元;三是隐私风险,用户的敏感数据需上传云端,易引发数据泄露问题。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
3 小时前
最近针对美国12-18岁青少年的调研显示,近62%的受访对象使用过ChatGPT、Google Gemini、DeepSeek等AI产品的陪伴类功能,超过3成受访青少年会向AI倾诉不愿告知家长、同学的私密情绪,AI正成为Z世代社交版图中不可忽视的新角色,相关行为也引发了学界对青少年社交模式变化的广泛讨论。

1 天前
近期,科技巨头微软针对旗下AI助手Copilot发布官方用户提示,明确不建议用户在高风险场景下过度依赖该工具。作为微软过去5年重点布局的核心AI产品,Copilot已覆盖Windows系统、Office办公套件、Azure云服务等全产品线,此前累计投入相关研发推广资源超100亿美元,此次态度转向引发AI产业对通用助手落地边界的广泛讨论。

1 天前
2026年4月4日,大模型厂商Anthropic正式官宣生态政策调整:从美国东部时间4月4日15点(北京时间4月5日3点)起,旗下Claude大模型将禁用OpenClaw等第三方工具,用户后续仅能通过额外付费套餐或Claude API Key调用相关工具。该政策将率先在OpenClaw落地,未来覆盖全部第三方工具链,是大模型厂商收紧生态控制权、加速商业化的标志性动作。

1 天前
近期Meta、微软、谷歌等海外头部科技企业相继公布天然气电厂建设计划,为旗下高速扩张的AI数据中心提供稳定电力支撑。随着生成式AI普及,单座AI算力中心能耗是传统数据中心的3-5倍,现有公共电网已难以满足企业爆发式算力供电需求,化石能源供电方案也引发了业内对碳目标达成、长期运营风险的广泛讨论。

1 天前
据科技媒体The Information及行业分析师Eric Newcomer披露,AI大模型厂商Anthropic已于近期完成对秘密运营的生物科技AI初创公司Coefficient Bio的收购,本次交易为全股票形式,总对价达4亿美元。这是Anthropic首次落地生命科学垂直领域布局,也标志着大模型厂商商业化正加速向生物医药赛道渗透。

2 天前
2026年以来,微软、Meta、Google等全球科技巨头先后启动配套天然气发电厂建设项目,以满足AI大模型训练、推理所需的超算数据中心爆发式增长的能耗需求。行业测算显示,头部AI算力集群的单位能耗是传统数据中心的5-10倍,这一能源布局已引发行业关于碳排放、长期能源结构合理性的广泛讨论。

2 天前
近期Anthropic源代码泄露事件中,安全研究者发现针对其旗下代码大模型Claude Code的新型prompt逃逸攻击路径,可绕过内容安全审查执行违规操作,而该类漏洞此前Anthropic公开表示已完成修复。目前该漏洞可导致代码生成环节出现恶意植入、数据泄露等风险,Anthropic尚未就新漏洞给出官方回应。

2 天前
美国科技媒体Digital Trends近期发布的行业调查显示,全球已有超6成大中型保险公司引入AI系统负责核保风控、理赔核查等核心业务环节。美国消费者权益组织2024年调研数据显示,37%的拒赔案例由AI算法单独判定,其中42%存在事实认定偏差,相关算法决策的公正性问题已引发多国监管部门重点关注。