少找工具,多做创作

谷歌推出TurboQuant压缩算法 大模型内存减至1/6推理提8倍

2026年3月25日,谷歌研究院正式发布全新极端压缩算法TurboQuant,针对大语言模型普遍存在的KV Cache内存瓶颈实现核心技术突破,实测可将AI内存占用锐降至原有水平的1/6,推理速度最高提升8倍。该技术有望重塑AI运行效率体系,对下游AI部署、存储芯片市场均将产生深远影响。

对于很多尝鲜本地大模型的用户来说,“爆显存”几乎是长文本生成、多轮对话场景下的标配痛点:哪怕是搭载24G显存的高端消费级显卡,跑70B参数的大模型最多也只能支持32k上下文窗口,再长就会因为内存不足直接崩溃。这一问题的核心根源,就是占大模型显存开销七成以上的KV Cache缓存。

KV Cache是大语言模型生成文本时的高速缓存机制,通过存储历史计算结果避免重复计算,是大模型提升生成速度的核心技术,但随着上下文窗口从4k一路扩展到128k、256k,KV Cache的内存占用也呈线性增长,成为制约大模型性能的首要瓶颈。

此前行业普遍采用高维向量量化技术压缩KV Cache,但这类技术需要为每个微小数据块计算、存储独立的量化常数,额外引入的内存开销抵消了近四成的压缩收益,始终无法实现根本性突破。云厂商的大模型推理成本中,显存开销占比已经超过60%,消费级设备跑大模型的门槛也始终居高不下。

大模型KV Cache内存占用占比示意图

此次谷歌研究院推出的TurboQuant,直接放弃了传统分块量化的技术路线,采用全局动态量化校准机制,仅用极少量的全局参数就能实现对高维向量的无损压缩,完全消除了传统方案的额外内存开销,量化精度反而较行业主流方案提升12%。

TurboQuant与传统量化算法性能对比

在70B参数大模型、128k上下文窗口的标准测试环境下,TurboQuant将KV Cache的内存占用从28GB压缩至不足5GB,仅为原有水平的1/6,同时推理吞吐量提升8倍,单token生成延迟降低72%,且输出内容的准确率、流畅度没有出现可感知的衰减。

对于云厂商而言,该技术可直接降低40%以上的大模型推理成本,原本需要搭载8张H100显卡的推理节点,现在仅需2张就能支撑同等规模的访问量;对于端侧用户来说,原来需要24G显存才能流畅运行的70B大模型,现在搭载8G显存的普通轻薄本就能支持128k上下文窗口的长文本生成,本地大模型的普及门槛大幅降低。

该技术发布后,三星、SK海力士等全球存储芯片龙头企业的股价3月26日开盘分别下跌4.2%和5.7%,市场普遍预期,AI厂商对HBM等高端存储芯片的增量需求将出现短期回落,中低端存储芯片的AI场景需求也将有所收缩。

TurboQuant技术落地场景覆盖范围

谷歌研究院表示,预计将在2026年第二季度开放TurboQuant的核心代码供产业界试用,下半年会将该算法整合到TensorFlow、PyTorch等主流AI开发框架的官方工具链中,旗下Gemini系列大模型也将率先搭载该技术提升运行效率。

据行业机构预测,到2026年底,全球超过60%的大模型推理服务都会采用类似的极端压缩技术,长上下文大模型的普及速度将比此前预期快1-2年。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创