少找工具,多做创作

谷歌推出TurboQuant压缩算法 LLM推理提速8倍零精度损失

2026年3月26日,谷歌研究团队正式推出全新向量量化压缩算法TurboQuant,依托PolarQuant与QJL两项创新技术,可将大语言模型推理环节的键值缓存(KV Cache)内存需求降低至少6倍,在英伟达H100 GPU上实现注意力计算最高8倍提速,且测试显示全程零精度损失,无需额外训练即可落地,有望大幅压低大模型部署成本,推动长上下文应用普及。

大语言模型处理长序列内容时,需要存储由键、值向量组成的KV Cache(键值缓存)来降低重复计算量,支撑注意力机制快速运转。但随着行业普遍将上下文窗口从数千token扩容至数十万乃至百万token,KV Cache的内存开销呈线性暴涨,已经成为挤占GPU算力、拉高推理成本的核心障碍。据行业测算,运行百万上下文级别的大模型时,KV Cache的内存占用甚至可达到模型参数本身的2-3倍,多数中小厂商难以负担相关部署成本,也直接限制了长上下文能力的普及速度。

谷歌TurboQuant技术性能实测数据
此次谷歌推出的TurboQuant算法,跳出了业内过往“压缩必损精度”“提速需额外预训练”的固有路径,通过创新的PolarQuant极坐标量化技术与QJL量化跳转逻辑,无需对模型进行任何额外微调训练,即可实现KV Cache至少6倍的压缩率。在英伟达H100 GPU上的实测数据显示,其注意力计算速度最高可提升8倍,在MMLU、LongBench等多项主流长上下文能力基准测试中,输出结果精度与未压缩版本完全一致,没有出现任何性能衰减。

据行业分析师测算,KV Cache的开销通常占到大模型推理总算力成本的40%左右,TurboQuant的落地可直接将单张H100 GPU支持的长上下文推理并发量提升4-5倍,整体部署成本可下降30%至50%。对于依赖长上下文能力的文档处理、代码生成、多轮对话类AI应用而言,相关研发和运营门槛将大幅降低,普通开发者也能低成本调用百万上下文级别的大模型能力。

目前谷歌尚未公布TurboQuant的开源计划,但已有包括OpenAI、Anthropic在内的多家头部大模型厂商被曝正在与谷歌接触,商讨技术授权相关事宜,预计2026年内就会有搭载该技术的商用大模型产品正式上线。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创