登录体验完整功能(收藏、点赞、评论等) — 已累计有 9196 人加入

让AI触手可及,让应用激发潜能

谷歌推出TurboQuant压缩算法 LLM推理提速8倍零精度损失

2026年3月26日,谷歌研究团队正式推出全新向量量化压缩算法TurboQuant,依托PolarQuant与QJL两项创新技术,可将大语言模型推理环节的键值缓存(KV Cache)内存需求降低至少6倍,在英伟达H100 GPU上实现注意力计算最高8倍提速,且测试显示全程零精度损失,无需额外训练即可落地,有望大幅压低大模型部署成本,推动长上下文应用普及。

大语言模型处理长序列内容时,需要存储由键、值向量组成的KV Cache(键值缓存)来降低重复计算量,支撑注意力机制快速运转。但随着行业普遍将上下文窗口从数千token扩容至数十万乃至百万token,KV Cache的内存开销呈线性暴涨,已经成为挤占GPU算力、拉高推理成本的核心障碍。据行业测算,运行百万上下文级别的大模型时,KV Cache的内存占用甚至可达到模型参数本身的2-3倍,多数中小厂商难以负担相关部署成本,也直接限制了长上下文能力的普及速度。

谷歌TurboQuant技术性能实测数据
此次谷歌推出的TurboQuant算法,跳出了业内过往“压缩必损精度”“提速需额外预训练”的固有路径,通过创新的PolarQuant极坐标量化技术与QJL量化跳转逻辑,无需对模型进行任何额外微调训练,即可实现KV Cache至少6倍的压缩率。在英伟达H100 GPU上的实测数据显示,其注意力计算速度最高可提升8倍,在MMLU、LongBench等多项主流长上下文能力基准测试中,输出结果精度与未压缩版本完全一致,没有出现任何性能衰减。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯