2026年3月26日,谷歌研究团队正式推出全新向量量化压缩算法TurboQuant,依托PolarQuant与QJL两项创新技术,可将大语言模型推理环节的键值缓存(KV Cache)内存需求降低至少6倍,在英伟达H100 GPU上实现注意力计算最高8倍提速,且测试显示全程零精度损失,无需额外训练即可落地,有望大幅压低大模型部署成本,推动长上下文应用普及。
大语言模型处理长序列内容时,需要存储由键、值向量组成的KV Cache(键值缓存)来降低重复计算量,支撑注意力机制快速运转。但随着行业普遍将上下文窗口从数千token扩容至数十万乃至百万token,KV Cache的内存开销呈线性暴涨,已经成为挤占GPU算力、拉高推理成本的核心障碍。据行业测算,运行百万上下文级别的大模型时,KV Cache的内存占用甚至可达到模型参数本身的2-3倍,多数中小厂商难以负担相关部署成本,也直接限制了长上下文能力的普及速度。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录