登录体验完整功能(收藏、点赞、评论等) — 已累计有 9196 人加入

让AI触手可及,让应用激发潜能

谷歌推出TurboQuant技术 破解AI推理GPU显存瓶颈

近日,谷歌正式推出全新AI推理优化技术TurboQuant,瞄准当前企业规模化部署AI推理服务、长上下文大模型应用时普遍遭遇的GPU显存约束痛点,可在推理精度损失控制在1%以内的前提下大幅降低单任务显存占用,有效降低企业AI落地的硬件采购与运维成本。

随着大模型上下文窗口从几十K拓展到百万K级,长上下文应用正在成为企业AI落地的主流方向,但随之而来的显存不足问题,已经成为限制企业规模化部署AI服务的核心瓶颈。根据行业调研数据,当前企业级AI部署中,推理环节的成本占比已经超过70%,其中长上下文任务的显存占用是普通短对话任务的4倍以上,多数企业只能通过增加GPU采购量的方式应对,仅硬件成本就拉高了AI落地门槛近3倍。

过去两年行业的注意力大多集中在大模型训练阶段的算力优化,而随着越来越多的模型完成训练走向落地,推理环节的效率问题开始凸显。

尤其是金融、法律、企业服务等领域的客户,需要处理动辄几十上百页的文档、数千轮的对话历史,长上下文任务对显存的消耗远高于预期,即便单张A100 80G显存的GPU,也只能同时支撑2-3个70B参数级大模型的长上下文推理请求,企业要扩容服务能力,往往需要投入数百万的硬件成本,还面临GPU供货周期长的问题。

这次谷歌发布的TurboQuant,本质上是一套面向推理阶段的自适应量化技术,和传统的量化方案相比,它解决了“降显存就掉精度”的行业通病。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯