少找工具,多做创作

谷歌推出TurboQuant技术 破解AI推理GPU显存瓶颈

近日,谷歌正式推出全新AI推理优化技术TurboQuant,瞄准当前企业规模化部署AI推理服务、长上下文大模型应用时普遍遭遇的GPU显存约束痛点,可在推理精度损失控制在1%以内的前提下大幅降低单任务显存占用,有效降低企业AI落地的硬件采购与运维成本。

随着大模型上下文窗口从几十K拓展到百万K级,长上下文应用正在成为企业AI落地的主流方向,但随之而来的显存不足问题,已经成为限制企业规模化部署AI服务的核心瓶颈。根据行业调研数据,当前企业级AI部署中,推理环节的成本占比已经超过70%,其中长上下文任务的显存占用是普通短对话任务的4倍以上,多数企业只能通过增加GPU采购量的方式应对,仅硬件成本就拉高了AI落地门槛近3倍。

过去两年行业的注意力大多集中在大模型训练阶段的算力优化,而随着越来越多的模型完成训练走向落地,推理环节的效率问题开始凸显。

尤其是金融、法律、企业服务等领域的客户,需要处理动辄几十上百页的文档、数千轮的对话历史,长上下文任务对显存的消耗远高于预期,即便单张A100 80G显存的GPU,也只能同时支撑2-3个70B参数级大模型的长上下文推理请求,企业要扩容服务能力,往往需要投入数百万的硬件成本,还面临GPU供货周期长的问题。

这次谷歌发布的TurboQuant,本质上是一套面向推理阶段的自适应量化技术,和传统的量化方案相比,它解决了“降显存就掉精度”的行业通病。

TurboQuant可以针对不同模型的结构特点、不同任务的推理需求自动适配量化策略,不需要对原有模型进行重训练,也不需要修改业务代码,就能将单任务的显存占用降低55%以上,推理速度提升32%,同时精度损失控制在0.8%以内,普通用户几乎感知不到差异。举个例子,原来单张A100只能同时运行2个70B参数长上下文模型实例,搭载TurboQuant之后可以同时运行5个,单实例的推理成本直接下降60%。目前该技术已经完成对Llama 3、Gemini、DeepSeek等主流大模型的适配,企业可以直接部署使用。

谷歌方面表示,TurboQuant最早将在今年四季度正式登陆谷歌云GCP的AI推理服务平台,供所有云客户调用,后续也不排除将核心技术开源的可能性,惠及更多独立开发者和中小企业。

实际上,2024年以来,整个AI行业的关注重心已经从“做更大的模型”转向“让模型用起来更便宜”,不管是OpenAI推出的o1模型内置的推理优化机制,还是国内厂商推出的各类量化、推理加速方案,核心目标都是降低AI使用成本。随着TurboQuant这类技术的普及,未来2年内,企业级AI应用的部署成本有望下降70%以上,长上下文AI服务的普及速度将远超市场预期。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创