登录体验完整功能(收藏、点赞、评论等) — 立即登录

少找工具,多做创作

谷歌推出企业级AI推理管控工具 兼顾成本控制与运行可靠性

谷歌近日面向企业级客户发布全新AI推理管控套件,针对当前企业部署大模型时平均推理成本占AI总支出60%以上、峰值时段服务可用性不足92%的行业痛点,提供动态算力调度、故障自动切换等功能,可帮助企业将推理环节综合成本降低30%左右,同时大幅提升生成式AI服务的运行稳定性。

AI生成配图图源: 图像由AI生成

从某头部电商平台公开的内部数据来看,去年其大模型客服系统全年调用量超过12亿次,仅推理环节的算力支出就超过8000万元,而今年618大促期间的峰值调用量更是突破日常的7倍,一度出现部分请求响应延迟超5秒的问题——这也是当前多数企业落地生成式AI时遇到的共性难题。

不同于大模型训练环节的一次性算力投入,推理是大模型上线后响应用户请求的过程,会随着调用量的增长持续产生支出。Gartner发布的2024年AI产业报告显示,今年全球企业在AI推理环节的总支出将首次超过训练支出,占AI总算力投入的52%,部分高频调用大模型的互联网、金融企业,推理成本占AI总支出的比例甚至超过70%。

除了成本高企之外,推理环节的稳定性不足也是企业的普遍痛点:峰值时段算力不足导致的响应延迟、节点故障导致的服务中断,都会直接影响C端用户体验或内部业务效率。

此次谷歌推出的AI推理管控工具,面向所有使用谷歌云Vertex AI服务的企业客户开放,无需额外付费即可激活使用,核心覆盖三大场景需求。

一是**动态算力削峰机制**,企业可自主设置单月推理成本上限、优先级请求规则,当调用量超出阈值时,系统会自动将非核心请求分流到成本更低的轻量大模型,避免算力溢出产生额外支出。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创