谷歌近日面向企业级客户发布全新AI推理管控套件,针对当前企业部署大模型时平均推理成本占AI总支出60%以上、峰值时段服务可用性不足92%的行业痛点,提供动态算力调度、故障自动切换等功能,可帮助企业将推理环节综合成本降低30%左右,同时大幅提升生成式AI服务的运行稳定性。
图源: 图像由AI生成从某头部电商平台公开的内部数据来看,去年其大模型客服系统全年调用量超过12亿次,仅推理环节的算力支出就超过8000万元,而今年618大促期间的峰值调用量更是突破日常的7倍,一度出现部分请求响应延迟超5秒的问题——这也是当前多数企业落地生成式AI时遇到的共性难题。
不同于大模型训练环节的一次性算力投入,推理是大模型上线后响应用户请求的过程,会随着调用量的增长持续产生支出。Gartner发布的2024年AI产业报告显示,今年全球企业在AI推理环节的总支出将首次超过训练支出,占AI总算力投入的52%,部分高频调用大模型的互联网、金融企业,推理成本占AI总支出的比例甚至超过70%。
除了成本高企之外,推理环节的稳定性不足也是企业的普遍痛点:峰值时段算力不足导致的响应延迟、节点故障导致的服务中断,都会直接影响C端用户体验或内部业务效率。
此次谷歌推出的AI推理管控工具,面向所有使用谷歌云Vertex AI服务的企业客户开放,无需额外付费即可激活使用,核心覆盖三大场景需求。
一是**动态算力削峰机制**,企业可自主设置单月推理成本上限、优先级请求规则,当调用量超出阈值时,系统会自动将非核心请求分流到成本更低的轻量大模型,避免算力溢出产生额外支出。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
1 小时前
4月10日,外媒The Information援引知情人士消息,首次披露埃隆·马斯克旗下太空企业SpaceX与AI子公司xAI的2025年合并财务数据。这份从未公开的财报显示,SpaceX全年营收超过185亿美元,约合人民币1267亿元,合并口径下净亏损近50亿美元,折合人民币约342亿元,亏损主要来自xAI的大模型研发投入,引发AI行业对前沿研发成本模式的关注。

3 小时前
当前多AI智能体协作是生成式AI落地企业复杂场景的核心方向之一,不少项目在测试部署中都出现了任务混乱、效率低下等问题。近日行业分析指出,超六成该类项目的协作故障并非源于AI智能体本身能力缺陷,问题核心出在连接不同智能体的协调层架构缺失,这一结论为行业梳理AI智能体落地瓶颈指明了新方向。

3 小时前
网络研究机构Graphite于2026年4月发布最新调查报告,通过Surfer AI检测工具分析65000个网址后得出结论:当前全球互联网上的AI生成内容占比已经正式超越人类原创内容。该工具依托覆盖18年的互联网网页数据库,每月更新30亿至50亿个网页,自2022年ChatGPT发布以来,AI生成内容占比呈现陡增趋势,这一结果也引发了AI行业对创意枯竭与模型发展风险的讨论。

4 小时前
2026年4月,Meta发布由前Scale AI负责人Alexandr Wang团队打造的全新生成式AI模型Muse Spark,该模型推出后迅速拉动旗下Meta AI应用在美国App Store的排名,从发布前的第57位飙升至总榜第5位。据市场机构Appfigures统计,发布首日Meta AI在美国iOS平台下载量达4.6万次,较前一日涨幅达到87%,引发AI消费端市场的广泛关注。

5 小时前
2026年4月10日,小米官方宣布旗下自研MiMo-V2系列大模型正式接入全球顶级开源Agent框架Hermes Agent,开发者更新框架至最新版本后,即可通过Nous Portal直接调用该系列Pro、Omni、Flash三款核心模型。小米同步开启为期14天的开发者限免活动,覆盖全系列模型调用额度,降低Agent应用开发门槛。

5 小时前
2026年4月,腾讯Robotics X实验室联合腾讯混元团队正式推出专为具身智能打造的HY-Embodied-0.5基础模型,在22项行业通用具身评测中拿下16项最优成绩刷新纪录。该系列模型从架构到训练范式全链路重构,同步推出MoT-2B、MoE-32B两款主力模型,可填补通用视觉语言模型三维空间感知与物理交互能力短板,推动大模型向机器人控制领域延伸。

5 小时前
2026年4月披露的行业消息显示,字节跳动2023年成立的AI核心研发部门Seed团队近一年流失近70名技术人才,人员流向腾讯、阿里等头部大厂及AI初创企业,其中近30人入职腾讯负责AI Infra与数据基建,顶级实习生葛浩转投阿里通义千问团队参与强化学习基建研发。该团队研发的豆包大模型此前已支撑50余个应用场景,人员变动凸显国内大模型赛道人才竞争已进入白热化阶段。

6 小时前
2026年4月,谷歌正式为旗下Gemini AI聊天机器人上线交互式3D模型与模拟功能,目前仅面向Gemini Pro用户开放。用户通过指定指令即可生成可操作三维内容、支持参数调整的动态模拟,替代传统文本与静态图示,覆盖物理推演、分子观测、天文模拟等多类科学学习场景,大幅降低复杂概念的理解门槛。