谷歌近日面向企业级客户发布全新AI推理管控套件,针对当前企业部署大模型时平均推理成本占AI总支出60%以上、峰值时段服务可用性不足92%的行业痛点,提供动态算力调度、故障自动切换等功能,可帮助企业将推理环节综合成本降低30%左右,同时大幅提升生成式AI服务的运行稳定性。
图源: 图像由AI生成从某头部电商平台公开的内部数据来看,去年其大模型客服系统全年调用量超过12亿次,仅推理环节的算力支出就超过8000万元,而今年618大促期间的峰值调用量更是突破日常的7倍,一度出现部分请求响应延迟超5秒的问题——这也是当前多数企业落地生成式AI时遇到的共性难题。
不同于大模型训练环节的一次性算力投入,推理是大模型上线后响应用户请求的过程,会随着调用量的增长持续产生支出。Gartner发布的2024年AI产业报告显示,今年全球企业在AI推理环节的总支出将首次超过训练支出,占AI总算力投入的52%,部分高频调用大模型的互联网、金融企业,推理成本占AI总支出的比例甚至超过70%。
除了成本高企之外,推理环节的稳定性不足也是企业的普遍痛点:峰值时段算力不足导致的响应延迟、节点故障导致的服务中断,都会直接影响C端用户体验或内部业务效率。
此次谷歌推出的AI推理管控工具,面向所有使用谷歌云Vertex AI服务的企业客户开放,无需额外付费即可激活使用,核心覆盖三大场景需求。
一是**动态算力削峰机制**,企业可自主设置单月推理成本上限、优先级请求规则,当调用量超出阈值时,系统会自动将非核心请求分流到成本更低的轻量大模型,避免算力溢出产生额外支出。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
1 小时前
Rainmaker Securities总裁Glen Anderson最新披露,当前全球私人股权二级市场活跃度创下历史峰值,AI创企Anthropic成为最受追捧的交易标的,同赛道头部企业OpenAI交易热度出现明显下滑,而SpaceX临近的IPO计划,或将对整个一级科技创投市场的资金流向产生颠覆性影响。

6 小时前
2026年4月,人工智能头部企业OpenAI官宣最新一轮高管架构调整:首席运营官布拉德·莱特卡普(Brad Lightcap)将卸任原有职务,转任公司内部全新设立的“特殊项目”部门负责人;首席营销官凯特·劳奇(Kate Rouch)因癌症治疗将暂时离岗,待身体康复后回归。本轮调整是OpenAI 2026年首次公开的核心管理层变动,引发行业对其新业务布局的广泛关注。

6 小时前
2026年美国中期选举进入倒计时阶段,头部大模型企业Anthropic近日宣布成立全新政治行动委员会(PAC),计划定向支持认同其分级AI监管、算力资源倾斜、AIGC版权保护等政策议程的议员候选人。此次动作是头部AI企业从技术研发向政策上游延伸的标志性事件,也意味着全球AI行业的政策博弈进入白热化阶段。

6 小时前
据科技媒体The Information及行业分析师Eric Newcomer披露,AI大模型厂商Anthropic已于近期完成对秘密运营的生物科技AI初创公司Coefficient Bio的收购,本次交易为全股票形式,总对价达4亿美元。这是Anthropic首次落地生命科学垂直领域布局,也标志着大模型厂商商业化正加速向生物医药赛道渗透。

6 小时前
近日,AI大模型企业Anthropic宣布为旗下对话式AI产品Claude推出Windows平台本地交互能力,新版本可直接跨应用调取用户邮件、本地存储的各类文档,还能自主执行系统级任务操作。据官方披露,该功能可将文档整理、日程响应类办公流程的处理效率提升45%,无需用户手动上传文件即可完成复杂指令。

6 小时前
谷歌近期推出定价仅3美元的AI算力棒Magic Stick,主打为服役超过5年的老旧Windows、Mac PC提供轻量化AI算力支撑,用户无需更换硬件即可流畅运行Gemini全系AI服务,解决旧设备本地算力不足无法加载大语言模型的痛点。该产品瞄准全球超12亿台服役超期的存量PC市场,最快2024年第四季度正式开售。

6 小时前
前Facebook核心内容安全团队成员创立的AI治理服务商Moonbounce于近日完成1200万美元融资,其核心产品AI控制引擎可将平台内容审核政策转化为统一、可预测的AI行为判定标准,解决当前AI时代多模态内容审核标准混乱、一致性差的行业痛点,该笔融资将主要用于技术研发与客户场景拓展。

6 小时前
美国科技媒体Digital Trends近期发布的行业调查显示,全球已有超6成大中型保险公司引入AI系统负责核保风控、理赔核查等核心业务环节。美国消费者权益组织2024年调研数据显示,37%的拒赔案例由AI算法单独判定,其中42%存在事实认定偏差,相关算法决策的公正性问题已引发多国监管部门重点关注。