谷歌更新Gemini API定价策略多档位可选推理成本最高降50%

夜下繁华 1 小时前

AI快讯

2026年4月3日，谷歌正式发布Gemini API全新定价策略，新增标准、弹性、优先、批量、缓存五大服务档位，其中弹性、批量档位推理成本较标准档直降50%，分别适配延迟容忍度1-15分钟、最长24小时的非实时场景，可满足不同开发者从实时调用到大规模离线处理的多元算力需求。

对于大量AI开发者而言，此前大模型API普遍采用的单一计费模式，一直是难以回避的成本浪费痛点：做实时交互的应用需要为低延迟付费无可厚非，但处理离线批量数据的场景，往往也要承担和实时调用相同的费率，大量预算被浪费在不需要的性能上。

谷歌本次推出的五大档位，本质是对算力资源的精细化拆分，把不同优先级的算力匹配给不同需求的用户，实现供需两端的效率最优，既降低用户的使用成本，也能提升谷歌自身的算力利用率。

本次更新的五大档位针对不同场景做了差异化设计，开发者可根据自身业务的时效要求灵活选择：
弹性档位和批量档位均给出了标准费率五折的优惠，两者的核心差异在于延迟容忍度：弹性档位利用非高峰时段的闲置算力调度，延迟在1到15分钟区间波动，适合批量内容生成、非实时用户行为分析等对时效要求不高的场景；批量档位的最长延迟可达24小时，适配大规模数据标注、多模态数据集预处理等超大规模离线任务，用户可在无时效压力的前提下将推理成本直接砍半。

除了两个折扣档位外，标准档位可满足常规的实时调用需求，适合智能客服、实时搜索增强等主流应用场景；优先档位针对对稳定性和延迟要求极高的企业级客户，提供算力预留保障，可适配金融实时风控、自动驾驶仿真等高优先级任务；缓存档位则创新地按缓存词元数量和存储时长计费，针对频繁调用相同系统提示词的对话机器人、长视频反复分析等场景，可避免重复计算固定prompt的冗余成本。

本次Gemini API的定价调整，并非谷歌的孤例，而是全球大模型厂商竞速落地的缩影。此前OpenAI曾针对GPT系列API推出批量调用折扣，国内厂商DeepSeek也上线了prompt缓存计费功能，整个行业正在从单纯拼模型效果，转向拼服务灵活性、拼成本控制能力的阶段。

对于开发者而言，精细化计费的普及无疑是重大利好。中小团队可根据自身业务场景选择最适配的档位，无需为不需要的性能支付溢价，进一步降低AI应用的落地门槛；对于谷歌而言，分档定价也能充分盘活闲置算力资源，同时覆盖更多长尾的非实时场景，扩大Gemini生态的覆盖范围。

随着大模型应用向千行百业渗透，不同行业的算力需求差异会进一步拉大，未来的大模型API计费模式会更加多元。除了现有的延迟分档、缓存计费外，按任务复杂度定价、专属算力集群定制、峰值弹性扩容等差异化服务会陆续出现，整个AI算力服务的供给会越来越贴近用户的实际需求，推动大模型落地的整体成本持续下探。

AI生成配图