2026年4月3日,谷歌正式发布Gemini API全新定价策略,新增标准、弹性、优先、批量、缓存五大服务档位,其中弹性、批量档位推理成本较标准档直降50%,分别适配延迟容忍度1-15分钟、最长24小时的非实时场景,可满足不同开发者从实时调用到大规模离线处理的多元算力需求。
对于大量AI开发者而言,此前大模型API普遍采用的单一计费模式,一直是难以回避的成本浪费痛点:做实时交互的应用需要为低延迟付费无可厚非,但处理离线批量数据的场景,往往也要承担和实时调用相同的费率,大量预算被浪费在不需要的性能上。
谷歌本次推出的五大档位,本质是对算力资源的精细化拆分,把不同优先级的算力匹配给不同需求的用户,实现供需两端的效率最优,既降低用户的使用成本,也能提升谷歌自身的算力利用率。
本次更新的五大档位针对不同场景做了差异化设计,开发者可根据自身业务的时效要求灵活选择:
弹性档位和批量档位均给出了标准费率五折的优惠,两者的核心差异在于延迟容忍度:弹性档位利用非高峰时段的闲置算力调度,延迟在1到15分钟区间波动,适合批量内容生成、非实时用户行为分析等对时效要求不高的场景;批量档位的最长延迟可达24小时,适配大规模数据标注、多模态数据集预处理等超大规模离线任务,用户可在无时效压力的前提下将推理成本直接砍半。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录