2026年4月3日,谷歌正式发布Gemini API全新定价策略,新增标准、弹性、优先、批量、缓存五大服务档位,其中弹性、批量档位推理成本较标准档直降50%,分别适配延迟容忍度1-15分钟、最长24小时的非实时场景,可满足不同开发者从实时调用到大规模离线处理的多元算力需求。
对于大量AI开发者而言,此前大模型API普遍采用的单一计费模式,一直是难以回避的成本浪费痛点:做实时交互的应用需要为低延迟付费无可厚非,但处理离线批量数据的场景,往往也要承担和实时调用相同的费率,大量预算被浪费在不需要的性能上。
谷歌本次推出的五大档位,本质是对算力资源的精细化拆分,把不同优先级的算力匹配给不同需求的用户,实现供需两端的效率最优,既降低用户的使用成本,也能提升谷歌自身的算力利用率。
本次更新的五大档位针对不同场景做了差异化设计,开发者可根据自身业务的时效要求灵活选择:
弹性档位和批量档位均给出了标准费率五折的优惠,两者的核心差异在于延迟容忍度:弹性档位利用非高峰时段的闲置算力调度,延迟在1到15分钟区间波动,适合批量内容生成、非实时用户行为分析等对时效要求不高的场景;批量档位的最长延迟可达24小时,适配大规模数据标注、多模态数据集预处理等超大规模离线任务,用户可在无时效压力的前提下将推理成本直接砍半。
除了两个折扣档位外,标准档位可满足常规的实时调用需求,适合智能客服、实时搜索增强等主流应用场景;优先档位针对对稳定性和延迟要求极高的企业级客户,提供算力预留保障,可适配金融实时风控、自动驾驶仿真等高优先级任务;缓存档位则创新地按缓存词元数量和存储时长计费,针对频繁调用相同系统提示词的对话机器人、长视频反复分析等场景,可避免重复计算固定prompt的冗余成本。
本次Gemini API的定价调整,并非谷歌的孤例,而是全球大模型厂商竞速落地的缩影。此前OpenAI曾针对GPT系列API推出批量调用折扣,国内厂商DeepSeek也上线了prompt缓存计费功能,整个行业正在从单纯拼模型效果,转向拼服务灵活性、拼成本控制能力的阶段。
对于开发者而言,精细化计费的普及无疑是重大利好。中小团队可根据自身业务场景选择最适配的档位,无需为不需要的性能支付溢价,进一步降低AI应用的落地门槛;对于谷歌而言,分档定价也能充分盘活闲置算力资源,同时覆盖更多长尾的非实时场景,扩大Gemini生态的覆盖范围。
随着大模型应用向千行百业渗透,不同行业的算力需求差异会进一步拉大,未来的大模型API计费模式会更加多元。除了现有的延迟分档、缓存计费外,按任务复杂度定价、专属算力集群定制、峰值弹性扩容等差异化服务会陆续出现,整个AI算力服务的供给会越来越贴近用户的实际需求,推动大模型落地的整体成本持续下探。

(图像由AI生成)

52 分钟前
2026年4月3日,Cursor团队正式推出代码编辑器Cursor 3版本,核心搭载智能体统一工作区,支持多智能体协同、本地与云端多代码仓库无缝切换,开发者可通过多终端启动智能体,将软件开发模式从传统人机协作升级为智能体自主工作阶段,可大幅降低跨环境开发的沟通与操作成本。

1 小时前
2026年4月3日,千问AI眼镜正式接入蚂蚁集团GPASS开放能力,打通支付宝出行生态,上线共享单车开锁还车、停车场自动缴费等多项AI办事功能。该服务基于GPASS的声纹核身、多端数据流转技术,用户仅需语音指令即可完成全流程操作,无需掏出手机,目前已覆盖主流高频出行场景,大幅降低出行场景的操作成本。

1 小时前
2026年4月3日,谷歌DeepMind正式发布新一代开源大模型系列Gemma4,本次迭代距上一代产品发布间隔一年,不仅将开源协议更换为支持免费商用的Apache2.0,还推出4款覆盖端侧到数据中心的不同规格产品,其中310亿参数旗舰版性能位列Arena AI开源排行榜第三,单张H100显卡即可运行。

2 小时前
2026年4月3日,阿里通义实验室正式发布AI视频生成工具Wan2.7-Video,针对当前行业普遍存在的内容生成不专业、编辑修改难度高两大痛点,支持文本、图像、视频、音频全模态输入,可实现画面结构、剧情走向、局部细节的精准控制,大幅降低专业内容创作门槛,为视频创作者提供更高的创作自由度与编辑灵活性。

2 小时前
2026年4月3日,小米正式官宣为旗下MiMo大模型推出首个Token订阅套餐,共设Lite、Standard、Pro、Max四档,定价从39元/月到659元/月不等,面向开发者及AI深度兴趣群体提供服务,任意档位订阅均可解锁MiMo家族三大核心模型的调用权限,此举标志着小米AI生态正式进入商业化付费阶段。

3 小时前
近期微软调整旗下AI业务核心战略,从此前依赖OpenAI GPT系列技术支撑Copilot等智能产品,转向投入超110亿美元搭建自研大模型团队,目标在2025年底前推出完全自主可控的通用AI底座,替代现有外采技术方案,相关调整已覆盖云计算、办公AI、消费级智能助手三大核心业务线。

3 小时前
2026年3月底小米正式面向全球开发者推出自研MiMo大模型首个Token Plan订阅套餐,共设四档月费39元至659元,通过统一Credit点数实现多模型多模态调用透明计费。旗下MiMo-V2-Pro模型以万亿参数、百万上下文窗口位列全球大模型评测第五,目前MiMo系列周调用量已突破4万亿Token,此举标志小米AI商业化进入规模化交付阶段。

3 小时前
2026年4月3日滴滴公开最新运营数据,其旗下AI出行助手“小滴”近一周活跃用户较年初增长37倍,00后用户占比超40%。2026年清明假期全国交通枢纽打车需求预计同比上涨239%、异地用车需求增近40%,滴滴依托大模型技术升级调度体系,推动出行服务从“打到车”向“打对车”升维。