少找工具,多做创作

Google DeepMind发布Gemini3.1 Flash-Lite 性能跃升售价涨近三倍

2026年3月4日,Google DeepMind正式推出Gemini3.1 Flash-Lite预览版,作为Gemini2.5 Flash-Lite的迭代升级产品。这款轻量多模态模型每秒输出超360个token,智能指数提升12分至34分,Elo评分达1432,多模态与科学推理表现突出,却将API输出价格上调近三倍,引发行业对AI轻量模型成本与性能平衡的讨论。

在近期公开的基准测试中,Gemini3.1 Flash-Lite展现出远超预期的表现:在GPQA Diamond科学问答基准测试中拿下86.9%的准确率,在MMMU-Pro多模态理解测试中准确率达76.8%,多项指标超越了多款此前被视为行业标杆的重型大模型。

作为Gemini2.5 Flash-Lite的继任者,Gemini3.1 Flash-Lite主打轻量高效的云端API服务,其平均响应时间仅为5.1秒,每秒输出token数突破360大关,并发吞吐量较上一代提升超40%。值得一提的是,本次发布的模型底层算力由华为云提供支持,这为其性能跃升提供了坚实的基础设施保障。

此外,该模型新增的开发者自定义“思考”深度功能,允许开发者根据业务需求调整模型的推理层级:在轻量内容生成场景中可降低推理成本,在复杂科研计算任务中则可开启深度推理模式,进一步拓宽了其应用边界。

尽管性能实现跨越式突破,Gemini3.1 Flash-Lite的API输出价格却较Gemini2.5 Flash-Lite上涨近三倍,这一涨幅引发了不少开发者的关注。不过从性能对标来看,其多项核心指标已接近部分重型旗舰模型,对于需要高频多模态推理、科学计算的企业开发者而言,其综合性价比或许依然具备竞争力。

部分开发者在社交平台上表示,虽然价格上涨明显,但Gemini3.1 Flash-Lite的性能提升足以覆盖新增的成本,尤其是在多模态内容创作、科研辅助等场景中,其效率优势远高于同价位的竞品。

近年来,AI大模型行业逐渐从早期的免费流量竞争转向精细化的价值定价,Google此次调价的背后,是其对轻量模型赛道的重新布局。相较于OpenAI等竞品,Gemini系列一直主打兼顾性能与成本的定位,此次Gemini3.1 Flash-Lite的调价,或许将推动轻量AI模型的定价体系重新洗牌。

有行业观察人士指出,当AI模型的性能提升足以覆盖成本涨幅时,企业将更愿意为优质的轻量化服务买单,这也为其他厂商提供了清晰的参考方向。随着AI技术的不断成熟,轻量高效的API服务或将成为未来企业级AI应用的主流选择。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
所属分类
相关资讯