登录体验完整功能(收藏、点赞、评论等) — 已累计有 11128 人加入

Google DeepMind发布Gemma 4量化检查点 大幅降低端侧AI运行内存门槛

详情页推荐

近日Google DeepMind正式发布Gemma 4系列QAT(量化感知训练)检查点,包含Q40量化版本与全新移动端专属格式,可将端侧设备运行大模型的内存占用最高降低75%,无需损失过多推理精度即可让中端手机、边缘设备流畅运行百亿参数级大模型,为端侧AI应用落地再降技术门槛。

配图

随着端侧AI需求的快速爆发,大模型本地部署的内存瓶颈已经成为限制消费级产品普及的核心障碍。此前行业普遍采用的后量化方案,往往会让大模型推理精度下降5%以上,难以满足日常使用需求,本次DeepMind推出的预训练量化权重,直接解决了开发者的适配痛点。

过去两年,包括手机厂商、IoT企业在内的终端玩家都在加速布局端侧AI功能,离线语音助手、本地文档总结、无联网AI创作等需求持续增长,但大模型的资源占用问题始终难以解决。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。