谷歌DeepMind于2026年6月正式发布新一代开源大模型Gemma4,其参数规模维持300亿级不变但单位参数智能密度大幅提升,性能可对标一年半前顶尖闭源模型。本次核心技术突破为E2B参数卸载架构,50亿参数版本仅需2GB显存即可极速推理,为手机等消费级设备本地运行高性能大模型提供了成熟的技术路径。

6月3日谷歌DeepMind的年度开源模型发布会上,主讲人没有首先公布参数规模的跃升,而是直接抛出了一组让全场开发者沸腾的测试数据:一款50亿参数级的大模型,在旗舰手机的本地环境下,连续完成12轮复杂逻辑推理任务,全程响应延迟不到0.3秒,全程没有调用任何云端算力。
过去两年端侧AI概念热度居高不下,但实际落地始终卡在“性能和显存不可兼得”的死胡同里:小参数模型能力不足以支撑复杂推理、创作类任务,大参数模型动辄需要十几GB显存,消费级手机普遍的8GB、12GB显存根本腾不出足够空间独立运行。当前普通用户日常使用的AI功能90%以上都要依赖云端传输,不仅存在网络波动导致的延迟问题,还存在用户隐私数据上传泄露的风险。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录