2026年6月谷歌正式发布统一多模态模型Gemma 4 12B,该模型参数量为12亿,创新性取消传统多模态编码器架构,可直接处理视觉、音频数据,仅需16GB显存即可在高端笔记本设备本地运行,无需依赖云端算力,为消费级终端部署多模态大模型提供了高性价比的新路径。

长期以来,多模态大模型的落地一直面临两难选择:云端部署虽然算力充足,但存在数据隐私风险、响应延迟高、调用成本不低等问题;而如果要在消费级终端本地运行,传统多模态架构中额外的视觉、音频编码器会占用大量显存资源,仅有纯文本小模型能在普通设备上流畅运行,视音频处理能力长期缺失。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录