近日开发者JeecgBoot在Mac Studio M4Max设备上完成Claude Code对接本地大模型的实测,测试采用社区魔改蒸馏的gemma-4-26b-a4b-it-claude-opus-heretic-ara模型,对比官方原版Gemma 4,生成速度实现5~6倍提升,最高可达78tok/s,该模型采用稀疏激活MoE架构,支持256K上下文,为本地AI开发提供了新的实践参考。
很多一线开发者如今更倾向于用Claude Code完成日常编码工作,但云端调用不仅存在网络延迟,还会带来代码数据泄露的隐私风险,本地部署大模型对接开发工具已经成为行业新趋势。JeecgBoot的本次测试,正是针对本地部署场景下的模型效率优化做的验证。
在Mac Studio M4Max的测试环境下,对比官方原版Gemma 4与社区魔改蒸馏版本,结果差异远超预期:魔改版本的生成速度稳定达到78tok/s,而原版同参数模型的生成速度仅在12-15tok/s区间,提速幅度达到5-6倍,完全满足流畅编码的交互需求。
本次测试用到的魔改模型gemma-4-26b-a4b-it-claude-opus-heretic-ara,核心优化在于采用了A4B(Active4B)稀疏激活MoE架构。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录