登录体验完整功能(收藏、点赞、评论等) —

让AI触手可及,让应用激发潜能

Claude Code对接魔改Gemma 4 本地推理速度提升超5倍

近日开发者JeecgBoot在Mac Studio M4Max设备上完成Claude Code对接本地大模型的实测,测试采用社区魔改蒸馏的gemma-4-26b-a4b-it-claude-opus-heretic-ara模型,对比官方原版Gemma 4,生成速度实现5~6倍提升,最高可达78tok/s,该模型采用稀疏激活MoE架构,支持256K上下文,为本地AI开发提供了新的实践参考。

很多一线开发者如今更倾向于用Claude Code完成日常编码工作,但云端调用不仅存在网络延迟,还会带来代码数据泄露的隐私风险,本地部署大模型对接开发工具已经成为行业新趋势。JeecgBoot的本次测试,正是针对本地部署场景下的模型效率优化做的验证。

在Mac Studio M4Max的测试环境下,对比官方原版Gemma 4与社区魔改蒸馏版本,结果差异远超预期:魔改版本的生成速度稳定达到78tok/s,而原版同参数模型的生成速度仅在12-15tok/s区间,提速幅度达到5-6倍,完全满足流畅编码的交互需求。

本次测试用到的魔改模型gemma-4-26b-a4b-it-claude-opus-heretic-ara,核心优化在于采用了A4B(Active4B)稀疏激活MoE架构

这种架构的设计思路很巧妙:模型总参数量达到260亿,拥有大模型的知识储备与推理能力,但每次推理过程中仅激活约40亿参数参与计算,大幅降低了单次生成的算力消耗,实现了“大模型智能,小模型算力”的效果,中端消费级芯片也能流畅运行。

!
信息及评测声明: 本文部分信息整理自互联网公开资料,并包含由 AI创作导航 团队独立进行的实测体验。我们力求内容客观准确,但因工具功能、价格及政策可能存在实时调整,所有信息仅供参考,请务必在使用前访问官网确认。文中观点不构成任何决策建议,读者需自行评估和承担使用风险。如发现内容有误或侵权,欢迎随时反馈,我们将及时核实处理。
相关资讯
AI小创