登录体验完整功能(收藏、点赞、评论等) — 已累计有 8664 人加入

让AI触手可及,让应用激发潜能

Ollama集成苹果MLX框架 苹果芯片Mac本地大模型推理提速翻倍

2026年3月31日,本地大模型运行方案服务商Ollama发布版本更新,正式集成苹果自研机器学习框架MLX。本次更新将搭载Apple芯片的Mac设备本地大模型推理速度最高提升100%,其中配备M5系列芯片的新机型性能释放尤为突出,大幅降低了Mac端本地大模型开发与日常应用的落地门槛。

对于常年在Mac设备上进行本地大模型开发、调试的技术人群而言,此前最大的痛点莫过于硬件性能上限限制了大模型参数规模的选择——跑7B参数模型勉强流畅,14B参数就经常出现卡顿、响应延迟的问题,而Ollama的本次更新直接解决了这一核心痛点。

本次性能提升的核心来自Ollama对MLX框架的原生适配,作为苹果专为M系列芯片优化的机器学习框架,MLX可以充分调用Apple芯片的统一内存架构、GPU神经引擎等硬件特性,避免了此前跨框架调度带来的性能损耗。

根据官方披露的测试数据,适配后的Ollama在两个核心推理环节实现了性能跨越:预填阶段(Prefill)提速1.6倍,处理用户输入的提示词时系统响应更加敏捷;生成阶段(Decode)速度最高提升100%,模型输出回复的字句弹出速度直接翻倍。其中搭载M5系列芯片的新机型表现尤为突出,不少开发者晒出的测试截图显示,M5 Ultra版本的Mac Studio运行34B参数的Llama 3模型时,每秒生成token数达到82,已经接近部分入门级云端GPU的推理效率。

近两年端侧AI的市场需求持续爆发,相比云端AI服务,本地运行大模型具备低延迟、隐私性强、无算力成本的优势,对于需要处理敏感数据的企业开发者、创意工作者吸引力极强。而Ollama作为目前全球最主流的本地大模型部署工具,月活开发者规模已经突破230万,支持一键部署几乎所有主流开源大模型。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯
AI小创