少找工具,多做创作

Ollama集成苹果MLX框架 苹果芯片Mac本地大模型推理提速翻倍

2026年3月31日,本地大模型运行方案服务商Ollama发布版本更新,正式集成苹果自研机器学习框架MLX。本次更新将搭载Apple芯片的Mac设备本地大模型推理速度最高提升100%,其中配备M5系列芯片的新机型性能释放尤为突出,大幅降低了Mac端本地大模型开发与日常应用的落地门槛。

对于常年在Mac设备上进行本地大模型开发、调试的技术人群而言,此前最大的痛点莫过于硬件性能上限限制了大模型参数规模的选择——跑7B参数模型勉强流畅,14B参数就经常出现卡顿、响应延迟的问题,而Ollama的本次更新直接解决了这一核心痛点。

本次性能提升的核心来自Ollama对MLX框架的原生适配,作为苹果专为M系列芯片优化的机器学习框架,MLX可以充分调用Apple芯片的统一内存架构、GPU神经引擎等硬件特性,避免了此前跨框架调度带来的性能损耗。

根据官方披露的测试数据,适配后的Ollama在两个核心推理环节实现了性能跨越:预填阶段(Prefill)提速1.6倍,处理用户输入的提示词时系统响应更加敏捷;生成阶段(Decode)速度最高提升100%,模型输出回复的字句弹出速度直接翻倍。其中搭载M5系列芯片的新机型表现尤为突出,不少开发者晒出的测试截图显示,M5 Ultra版本的Mac Studio运行34B参数的Llama 3模型时,每秒生成token数达到82,已经接近部分入门级云端GPU的推理效率。

近两年端侧AI的市场需求持续爆发,相比云端AI服务,本地运行大模型具备低延迟、隐私性强、无算力成本的优势,对于需要处理敏感数据的企业开发者、创意工作者吸引力极强。而Ollama作为目前全球最主流的本地大模型部署工具,月活开发者规模已经突破230万,支持一键部署几乎所有主流开源大模型。

此前Ollama已经实现了Windows、Mac、Linux多平台覆盖,但针对Mac端的优化一直受限于通用框架的调度效率,没有完全释放M系列芯片的AI算力。本次与MLX框架的深度适配,相当于把苹果生态的硬件AI能力直接开放给所有普通开发者,无需手动编写底层适配代码就能享受到性能红利。

本次更新的价值不止于开发者群体,普通用户也能直接享受到性能提升的红利:无需订阅昂贵的云端AI服务,就能在本地流畅运行代码助手、写作辅助工具、离线图像生成模型等应用,且不用担心个人数据、工作文档上传到云端出现泄露。

业内人士判断,随着Ollama与MLX生态的进一步打通,接下来将有大量基于本地大模型的Mac端AI应用上线,苹果自研的Apple Intelligence生态也将和第三方开源大模型生态实现更好的兼容,进一步强化M系列芯片在端侧AI赛道的竞争优势。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创