Ollama集成苹果MLX框架苹果芯片Mac本地大模型推理提速翻倍

AI创作导航 1 个月前

风向

112

2026年3月31日，本地大模型运行方案服务商Ollama发布版本更新，正式集成苹果自研机器学习框架MLX。本次更新将搭载Apple芯片的Mac设备本地大模型推理速度最高提升100%，其中配备M5系列芯片的新机型性能释放尤为突出，大幅降低了Mac端本地大模型开发与日常应用的落地门槛。

对于常年在Mac设备上进行本地大模型开发、调试的技术人群而言，此前最大的痛点莫过于硬件性能上限限制了大模型参数规模的选择——跑7B参数模型勉强流畅，14B参数就经常出现卡顿、响应延迟的问题，而Ollama的本次更新直接解决了这一核心痛点。

本次性能提升的核心来自Ollama对MLX框架的原生适配，作为苹果专为M系列芯片优化的机器学习框架，MLX可以充分调用Apple芯片的统一内存架构、GPU神经引擎等硬件特性，避免了此前跨框架调度带来的性能损耗。

根据官方披露的测试数据，适配后的Ollama在两个核心推理环节实现了性能跨越：预填阶段（Prefill）提速1.6倍，处理用户输入的提示词时系统响应更加敏捷；生成阶段（Decode）速度最高提升100%，模型输出回复的字句弹出速度直接翻倍。其中搭载M5系列芯片的新机型表现尤为突出，不少开发者晒出的测试截图显示，M5 Ultra版本的Mac Studio运行34B参数的Llama 3模型时，每秒生成token数达到82，已经接近部分入门级云端GPU的推理效率。

近两年端侧AI的市场需求持续爆发，相比云端AI服务，本地运行大模型具备低延迟、隐私性强、无算力成本的优势，对于需要处理敏感数据的企业开发者、创意工作者吸引力极强。而Ollama作为目前全球最主流的本地大模型部署工具，月活开发者规模已经突破230万，支持一键部署几乎所有主流开源大模型。

大语言模型端侧AI 苹果M5芯片 Ollama MLX

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

提示工程指南

提示工程领域专业学习平台

Claude

Claude 是由 Anthropic 研发的 AI 助手与大语言模型

OpenAI

OpenAI 是全球领先的人工智能研究机构与模型提供商

Animate Anything AI

AI在线图片转视频工具

AI Music Gen

免费AI文生带人声音乐工具

C Dance AI

多模态AI动作视频生成工具

AI Baby Dance

免费AI宝宝舞蹈视频生成工具

veo 4 AI

AI生成4K电影级视频工具