2026年WWDC大会期间,苹果与AI工具开发商LM Studio达成技术合作,依托四台Mac Studio组成的硬件集群,成功流畅运行月之暗面推出的1万亿参数MoE架构大模型Kimi K2.6。该部署方案依托苹果统一内存架构实现1.5TB总内存容量,特定场景下模型生成速度可达28 tokens/s,打破大模型必须依赖云端部署的固有认知。
WWDC 2026现场的技术演示环节,当工作人员输入一串包含多份行业报告的知识库问答指令后,屏幕上的大模型仅用数秒就输出了近3000字的结构化分析结果——支撑这一过程的不是动辄上百台A100组成的云端算力集群,而是摆放在展台角落、总重量不到20公斤的四台消费级Mac Studio设备。
此前,参数规模超过千亿的大模型几乎全部依赖云端部署,企业调用不仅要承担长期的API付费成本,还面临核心数据外传的安全风险。随着金融、政务、涉密制造等领域的AI落地需求爆发,行业对本地化大模型部署的呼声持续走高,但消费级硬件的算力、内存瓶颈一直是无法绕开的阻碍,万亿参数级大模型的本地化运行更是被认为至少3年内无法实现。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录