登录体验完整功能(收藏、点赞、评论等) —

阿里推出Marco-Mini-Instruct 低激活MoE可在普通CPU流畅运行

阿里国际数字商业团队近日推出MoE架构大模型Marco-Mini-Instruct,该模型基于Qwen3-0.6B-Base通过Upcycling技术转化而来,总参数量达17.3B,激活参数仅0.86B占比约5%,在8bit量化、搭配4条DDR4 2400内存的普通CPU环境下,推理速度可达30token/s,大幅降低了10B级大模型的本地部署门槛。

大模型落地端侧的瓶颈,正在被全新的技术路线打破。长期以来,用户始终面临“参数小则性能不足、参数大则算力不够”的两难选择,即便是被视作效率最优解的MoE架构,此前也因推理算力要求较高,难以在无GPU的普通设备上运行。

对于大量中小开发者、小微企业以及有隐私合规要求的用户而言,云端大模型API调用存在数据泄露风险,本地部署大模型又需要采购万元级别的GPU硬件,门槛极高。而此前主流的端侧小模型普遍参数规模在7B以下,在复杂推理、多轮对话等场景下的表现和10B以上级大模型存在明显差距,无法满足专业场景的使用需求。

此次2026年4月推出的Marco-Mini-Instruct,给出了兼顾性能与成本的全新解法。该模型并非从零开始训练,而是基于**Qwen3-0.6B-Base**小模型,通过**Upcycling升维技术**改造为MoE架构,最终得到**总参数量17.3B、激活参数仅0.86B(占比约5%)**的全新模型。

!
信息及评测声明: 本文部分信息整理自互联网公开资料,并包含由 AI创作导航 团队独立进行的实测体验。我们力求内容客观准确,但因工具功能、价格及政策可能存在实时调整,所有信息仅供参考,请务必在使用前访问官网确认。文中观点不构成任何决策建议,读者需自行评估和承担使用风险。如发现内容有误或侵权,欢迎随时反馈,我们将及时核实处理。
相关资讯
AI小创