阿里推出Marco-Mini-Instruct 低激活MoE可在普通CPU流畅运行

AI创作导航 2 天前

AI快讯

阿里国际数字商业团队近日推出MoE架构大模型Marco-Mini-Instruct，该模型基于Qwen3-0.6B-Base通过Upcycling技术转化而来，总参数量达17.3B，激活参数仅0.86B占比约5%，在8bit量化、搭配4条DDR4 2400内存的普通CPU环境下，推理速度可达30token/s，大幅降低了10B级大模型的本地部署门槛。

大模型落地端侧的瓶颈，正在被全新的技术路线打破。长期以来，用户始终面临“参数小则性能不足、参数大则算力不够”的两难选择，即便是被视作效率最优解的MoE架构，此前也因推理算力要求较高，难以在无GPU的普通设备上运行。

对于大量中小开发者、小微企业以及有隐私合规要求的用户而言，云端大模型API调用存在数据泄露风险，本地部署大模型又需要采购万元级别的GPU硬件，门槛极高。而此前主流的端侧小模型普遍参数规模在7B以下，在复杂推理、多轮对话等场景下的表现和10B以上级大模型存在明显差距，无法满足专业场景的使用需求。

此次2026年4月推出的Marco-Mini-Instruct，给出了兼顾性能与成本的全新解法。该模型并非从零开始训练，而是基于**Qwen3-0.6B-Base**小模型，通过**Upcycling升维技术**改造为MoE架构，最终得到**总参数量17.3B、激活参数仅0.86B（占比约5%）**的全新模型。

人工智能 MoE架构阿里 Marco-Mini-Instruct 大模型端侧部署

信息及评测声明：本文部分信息整理自互联网公开资料，并包含由 AI创作导航团队独立进行的实测体验。我们力求内容客观准确，但因工具功能、价格及政策可能存在实时调整，所有信息仅供参考，请务必在使用前访问官网确认。文中观点不构成任何决策建议，读者需自行评估和承担使用风险。如发现内容有误或侵权，欢迎随时反馈，我们将及时核实处理。

Bleeper

AI自动屏蔽音视频违规脏话

AIKissfiy

在线AI生成逼真接吻动态视频

GoHumanize

将AI文本转为真人自然写作

NanoMaker AI

一站式多模态AI创作平台

AI Photo Editor

一站式AI照片编辑工具

URL to Video

AI将产品链接转为高转化广告视

Virlo AI

AI驱动海外短视频数据分析

SoraLum AI

一站式AI图文视频创作平台