阿里国际数字商业团队近日推出MoE架构大模型Marco-Mini-Instruct,该模型基于Qwen3-0.6B-Base通过Upcycling技术转化而来,总参数量达17.3B,激活参数仅0.86B占比约5%,在8bit量化、搭配4条DDR4 2400内存的普通CPU环境下,推理速度可达30token/s,大幅降低了10B级大模型的本地部署门槛。
大模型落地端侧的瓶颈,正在被全新的技术路线打破。长期以来,用户始终面临“参数小则性能不足、参数大则算力不够”的两难选择,即便是被视作效率最优解的MoE架构,此前也因推理算力要求较高,难以在无GPU的普通设备上运行。
对于大量中小开发者、小微企业以及有隐私合规要求的用户而言,云端大模型API调用存在数据泄露风险,本地部署大模型又需要采购万元级别的GPU硬件,门槛极高。而此前主流的端侧小模型普遍参数规模在7B以下,在复杂推理、多轮对话等场景下的表现和10B以上级大模型存在明显差距,无法满足专业场景的使用需求。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录