MiniMax推出MSA稀疏注意力千亿级MoE算力效率提升超28倍

AI创作导航管理员 LV4 资深连续登录7天萌新

15 小时前

风向

国内大模型厂商MiniMax近期推出全新稀疏注意力技术MiniMax Sparse Attention（MSA）。该技术为GQA原生的双分支块稀疏注意力架构，基于109B参数MoE大模型、3T Token训练预算打磨而成，可在1M长上下文场景下将单token注意力计算量降低28.4倍，为大模型长上下文商用落地扫清了核心算力障碍。

近两年大模型上下文窗口的扩张速度远超行业预期，从最早的4K、8K到现在普遍标配的128K，头部厂商已经把参数推到1M甚至4M级别，但随之而来的算力成本暴涨问题，始终是长上下文能力落地的最大堵点。

普通大模型的注意力计算复杂度与上下文长度的平方成正比，当上下文窗口从128K提升到1M时，单轮推理的算力需求会上涨60倍以上，即便厂商堆足GPU集群，最终落地到用户端的成本也高到难以接受——此前部分厂商推出的1M上下文服务，单轮复杂查询的收费超过3元，仅能覆盖少数高付费的B端客户，无法大规模普及。

大语言模型 MiniMax 稀疏注意力长上下文大模型 MoE

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

MiniMax推出MSA稀疏注意力千亿级MoE算力效率提升超28倍

最新文章

X社区 · 无限公约

二狗PPT

AR创企Pixi上线全新iOS应用可将短信转为交互式AR体验

Databricks推出Genie ZeroOps 破解AI运营核心效率瓶颈

法国云厂商OVHcloud押注前沿AI 欧洲加速搭建美系大模型替代方案

联想推出百应AI主机300 瞄准中小企端侧AI算力落地需求

热门文章

OpenCut

小云雀AI

抖音创作者中心

视频号助手

通义万相

朱雀AI检测助手

标签

探索分类

帮助与支持

联系我们

让AI触手可及，让应用激发潜能

MiniMax推出MSA稀疏注意力 千亿级MoE算力效率提升超28倍

最新文章

X社区 · 无限公约

二狗PPT

AR创企Pixi上线全新iOS应用 可将短信转为交互式AR体验

Databricks推出Genie ZeroOps 破解AI运营核心效率瓶颈

法国云厂商OVHcloud押注前沿AI 欧洲加速搭建美系大模型替代方案

联想推出百应AI主机300 瞄准中小企端侧AI算力落地需求

热门文章

OpenCut

小云雀AI

抖音创作者中心

视频号助手

通义万相

朱雀AI检测助手

标签

探索分类

帮助与支持

联系我们

安装网站应用

MiniMax推出MSA稀疏注意力千亿级MoE算力效率提升超28倍

AR创企Pixi上线全新iOS应用可将短信转为交互式AR体验