国内大模型厂商MiniMax近期推出全新稀疏注意力技术MiniMax Sparse Attention(MSA)。该技术为GQA原生的双分支块稀疏注意力架构,基于109B参数MoE大模型、3T Token训练预算打磨而成,可在1M长上下文场景下将单token注意力计算量降低28.4倍,为大模型长上下文商用落地扫清了核心算力障碍。

近两年大模型上下文窗口的扩张速度远超行业预期,从最早的4K、8K到现在普遍标配的128K,头部厂商已经把参数推到1M甚至4M级别,但随之而来的算力成本暴涨问题,始终是长上下文能力落地的最大堵点。
普通大模型的注意力计算复杂度与上下文长度的平方成正比,当上下文窗口从128K提升到1M时,单轮推理的算力需求会上涨60倍以上,即便厂商堆足GPU集群,最终落地到用户端的成本也高到难以接受——此前部分厂商推出的1M上下文服务,单轮复杂查询的收费超过3元,仅能覆盖少数高付费的B端客户,无法大规模普及。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录