国产AI芯片与大模型协同优化迎来关键突破。近日,摩尔线程与硅基流动联合宣布,基于国产GPU MTT S5000,成功完成对千亿参数开源大模型DeepSeek V3 671B“满血版”的深度适配与性能验证,实测单卡Prefill(预填充)吞吐量突破4000 tokens/秒,Decode(解码)吞吐超1000 tokens/秒,整体推理速度已逼近国际主流高端AI加速卡水平。

此次突破的核心在于FP8低精度推理技术的深度优化。在确保模型精度损失极小的前提下,FP8技术可显著提升计算吞吐、降低显存占用与功耗。双方通过对底层驱动、算子库到推理引擎的全栈调优,充分释放了MTT S5000的FP8硬件加速潜力,有效支撑了大模型高并发、低延迟的推理需求。
值得关注的是,DeepSeek V3 671B参数规模庞大、推理负载极高,此前部署多依赖英伟达A100/H100等海外高端GPU。此次在完全国产化硬件平台上实现高效运行,不仅验证了MTT S5000在大模型推理场景的核心能力,更标志着国产AI算力生态正式从“能跑”迈向“高效跑”的新阶段。
在全球算力供应链不确定性加剧的背景下,这一成果让高性能大模型的国产替代路径更加清晰。MTT S5000与DeepSeek V3的组合,为金融、政务、能源等关键领域提供了高性价比、高安全性的本土化AI部署方案。尽管国产GPU在绝对峰值性能和软件生态成熟度上仍与国际顶尖产品存在差距,但实测数据证明,在特定高价值场景中,国产方案已具备实用化竞争力。
随着软硬件协同优化的持续深入,中国AI基础设施的自主可控能力正加速成型。从“可用”到“好用”,此次国产算力的实测突破,为行业注入了强劲信心,也为国产AI生态的完善奠定了重要基础。