国产算力里程碑：MTT S5000实现DeepSeek V3 671B高效推理，性能逼近国际顶尖

迪迦管理员 ⚡ 触发者

18天前

国产AI芯片与大模型协同优化迎来关键突破。近日，摩尔线程与硅基流动联合宣布，基于国产GPU MTT S5000，成功完成对千亿参数开源大模型DeepSeek V3 671B“满血版”的深度适配与性能验证，实测单卡Prefill（预填充）吞吐量突破4000 tokens/秒，Decode（解码）吞吐超1000 tokens/秒，整体推理速度已逼近国际主流高端AI加速卡水平。

此次突破的核心在于FP8低精度推理技术的深度优化。在确保模型精度损失极小的前提下，FP8技术可显著提升计算吞吐、降低显存占用与功耗。双方通过对底层驱动、算子库到推理引擎的全栈调优，充分释放了MTT S5000的FP8硬件加速潜力，有效支撑了大模型高并发、低延迟的推理需求。

值得关注的是，DeepSeek V3 671B参数规模庞大、推理负载极高，此前部署多依赖英伟达A100/H100等海外高端GPU。此次在完全国产化硬件平台上实现高效运行，不仅验证了MTT S5000在大模型推理场景的核心能力，更标志着国产AI算力生态正式从“能跑”迈向“高效跑”的新阶段。

在全球算力供应链不确定性加剧的背景下，这一成果让高性能大模型的国产替代路径更加清晰。MTT S5000与DeepSeek V3的组合，为金融、政务、能源等关键领域提供了高性价比、高安全性的本土化AI部署方案。尽管国产GPU在绝对峰值性能和软件生态成熟度上仍与国际顶尖产品存在差距，但实测数据证明，在特定高价值场景中，国产方案已具备实用化竞争力。

随着软硬件协同优化的持续深入，中国AI基础设施的自主可控能力正加速成型。从“可用”到“好用”，此次国产算力的实测突破，为行业注入了强劲信心，也为国产AI生态的完善奠定了重要基础。

暂无回复

成为第一个回复的人吧！

当前已禁止用户发帖和回复

当前论坛已禁止用户发帖和回复，请联系管理员获取更多信息。

国产算力里程碑：MTT S5000实现DeepSeek V3 671B高效推理，性能逼近国际顶尖

回复 (0)

暂无回复

当前已禁止用户发帖和回复