登录体验完整功能(收藏、点赞、评论等) — 已累计有 8619 人加入

让AI触手可及,让应用激发潜能

AI算力垄断格局下 AMD网卡短板成追赶NVIDIA核心掣肘

AI算力垄断格局下 AMD网卡短板成追赶NVIDIA核心掣肘

当前全球AI算力芯片市场呈现NVIDIA一家独大的垄断格局,其市占率高达90%。长期处于第二梯队的AMD虽近年在AI领域加速追赶,推出MI350X等产品缩小技术差距,但近期被曝出网卡性能短板,这一关键缺陷正成为其撼动行业垄断地位的核心掣肘,也引发业内对AI算力竞争下半场的深度思考。

AI大模型的爆发式增长,让算力芯片成为支撑产业发展的核心基础设施,而NVIDIA无疑是这一赛道的绝对赢家。凭借CUDA软件生态的深度绑定、Hopper架构的技术领先性,再加上配套InfiniBand网卡构建的全栈优势,NVIDIA牢牢掌控着先进AI算力芯片90%的市场份额——几乎所有头部AI企业、全球主流云服务商的核心算力集群,都依赖其GPU产品。在这样的格局下,AMD一直被寄予“破局者”的期望:作为全球第二大GPU厂商,它在传统PC、服务器GPU市场积累了深厚技术底蕴,过去两年更是将AI算力芯片列为战略重心,动作频频。

去年推出的MI350X系列AI加速卡,被业内认为是AMD首次在性能上接近NVIDIA同期旗舰产品的里程碑式作品。该产品搭载3D V-Cache技术,在部分AI推理任务和小模型训练场景中,能效比甚至能比肩NVIDIA的A100,一度让市场看到打破垄断的曙光。不少云服务商开始小批量部署MI350X,将其作为NVIDIA GPU的补充方案,试图降低对单一供应商的依赖。

然而,就在AMD的追赶势头渐起之时,网卡性能不足的问题被推到台前,成为制约其进一步扩张的关键掣肘。业内人士指出,AI算力集群的高效运转绝非单GPU性能的比拼,更依赖高速、低延迟的网络连接实现多卡协同:在百亿、千亿参数级大模型的训练场景中,数千甚至上万块GPU需要通过网卡组成高性能计算集群,数据传输的速度和稳定性直接决定整体训练效率。而AMD当前配套的网卡技术,无法充分释放MI350X的算力潜能——在多节点集群部署测试中,跨节点数据传输延迟明显高于NVIDIA的InfiniBand网卡,导致整体集群性能被拉低20%以上。

这一短板直接击中了AI企业和云服务商的核心痛点。某头部云服务商的AI架构师在接受采访时表示:“我们曾对MI350X集群进行了为期3个月的测试,单卡性能确实符合预期,但在训练千亿参数大模型时,整体耗时比NVIDIA A100集群多出近30%,这对需要快速迭代模型的AI企业来说,几乎是无法接受的成本。”他进一步解释,虽然MI350X的单卡采购成本低于NVIDIA旗舰产品,但集群效率的下降会推高长期运营成本,反而让企业得不偿失。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯
AI小创