AI算力垄断格局下 AMD网卡短板成追赶NVIDIA核心掣肘

1 小时前 AI快讯 0

AI算力垄断格局下 AMD网卡短板成追赶NVIDIA核心掣肘

当前全球AI算力芯片市场呈现NVIDIA一家独大的垄断格局,其市占率高达90%。长期处于第二梯队的AMD虽近年在AI领域加速追赶,推出MI350X等产品缩小技术差距,但近期被曝出网卡性能短板,这一关键缺陷正成为其撼动行业垄断地位的核心掣肘,也引发业内对AI算力竞争下半场的深度思考。

AI大模型的爆发式增长,让算力芯片成为支撑产业发展的核心基础设施,而NVIDIA无疑是这一赛道的绝对赢家。凭借CUDA软件生态的深度绑定、Hopper架构的技术领先性,再加上配套InfiniBand网卡构建的全栈优势,NVIDIA牢牢掌控着先进AI算力芯片90%的市场份额——几乎所有头部AI企业、全球主流云服务商的核心算力集群,都依赖其GPU产品。在这样的格局下,AMD一直被寄予“破局者”的期望:作为全球第二大GPU厂商,它在传统PC、服务器GPU市场积累了深厚技术底蕴,过去两年更是将AI算力芯片列为战略重心,动作频频。

去年推出的MI350X系列AI加速卡,被业内认为是AMD首次在性能上接近NVIDIA同期旗舰产品的里程碑式作品。该产品搭载3D V-Cache技术,在部分AI推理任务和小模型训练场景中,能效比甚至能比肩NVIDIA的A100,一度让市场看到打破垄断的曙光。不少云服务商开始小批量部署MI350X,将其作为NVIDIA GPU的补充方案,试图降低对单一供应商的依赖。

然而,就在AMD的追赶势头渐起之时,网卡性能不足的问题被推到台前,成为制约其进一步扩张的关键掣肘。业内人士指出,AI算力集群的高效运转绝非单GPU性能的比拼,更依赖高速、低延迟的网络连接实现多卡协同:在百亿、千亿参数级大模型的训练场景中,数千甚至上万块GPU需要通过网卡组成高性能计算集群,数据传输的速度和稳定性直接决定整体训练效率。而AMD当前配套的网卡技术,无法充分释放MI350X的算力潜能——在多节点集群部署测试中,跨节点数据传输延迟明显高于NVIDIA的InfiniBand网卡,导致整体集群性能被拉低20%以上。

这一短板直接击中了AI企业和云服务商的核心痛点。某头部云服务商的AI架构师在接受采访时表示:“我们曾对MI350X集群进行了为期3个月的测试,单卡性能确实符合预期,但在训练千亿参数大模型时,整体耗时比NVIDIA A100集群多出近30%,这对需要快速迭代模型的AI企业来说,几乎是无法接受的成本。”他进一步解释,虽然MI350X的单卡采购成本低于NVIDIA旗舰产品,但集群效率的下降会推高长期运营成本,反而让企业得不偿失。

相比之下,NVIDIA的全栈优势正在不断强化其“护城河”。InfiniBand网卡作为其AI算力集群的标配,已经形成了从硬件到软件的深度适配,能最大化发挥GPU的算力;再加上CUDA生态多年积累的开发者粘性,让AI企业几乎没有动力切换到其他平台。而AMD在网卡技术上的滞后,不仅影响硬件性能释放,更可能导致其在生态适配环节进一步落后——毕竟,开发者更愿意为能稳定高效运行的集群方案投入精力。

目前,AMD尚未对网卡短板问题做出官方回应,但业内普遍认为,这一缺陷并非短期内能解决的技术难题:自研高性能网卡需要长期的技术积累和巨额投入,而与第三方网络设备厂商合作,又面临生态适配的挑战。随着AI大模型向更大参数、更复杂场景演进,对算力集群的网络要求只会越来越高,若不能快速补齐这一短板,AMD的AI追赶步伐可能再度放缓,NVIDIA的垄断格局也将继续维持。

不过,也有乐观声音认为,全球AI算力需求的爆发式增长,给了AMD等第二梯队厂商更多试错和成长的空间。当前市场上,并非所有AI场景都需要最高端的算力集群,在AI推理、中小模型训练等细分领域,AMD的产品仍有成本和性能优势。只要能针对性解决核心技术短板,同时完善配套生态,AMD未必没有机会在细分市场实现突围,逐步蚕食NVIDIA的市场份额。

从目前的行业态势来看,AI算力市场的垄断格局短期内难以被打破,但AMD的追赶态势及其暴露的技术短板,也折射出AI算力竞争的核心逻辑:它从来不是单一硬件的比拼,而是全链路技术、生态和服务的综合较量。网卡性能这一看似细分的技术点,正成为决定AI算力厂商竞争力的关键变量,也为行业敲响了警钟——在AI算力的下半场,唯有打通硬件、网络、软件的每一个环节,才能真正在激烈的竞争中占据一席之地。

所属分类
×

微信二维码

请选择您要添加的方式

AI小创