AI算力垄断格局下 AMD网卡短板成追赶NVIDIA核心掣肘
当前全球AI算力芯片市场呈现NVIDIA一家独大的垄断格局,其市占率高达90%。长期处于第二梯队的AMD虽近年在AI领域加速追赶,推出MI350X等产品缩小技术差距,但近期被曝出网卡性能短板,这一关键缺陷正成为其撼动行业垄断地位的核心掣肘,也引发业内对AI算力竞争下半场的深度思考。
AI大模型的爆发式增长,让算力芯片成为支撑产业发展的核心基础设施,而NVIDIA无疑是这一赛道的绝对赢家。凭借CUDA软件生态的深度绑定、Hopper架构的技术领先性,再加上配套InfiniBand网卡构建的全栈优势,NVIDIA牢牢掌控着先进AI算力芯片90%的市场份额——几乎所有头部AI企业、全球主流云服务商的核心算力集群,都依赖其GPU产品。在这样的格局下,AMD一直被寄予“破局者”的期望:作为全球第二大GPU厂商,它在传统PC、服务器GPU市场积累了深厚技术底蕴,过去两年更是将AI算力芯片列为战略重心,动作频频。
去年推出的MI350X系列AI加速卡,被业内认为是AMD首次在性能上接近NVIDIA同期旗舰产品的里程碑式作品。该产品搭载3D V-Cache技术,在部分AI推理任务和小模型训练场景中,能效比甚至能比肩NVIDIA的A100,一度让市场看到打破垄断的曙光。不少云服务商开始小批量部署MI350X,将其作为NVIDIA GPU的补充方案,试图降低对单一供应商的依赖。
然而,就在AMD的追赶势头渐起之时,网卡性能不足的问题被推到台前,成为制约其进一步扩张的关键掣肘。业内人士指出,AI算力集群的高效运转绝非单GPU性能的比拼,更依赖高速、低延迟的网络连接实现多卡协同:在百亿、千亿参数级大模型的训练场景中,数千甚至上万块GPU需要通过网卡组成高性能计算集群,数据传输的速度和稳定性直接决定整体训练效率。而AMD当前配套的网卡技术,无法充分释放MI350X的算力潜能——在多节点集群部署测试中,跨节点数据传输延迟明显高于NVIDIA的InfiniBand网卡,导致整体集群性能被拉低20%以上。
这一短板直接击中了AI企业和云服务商的核心痛点。某头部云服务商的AI架构师在接受采访时表示:“我们曾对MI350X集群进行了为期3个月的测试,单卡性能确实符合预期,但在训练千亿参数大模型时,整体耗时比NVIDIA A100集群多出近30%,这对需要快速迭代模型的AI企业来说,几乎是无法接受的成本。”他进一步解释,虽然MI350X的单卡采购成本低于NVIDIA旗舰产品,但集群效率的下降会推高长期运营成本,反而让企业得不偿失。
相比之下,NVIDIA的全栈优势正在不断强化其“护城河”。InfiniBand网卡作为其AI算力集群的标配,已经形成了从硬件到软件的深度适配,能最大化发挥GPU的算力;再加上CUDA生态多年积累的开发者粘性,让AI企业几乎没有动力切换到其他平台。而AMD在网卡技术上的滞后,不仅影响硬件性能释放,更可能导致其在生态适配环节进一步落后——毕竟,开发者更愿意为能稳定高效运行的集群方案投入精力。
目前,AMD尚未对网卡短板问题做出官方回应,但业内普遍认为,这一缺陷并非短期内能解决的技术难题:自研高性能网卡需要长期的技术积累和巨额投入,而与第三方网络设备厂商合作,又面临生态适配的挑战。随着AI大模型向更大参数、更复杂场景演进,对算力集群的网络要求只会越来越高,若不能快速补齐这一短板,AMD的AI追赶步伐可能再度放缓,NVIDIA的垄断格局也将继续维持。
不过,也有乐观声音认为,全球AI算力需求的爆发式增长,给了AMD等第二梯队厂商更多试错和成长的空间。当前市场上,并非所有AI场景都需要最高端的算力集群,在AI推理、中小模型训练等细分领域,AMD的产品仍有成本和性能优势。只要能针对性解决核心技术短板,同时完善配套生态,AMD未必没有机会在细分市场实现突围,逐步蚕食NVIDIA的市场份额。
从目前的行业态势来看,AI算力市场的垄断格局短期内难以被打破,但AMD的追赶态势及其暴露的技术短板,也折射出AI算力竞争的核心逻辑:它从来不是单一硬件的比拼,而是全链路技术、生态和服务的综合较量。网卡性能这一看似细分的技术点,正成为决定AI算力厂商竞争力的关键变量,也为行业敲响了警钟——在AI算力的下半场,唯有打通硬件、网络、软件的每一个环节,才能真正在激烈的竞争中占据一席之地。

2 小时前
2026年3月3日,AMD CEO苏姿丰出席摩根士丹利技术、媒体与电信会议,就AI算力格局、芯片竞争、内存市场等热点作出回应。她透露企业级服务器CPU需求意外爆发,公司正全力追赶订单;明确AI基础设施不存在“万能芯片”,异构计算已成行业必然趋势,同时预判下半年内存市场波动将逐步趋缓。

12 小时前
2026年巴塞罗那世界移动通信大会(MWC26)上,高通正式展出AI200机架式AI推理解决方案实物,该产品搭载56块自研AI200加速卡,总内存容量达43TB,搭配AMD EPYC霄龙处理器作为算力底座,预计2026年下半年正式商用,同时高通透露将于2028年推出自研数据中心CPU。

4 天前
当地时间2月27日,Meta在自研AI芯片领域遭遇重大挫折,因设计难度远超团队预期,已正式取消最先进的高端AI训练芯片项目,并通报给AI基础设施部门员工。为填补算力缺口,Meta一方面转向开发结构更简单的自研替代方案,另一方面强化供应商合作,已签署数十亿美元协议向谷歌租用AI芯片,同时推进与AMD的相关合作。

6 天前
芯片巨头AMD宣布斥资2.5亿美元与软件定义数据中心厂商Nutanix达成战略合作,其中1.5亿美元用于股权投资,1亿美元投入联合研发,双方将联手打造全栈AI基础设施平台,为企业提供本地AI部署的更多选择,意图构建能与英伟达抗衡的AI生态体系。

6 天前
社交巨头Meta与芯片厂商AMD达成超1000亿美元多年合作协议,Meta将采购6吉瓦AI计算能力,首批定制芯片预计2026年晚些时候交付,同时可获得最多10%的AMD股票权证。此举意在摆脱对英伟达的单一供应商依赖,直接冲击后者在AI芯片市场的长期霸权地位,加速自身生成式AI基建的扩张步伐。

6 天前
社交巨头Meta在宣布向英伟达采购数百万枚AI芯片仅一周后,便与AMD达成价值超1000亿美元的多年期合作协议,将获得总计6吉瓦AI算力。这一订单刷新AI芯片市场交易纪录,是Meta构建多元化算力护城河的关键布局,也标志着AI芯片市场正式进入挑战英伟达霸权的新阶段。

15 天前
AMD首款机架级AI系统Helios延迟量产 2027年大规模落地 2月17日,半导体分析机构SemiAnalysis发布最新报告,披露AMD首款机架级AI系统Helios(型号MI455X UALoE72)的量产计划遭遇重大调整。原本外界预期的大规模部署节点被推迟至2027年下半年,而工程样...

15 天前
AMD联手塔塔在印部署Helios AI系统 打造200MW级算力中心 当地时间2月16日,AMD与印度塔塔咨询服务(TCS)宣布扩大战略合作,后者将通过旗下AI数据中心公司HyperVault,在印度部署AMD最新的Helios机架级AI系统。双方还将共同推出支持最高200MW容量的AI就绪...