少找工具,多做创作

通义千问3.5-Max登LM Arena榜第五 国产大模型跻身全球第一梯队

2026年3月20日,阿里巴巴推出旗舰大模型通义千问3.5-Max-Preview,首次参评第三方权威评测平台LMSYS旗下LM Arena便拿下1464分综合得分,推动阿里通义千问跻身全球大模型厂商排行榜第五位,稳居中国厂商首位,标志着国产大模型正式进入全球第一梯队核心阵营。

在全球大模型评测体系中,LMSYS推出的LM Arena之所以能摆脱“刷分”质疑,核心在于其特殊的评测逻辑:平台会将两款匿名大模型的输出结果同时展示给用户,由用户基于真实体验投票选出更优答案,完全脱离固定考题的应试导向,是目前业内公认参考价值最高的大模型榜单之一。

此次参评的通义千问3.5-Max-Preview是阿里千问家族的最新旗舰产品,首次登上LM Arena便拿下1464分的综合得分,直接将通义千问的厂商排名拉升至全球第五、国内第一的位置。具体分项能力上,该模型的数学推理能力位列全球第五,无风格限制的通用对话绝对胜率排在全球第六,能力均衡性表现突出。

此前LM Arena的头部位置长期被OpenAI、Anthropic、Google DeepMind等海外科技巨头垄断,国产大模型厂商的历史最好排名始终徘徊在十名开外。此次通义千问3.5-Max-Preview的突围,本质上是国产大模型通用能力首次得到全球用户的真实认可,不再是仅能在特定基准测试上拿高分的“应试选手”,而是能适配多元场景需求的成熟产品。

阿里达摩院相关技术负责人透露,3.5系列模型在预训练数据规模、对齐算法效率上都做了大幅优化,尤其针对逻辑推理、长上下文理解等用户高频痛点场景做了定向迭代,后续该模型的正式版将会面向公众开放试用,同时会向企业客户输出相关API服务。

随着国产大模型冲进全球第一梯队,全球大模型的市场格局也正在发生变化。一方面,国内大模型的技术迭代速度已经追上全球第一梯队,后续在中文场景、本土化功能上的优势会进一步凸显;另一方面,头部厂商的技术差距正在逐步缩小,接下来的竞争焦点将会从模型能力本身转向落地生态的构建。

业内分析认为,未来2-3年大模型的商业化落地将会进入爆发期,具备技术优势的厂商有望通过开放生态抢占更多市场份额,而国产大模型的技术突破也将为国内AI产业的发展提供更强的底层支撑。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创