少找工具,多做创作

SuperCLUE最新测评:豆包跻身全球第一梯队 MiMo数学获高分

2026年3月30日,中文大模型权威基准测评SuperCLUE发布2026年3月最新测评结果,本次共有22款国内外主流大模型参评,覆盖六大核心能力维度。测评显示,字节跳动旗下豆包Doubao-Seed-2.0-pro以71.53分拿下国内第一,跻身全球第一梯队,与OpenAI GPT-5.4的分差已缩小至0.95分,小米MiMo在数学推理单项取得顶尖成绩,标志国产大模型进入高速追赶新阶段。

作为中文领域覆盖维度最全面的第三方大模型测评平台之一,本次SuperCLUE将数学推理、科学推理、代码生成、智能体任务规划等六大核心任务纳入考核,能够较为客观反映模型的综合实用能力,本次参评的22款模型涵盖了当前全球范围内最受关注的闭源、开源大模型,结果行业参考价值较高。

在总分榜单上,海外闭源头部模型依然凭借多年技术积累占据领先位置,Anthropic的Claude-Opus-4.6、Google的Gemini-3.1-Pro、OpenAI的GPT-5.4牢牢占据榜单前三,延续了海外大厂的先发优势。字节跳动旗下豆包Doubao-Seed-2.0-pro本次拿到71.53分的总成绩,不仅蝉联国产模型第一,还成功冲进全球前五,稳稳站在全球第一梯队行列。值得注意的是,豆包和第三名GPT-5.4的分差仅为0.95分,放在三年前,这样的分差几乎是不可能缩小的差距,足以体现国产头部模型的迭代速度。

除了综合能力的快速提升,国产大模型在细分能力赛道的突破同样值得关注,小米自研的MiMo大模型本次就在数学推理单项中脱颖而出,拿下国产模型第一的成绩,全球排名也进入前五,展现了国产大模型走垂直优化路线的成果。

而在智能体任务规划这一对标下一代AI应用的核心能力维度,豆包也取得了接近海外头部模型的成绩,说明国产模型并没有只盯着总分追赶,而是已经提前布局下一代AI的核心竞争力。

从过去几年SuperCLUE的测评结果变化能看出,国产大模型的进步速度远超行业初期预期,2024年时,国产头部模型和GPT-4的分差还在5分以上,仅仅两年时间,头部国产模型和最新GPT系列的分差已经缩小到1分以内,这种追赶速度是行业大量研发投入堆叠的必然结果。

业内观点普遍认为,当前国产大模型已经完成了从“跟跑”到“并跑”的转变,接下来随着中文场景训练数据优势的释放、国内算力基础设施的逐步完善,1到2年内国产头部模型就有望在综合能力上实现对海外主流闭源模型的超越,进一步推动AI在国内各行业的落地。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创