登录体验完整功能(收藏、点赞、评论等) — 已累计有 8619 人加入

让AI触手可及,让应用激发潜能

DeepSeek登顶MMLU榜单,国产大模型跻身全球第一梯队

国产大模型DeepSeek近日在通用知识基准测试MMLU中以69.0%的总成绩登顶全球榜单,超越GPT-4 Turbo、Claude 3 Opus等国际头部模型。这一突破性成绩不仅打破了国际巨头对顶级大模型榜单的垄断,也凸显了国产AI在通用知识推理领域的技术跃迁与竞争潜力。

当全球AI行业仍将目光聚焦在OpenAI、Anthropic的新一代模型迭代时,国产大模型阵营突然抛出一颗“重磅炸弹”——DeepSeek的通用大模型在MMLU(大规模多任务语言理解)测试中以0.3个百分点的优势,击败此前霸榜的GPT-4 Turbo,拿下全球第一的位置。

MMLU作为衡量大模型通用知识与推理能力的权威基准,涵盖数学、历史、计算机科学等57个学科的近1.5万道题目,要求模型具备跨领域知识迁移和复杂逻辑推理能力。在此之前,该榜单的前三名长期被GPT-4系列、Claude 3等国际头部模型占据,国产模型多在中文专项测试中表现突出,通用领域的全球竞争力常被质疑。

此次DeepSeek以69.0%的总成绩领跑,不仅在整体得分上超越GPT-4 Turbo(68.7%)和Claude 3 Opus(68.0%),在物理、哲学等对逻辑要求极高的学科中,得分也实现了反超。这意味着国产大模型不再局限于本土化场景的适配,而是在通用知识领域具备了与国际顶级模型掰手腕的实力。

作为一家成立仅两年多的AI公司,DeepSeek的崛起并非偶然。其团队核心成员多来自微软、谷歌、清华等全球顶级科技机构与高校,在大模型架构设计、训练优化等领域拥有深厚技术积累。

此次登顶的核心,源于DeepSeek对混合专家模型(MoE)架构的深度优化:通过动态激活不同的“专家模块”处理不同类型的任务,既提升了模型的知识覆盖范围,又控制了训练与推理的成本。此外,团队在训练数据上的精细化筛选——引入全球多语言高质量语料,并针对基准测试的知识盲区进行定向补全,也是成绩突破的关键因素。

值得注意的是,DeepSeek此前已在代码大模型领域崭露头角,其DeepSeek-Coder系列在HumanEval等代码基准测试中多次跻身全球前三,此次通用模型的登顶,标志着该公司实现了从垂直领域到通用领域的技术延伸。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯
AI小创