国产大模型DeepSeek近日在通用知识基准测试MMLU中以69.0%的总成绩登顶全球榜单,超越GPT-4 Turbo、Claude 3 Opus等国际头部模型。这一突破性成绩不仅打破了国际巨头对顶级大模型榜单的垄断,也凸显了国产AI在通用知识推理领域的技术跃迁与竞争潜力。
当全球AI行业仍将目光聚焦在OpenAI、Anthropic的新一代模型迭代时,国产大模型阵营突然抛出一颗“重磅炸弹”——DeepSeek的通用大模型在MMLU(大规模多任务语言理解)测试中以0.3个百分点的优势,击败此前霸榜的GPT-4 Turbo,拿下全球第一的位置。
MMLU作为衡量大模型通用知识与推理能力的权威基准,涵盖数学、历史、计算机科学等57个学科的近1.5万道题目,要求模型具备跨领域知识迁移和复杂逻辑推理能力。在此之前,该榜单的前三名长期被GPT-4系列、Claude 3等国际头部模型占据,国产模型多在中文专项测试中表现突出,通用领域的全球竞争力常被质疑。
此次DeepSeek以69.0%的总成绩领跑,不仅在整体得分上超越GPT-4 Turbo(68.7%)和Claude 3 Opus(68.0%),在物理、哲学等对逻辑要求极高的学科中,得分也实现了反超。这意味着国产大模型不再局限于本土化场景的适配,而是在通用知识领域具备了与国际顶级模型掰手腕的实力。
作为一家成立仅两年多的AI公司,DeepSeek的崛起并非偶然。其团队核心成员多来自微软、谷歌、清华等全球顶级科技机构与高校,在大模型架构设计、训练优化等领域拥有深厚技术积累。
此次登顶的核心,源于DeepSeek对混合专家模型(MoE)架构的深度优化:通过动态激活不同的“专家模块”处理不同类型的任务,既提升了模型的知识覆盖范围,又控制了训练与推理的成本。此外,团队在训练数据上的精细化筛选——引入全球多语言高质量语料,并针对基准测试的知识盲区进行定向补全,也是成绩突破的关键因素。
值得注意的是,DeepSeek此前已在代码大模型领域崭露头角,其DeepSeek-Coder系列在HumanEval等代码基准测试中多次跻身全球前三,此次通用模型的登顶,标志着该公司实现了从垂直领域到通用领域的技术延伸。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
5 分钟前
2026年以来,美国加州AI算力集群用电需求同比上涨42%,带动全州平均电价上浮18%。此前长期为硅谷度假胜地太浩湖供电的太平洋燃气电力公司合约将于今年年底到期,受AI用电缺口挤压,其续约报价较此前上涨37%,迫使太浩湖市政部门启动新一轮能源供应商招标,优先考虑可稳定供电的清洁能源服务商。

2 小时前
2026年5月,OpenAI正式推出ChatGPT个人理财专属功能,支持用户绑定个人银行及证券、支付账户,后台将自动聚合用户的投资组合表现、日常消费、订阅服务、待支付账单等多维度财务数据,为用户生成统一的可视化财务看板,这是大语言模型首次规模化落地C端个人理财垂直场景。

3 小时前
2026年5月15日,人工智能公司xAI正式推出Agentic命令行工具Grok Build早期测试版,该产品定位智能开发助手,可实现项目结构分析、代码编写、错误调试、开发任务自动化等功能,目前仅向SuperGrok Heavy订阅用户开放,用户可通过x.ai/cli申请体验,后续将根据用户反馈快速迭代优化。

3 小时前
2026年5月15日,千问APP正式宣布与国家药监局信息中心达成深度战略合作,全面接入覆盖药品、化妆品、医疗器械三大类别的数百万份国家级权威数据,可通过权威数据源实时校核大幅降低健康咨询类回答的幻觉问题,将为平台数千万用户提供精准用药指导、成分检索等服务,标志着国产大模型垂直领域专业化、合规化建设取得关键进展。

3 小时前
2026年5月行业监测数据显示,埃隆·马斯克旗下由SpaceX与xAI合并而成的SpaceXAI正遭遇严重人才危机,2026年2月至今已有超50名顶尖研发人员离职,覆盖编程助手、世界模型、Grok语音交互、预训练等核心团队,近20名离职人员转投Meta、Thinking Machines Lab等竞品,引发行业对其技术迭代能力的广泛质疑。

4 小时前
AI编码初创企业Cursor于2026年5月宣布启动全球化扩张进程,未来半年将在亚太地区招聘200名技术及市场类员工,新加坡办事处由资深科技高管Simon Green负责。此前该公司已与SpaceX达成重磅合作协议,SpaceX拥有600亿美元收购Cursor的权利,若未触发收购则需支付100亿美元采购其研发成果,充足资金加持下Cursor正加速技术出海落地。

4 小时前
2026年5月15日,百度正式宣布成立作为大模型战略最高决策与协调机构的百度模型委员会(BMC),该机构由深度参与文心大模型多代迭代的青年研究员组成,基础模型研发部、应用模型研发部将直接向其汇报,实现大模型从底层技术研发到上层产品落地的全链路统一管理,标志着百度大模型竞争正式进入体系化作战阶段。

4 小时前
2026年5月,OpenAI正式宣布将AI编程模型Codex集成至ChatGPT的iOS及Android移动端应用。本次更新针对手机使用场景做了专属交互适配,支持开发者在通勤、线下休闲等非办公场景快速完成代码审批、逻辑调试等碎片化编程任务,标志着AI编程工具正式从桌面生产力阶段迈入全时伴随的发展新阶段。