2026年4月,国产大模型开发团队DeepSeek推出的V4系列模型,在第三方测评机构SuperCLUE的中文大模型综合评测中取得领跑成绩。其中DeepSeek-V4-Pro以70.98分的综合得分重夺国内中文大模型第一,DeepSeek-V4-Flash以68.82分紧随其后,本次测评覆盖六大核心能力维度,两款模型得分均显著领先国内同类开源模型,验证了国产开源大模型的技术进阶。
本次SuperCLUE开展的中文大模型测评,围绕当前大模型落地最受关注的六大核心能力维度设计,分别是数学推理、科学推理、代码生成、智能体任务规划、指令遵循和幻觉控制,全方位覆盖了通用大模型从日常对话到专业场景的能力表现。
和上一代V3.2版本相比,DeepSeek-V4-Pro的提升幅度远超行业平均水平:智能体能力提升超过20分,数学推理提高近10分,指令遵循得分增加近12分,曾经困扰开源模型的幻觉问题也得到了明显优化,两款模型的得分均显著高于国内其他同类参赛模型。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录