2026年4月,AI公司DeepSeek发布新一代大语言模型DeepSeek-V4仅10小时后,北京大学DCAI团队就通过全新开源的One-Eval评测框架,产出了该模型的全量自动化评测报告。长期以来,大模型评测流程繁琐、数据污染问题频发,是行业公认的痛点,此次One-Eval实现的效率突破,被认为是评测领域的范式级升级,引发AI工程界广泛关注。
长期以来,大模型评测都是AI工程领域公认的“噩梦”。在传统工作流程中,第三方机构或开发者要完成一款新大模型的全量评测,需要从零完成筛选基准测试集、编写适配脚本、调整模型字段输出、解析运行日志等一系列工作,超过七成的精力会被消耗在搭建测试管道上,真正用于分析模型能力的时间占比极低。
除了效率低下,行业还面临三大核心痛点:一是操作门槛高,参数配置稍有误差就会导致评测失败,程序容错率极低;二是打分不透明,最终结果更像一个无法追溯的黑盒,开发者难以定位模型能力短板;三是普遍存在的数据污染问题——部分大模型在训练阶段已经接触过公开测试数据集,导致虚高得分无法反映真实能力,直接拉低了行业评测榜单的公信力。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录