2026年3月31日,《麻省理工科技评论》刊发专栏作者Angela Aristidou的专项研究文章指出,已沿用数十年的传统AI基准测试体系已全面失效,单次标准化测试无法匹配当下通用大模型的多场景落地需求,行业需转向更以人为中心、匹配具体应用场景的新型评估方法,为AI产品的真实效用测算提供可落地的参考框架。
如果你关注近一年的大模型发布节奏就会发现,几乎每款新品对外官宣时,都会标注自己在MMLU、GSM8K等通用基准测试中刷新了行业纪录,但不少用户拿到手用的时候却频频踩坑:写代码漏关键逻辑、做方案脱离业务实际,甚至连基础的事实性错误都屡见不鲜。这种“刷分无敌、实际无用”的反差,正是传统AI基准测试失效的直观体现。
从上世纪70年代AI产业萌芽阶段开始,标准化基准测试就是衡量AI能力的核心标尺。针对图像分类任务的ImageNet、针对自然语言理解的GLUE系列测试,都曾为窄人工智能的技术迭代提供了清晰的方向。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录