登录体验完整功能(收藏、点赞、评论等) — 已累计有 12541 人加入

MIT科技评论:传统AI基准失效,评估体系亟待转向人本框架

详情页推荐

2026年3月31日,《麻省理工科技评论》刊发专栏作者Angela Aristidou的专项研究文章指出,已沿用数十年的传统AI基准测试体系已全面失效,单次标准化测试无法匹配当下通用大模型的多场景落地需求,行业需转向更以人为中心、匹配具体应用场景的新型评估方法,为AI产品的真实效用测算提供可落地的参考框架。

如果你关注近一年的大模型发布节奏就会发现,几乎每款新品对外官宣时,都会标注自己在MMLU、GSM8K等通用基准测试中刷新了行业纪录,但不少用户拿到手用的时候却频频踩坑:写代码漏关键逻辑、做方案脱离业务实际,甚至连基础的事实性错误都屡见不鲜。这种“刷分无敌、实际无用”的反差,正是传统AI基准测试失效的直观体现。

从上世纪70年代AI产业萌芽阶段开始,标准化基准测试就是衡量AI能力的核心标尺。针对图像分类任务的ImageNet、针对自然语言理解的GLUE系列测试,都曾为窄人工智能的技术迭代提供了清晰的方向。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。