少找工具,多做创作

MIT科技评论:传统AI基准失效,评估体系亟待转向人本框架

2026年3月31日,《麻省理工科技评论》刊发专栏作者Angela Aristidou的专项研究文章指出,已沿用数十年的传统AI基准测试体系已全面失效,单次标准化测试无法匹配当下通用大模型的多场景落地需求,行业需转向更以人为中心、匹配具体应用场景的新型评估方法,为AI产品的真实效用测算提供可落地的参考框架。

如果你关注近一年的大模型发布节奏就会发现,几乎每款新品对外官宣时,都会标注自己在MMLU、GSM8K等通用基准测试中刷新了行业纪录,但不少用户拿到手用的时候却频频踩坑:写代码漏关键逻辑、做方案脱离业务实际,甚至连基础的事实性错误都屡见不鲜。这种“刷分无敌、实际无用”的反差,正是传统AI基准测试失效的直观体现。

从上世纪70年代AI产业萌芽阶段开始,标准化基准测试就是衡量AI能力的核心标尺。针对图像分类任务的ImageNet、针对自然语言理解的GLUE系列测试,都曾为窄人工智能的技术迭代提供了清晰的方向。

但随着2023年以来通用大模型的快速落地,AI的应用场景早已从实验室的特定任务延伸到了医疗、教育、工业生产、公共服务等几十个垂直领域,单一的标准化测试根本无法覆盖AI在不同场景下的多元能力要求。有行业统计显示,当前大模型在通用基准测试中的得分,和其实际解决用户问题的满意度相关性已经不足30%,传统评估体系的参考价值已经大打折扣。

Angela Aristidou在文章中提出,下一代AI评估体系要完全跳出“刷题刷分”的传统逻辑,转向两个核心方向:一是评估场景与实际落地场景完全对齐,比如面向基层医疗的AI辅诊工具,就要把测试放到真实的社区医院诊室中,由一线医生结合真实病例评估其参考价值,而非仅测试其医学知识库的背诵准确率。

二是要把人的体验放到评估的核心位置,除了准确率、响应速度等技术指标外,还要加入普通用户的易用性评分、特殊群体的适老化/适残化适配度等人文维度的指标,最终的评估结果要直接反映AI能不能帮人解决问题、能不能降低人的工作负担

目前这种新型评估方式已经在头部厂商中开始试点。OpenAI在GPT-5的内测环节中,就放弃了过去以基准得分为核心的迭代逻辑,邀请了超过2万名不同行业的普通用户参与长期测试,收集真实使用反馈调整模型优化方向;国内大模型厂商DeepSeek在推出行业模型时,也会邀请对应领域的从业者参与多轮评估,基准测试得分在最终产品上线标准中的占比已经降到了40%以下。

有行业分析师指出,当这套以人为中心的评估体系全面普及后,AI产业的竞争逻辑将会从“拼参数、拼跑分”转向“拼落地、拼体验”,最终受益的还是所有需要使用AI产品的普通用户和企业客户。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创