2026年3月31日,《麻省理工科技评论》刊发专栏作者Angela Aristidou的专项研究文章指出,已沿用数十年的传统AI基准测试体系已全面失效,单次标准化测试无法匹配当下通用大模型的多场景落地需求,行业需转向更以人为中心、匹配具体应用场景的新型评估方法,为AI产品的真实效用测算提供可落地的参考框架。
如果你关注近一年的大模型发布节奏就会发现,几乎每款新品对外官宣时,都会标注自己在MMLU、GSM8K等通用基准测试中刷新了行业纪录,但不少用户拿到手用的时候却频频踩坑:写代码漏关键逻辑、做方案脱离业务实际,甚至连基础的事实性错误都屡见不鲜。这种“刷分无敌、实际无用”的反差,正是传统AI基准测试失效的直观体现。
从上世纪70年代AI产业萌芽阶段开始,标准化基准测试就是衡量AI能力的核心标尺。针对图像分类任务的ImageNet、针对自然语言理解的GLUE系列测试,都曾为窄人工智能的技术迭代提供了清晰的方向。
但随着2023年以来通用大模型的快速落地,AI的应用场景早已从实验室的特定任务延伸到了医疗、教育、工业生产、公共服务等几十个垂直领域,单一的标准化测试根本无法覆盖AI在不同场景下的多元能力要求。有行业统计显示,当前大模型在通用基准测试中的得分,和其实际解决用户问题的满意度相关性已经不足30%,传统评估体系的参考价值已经大打折扣。
Angela Aristidou在文章中提出,下一代AI评估体系要完全跳出“刷题刷分”的传统逻辑,转向两个核心方向:一是评估场景与实际落地场景完全对齐,比如面向基层医疗的AI辅诊工具,就要把测试放到真实的社区医院诊室中,由一线医生结合真实病例评估其参考价值,而非仅测试其医学知识库的背诵准确率。
二是要把人的体验放到评估的核心位置,除了准确率、响应速度等技术指标外,还要加入普通用户的易用性评分、特殊群体的适老化/适残化适配度等人文维度的指标,最终的评估结果要直接反映AI能不能帮人解决问题、能不能降低人的工作负担。
目前这种新型评估方式已经在头部厂商中开始试点。OpenAI在GPT-5的内测环节中,就放弃了过去以基准得分为核心的迭代逻辑,邀请了超过2万名不同行业的普通用户参与长期测试,收集真实使用反馈调整模型优化方向;国内大模型厂商DeepSeek在推出行业模型时,也会邀请对应领域的从业者参与多轮评估,基准测试得分在最终产品上线标准中的占比已经降到了40%以下。
有行业分析师指出,当这套以人为中心的评估体系全面普及后,AI产业的竞争逻辑将会从“拼参数、拼跑分”转向“拼落地、拼体验”,最终受益的还是所有需要使用AI产品的普通用户和企业客户。

3 小时前
3月26日,国际顶级学术出版机构Nature旗下Nature Index China特刊刊发两篇深度报道,系统呈现教育集团天立国际在“AI+教育”领域的落地成果,聚焦中国K12教育场景下的教育通用人工智能(AGI)应用实践,展示其用技术缩小区域教育资源差距、推动教育公平的探索路径,相关内容随Nature正刊同步上线官网。

3 小时前
2026年3月31日,苹果面向国内iPhone用户正式推送国行专属AI功能“Apple智能”,该功能与Siri深度打通,采用多模型调度策略,国内适配场景底层接入百度文心大模型,这也是苹果首次在国内消费级终端搭载国产大模型服务,瞬间刷屏消费电子圈与AI产业,引发大量用户与行业人士讨论。

3 小时前
2026年3月30日,阿里正式推出新一代全模态大模型Qwen3.5-Omni。该模型原生支持文本、图片、音视频多模态输入,适配256k长上下文与最长10小时音频输入,实测可完整理解50分钟《老友记》剧情,在全球215项权威评测中拿下SOTA,部分性能表现超过谷歌Gemini 3.1 Pro。

3 小时前
2026年3月30日,全球最大光计算独角兽曦智科技正式向港交所递交IPO招股书。该公司由沈亦晨博士于2017年创立,专注于光互连、光计算技术研发,商业化进度全球领先,腾讯、百度均为其早期投资方,目前已走出试点阶段,下游已有AI芯片企业完成下单,本次IPO被视作光计算技术规模化商用的标志性节点。

4 小时前
2026年3月29日第二届浦江AI学术年会开幕期间,上海人工智能实验室DeepLink团队正式发布《超节点技术体系白皮书》。该白皮书联合8所顶尖高校、16家核心产业伙伴共同形成产业共识,针对超节点规模化落地过程中异构协同难、跨域调度效率低、工程化部署复杂等核心痛点,为产业实践提供了体系化的理论指导。

4 小时前
2026年3月30日,中国联通发布山东济南市行业客户智算一体机服务项目中标候选人公示,百度以2.9亿元预中标该项目,采购内容包含260台额定参数为64核、主频2.7GHz、功耗400W的智算一体机。该订单是国内运营商2026年Q1落地的代表性大额智算采购项目,侧面反映出国内AI算力需求的持续攀升态势。

4 小时前
2026年3月30日《华尔街日报》发布深度调查,披露OpenAI关停AI视频生成工具Sora的核心动因。此前外界普遍猜测关停与数据收集合规争议有关,实际核心原因是Sora运营成本过高、单日运营成本超过产品上线以来总营收,叠加用户快速流失,最终促使OpenAI高层决定放弃该业务,聚焦核心产品线研发。

4 小时前
2026年3月31日,美国头部大模型厂商Anthropic在发布Claude Code的npm依赖包时出现操作失误,误将source map调试文件捆绑进正式版本,导致1900个TypeScript文件、合计超51.2万行核心代码泄露。该事件由区块链公司Solayer的实习生Chaofan Shou率先发现,相关源码包短时间内全网疯传,引发AI圈对大模型厂商商业秘密保护体系的广泛讨论。