登录体验完整功能(收藏、点赞、评论等)

少找工具,多做创作

美名校联合研究预警:AI智能体测评偏科编程 忽视92%真实劳动力市场

近日,卡内基梅隆大学与斯坦福大学完成一项针对AI智能体测评体系的联合研究,研究团队梳理了43个主流AI基准中的7.2万个测试任务,将其与美国官方职业数据库收录的千余种真实职业做匹配对比后发现,当前AI测评严重集中于编程领域,完全忽视了占美国劳动力市场92%的非编程职业,这种失衡或导致AI发展偏离实际产业需求。

研究团队将测试任务与美国劳工部O*NET职业数据库中的1016种真实职业逐一匹配后,得到了更触目的细分数据:当前美国管理类岗位的数字化程度已经高达88%,但这类岗位相关的任务在所有AI基准测试中的占比仅为1.4%;数字化程度达70%的法律职业,在基准测试中的占比更是只有0.3%。

在技能维度,这种脱节更加明显。现有AI测评的考察重心高度集中在信息获取计算机操作两类技能上,而这两类技能对应的岗位,仅覆盖了不到5%的美国就业人口。现实职场中不可或缺的人际互动、协调管理等核心能力,在当前的AI智能体测试体系中几乎处于空白状态。

研究指出,这种大面积失衡本质上是AI行业发展的路径依赖导致的。大语言模型技术落地初期,编程场景因为反馈清晰、标准化程度高,成为最早验证AI智能体能力的方向,而多数基准测试的开发者本身就是技术背景出身,自然更倾向于选择熟悉的编程类任务搭建测评框架。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创