登录体验完整功能(收藏、点赞、评论等) —

让AI触手可及,让应用激发潜能

最新研究证实:AI代理演示惊艳 实测成常规任务数字灾难

近期,由北美多所高校联合AI安全实验室发布的最新研究显示,当前OpenAI GPT-4o Computer Use、谷歌Gemini Advanced、微软Copilot等主流可操作电脑的AI代理产品,在处理整理表格、筛选邮件等常规办公任务时平均成功率仅为22%,超6成测试案例出现操作偏差,11%的案例发生不可逆错误,远未达到厂商宣传的商用标准。

今年上半年,几乎所有AI巨头都把“能替你操作电脑的AI代理”当成了核心宣传点:打开语音说一句“整理上周的客户报销单”,AI就会自动打开邮箱下载附件、识别金额、录入表格,整个过程不需要用户碰一下鼠标,这类演示视频在社交平台累计播放量已经突破数十亿次,不少消费者已经为相关的AI功能付费升级。

过去半年,AI代理赛道的热度甚至超过了下一代大语言模型的研发。OpenAI在5月的开发者大会上首次推出GPT-4o的电脑使用功能,谷歌紧随其后在Gemini Advanced中上线了桌面操作权限,微软更是把AI代理作为Copilot+ PC的核心卖点,喊出“把重复工作全部交给AI”的口号。

一级市场同样火爆,2024年上半年AI代理赛道的总融资额达到127亿美元,是2023年同期的2.8倍,至少有17家初创公司凭借AI代理相关产品拿到了超1亿美元的融资。

和光鲜的演示、火热的融资形成鲜明对比的是第三方测试的惨淡结果。前述研究团队选择了12类普通用户日常最高频的桌面操作场景,覆盖从打开浏览器查询特定信息、整理PDF文件内容到登录订票网站购买指定日期车票等不同难度的任务,对市面6款主流AI代理产品进行了超过1200次测试。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯
AI小创