最新研究证实：AI代理演示惊艳实测成常规任务数字灾难

AI创作导航管理员 LV4 资深连续登录7天萌新

1 个月前

风向

110

近期，由北美多所高校联合AI安全实验室发布的最新研究显示，当前OpenAI GPT-4o Computer Use、谷歌Gemini Advanced、微软Copilot等主流可操作电脑的AI代理产品，在处理整理表格、筛选邮件等常规办公任务时平均成功率仅为22%，超6成测试案例出现操作偏差，11%的案例发生不可逆错误，远未达到厂商宣传的商用标准。

今年上半年，几乎所有AI巨头都把“能替你操作电脑的AI代理”当成了核心宣传点：打开语音说一句“整理上周的客户报销单”，AI就会自动打开邮箱下载附件、识别金额、录入表格，整个过程不需要用户碰一下鼠标，这类演示视频在社交平台累计播放量已经突破数十亿次，不少消费者已经为相关的AI功能付费升级。

过去半年，AI代理赛道的热度甚至超过了下一代大语言模型的研发。OpenAI在5月的开发者大会上首次推出GPT-4o的电脑使用功能，谷歌紧随其后在Gemini Advanced中上线了桌面操作权限，微软更是把AI代理作为Copilot+ PC的核心卖点，喊出“把重复工作全部交给AI”的口号。

一级市场同样火爆，2024年上半年AI代理赛道的总融资额达到127亿美元，是2023年同期的2.8倍，至少有17家初创公司凭借AI代理相关产品拿到了超1亿美元的融资。

大语言模型 AI安全 OpenAI Gemini AI代理

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

最新研究证实：AI代理演示惊艳实测成常规任务数字灾难

最新文章

X社区 · 无限公约

二狗PPT

特朗普政府宣布解除Anthropic两款旗舰AI模型出口管制

OceanBase发布湖库一体AI数据库为AI Agent筑牢核心数据底座

新浪开源VibeThinker-3B，小参数模型比肩百倍规模大模型

AI落地缺标准化训练体系超六成开发团队陷“盲飞”困境

热门文章

OpenCut

抖音创作者中心

小云雀AI

视频号助手

通义万相

朱雀AI检测助手

标签

探索分类

帮助与支持

联系我们

让AI触手可及，让应用激发潜能

最新研究证实：AI代理演示惊艳 实测成常规任务数字灾难

最新文章

X社区 · 无限公约

二狗PPT

特朗普政府宣布解除Anthropic两款旗舰AI模型出口管制

OceanBase发布湖库一体AI数据库 为AI Agent筑牢核心数据底座

新浪开源VibeThinker-3B，小参数模型比肩百倍规模大模型

AI落地缺标准化训练体系 超六成开发团队陷“盲飞”困境

热门文章

OpenCut

抖音创作者中心

小云雀AI

视频号助手

通义万相

朱雀AI检测助手

标签

探索分类

帮助与支持

联系我们

安装网站应用

最新研究证实：AI代理演示惊艳实测成常规任务数字灾难

OceanBase发布湖库一体AI数据库为AI Agent筑牢核心数据底座

AI落地缺标准化训练体系超六成开发团队陷“盲飞”困境