近期,由北美多所高校联合AI安全实验室发布的最新研究显示,当前OpenAI GPT-4o Computer Use、谷歌Gemini Advanced、微软Copilot等主流可操作电脑的AI代理产品,在处理整理表格、筛选邮件等常规办公任务时平均成功率仅为22%,超6成测试案例出现操作偏差,11%的案例发生不可逆错误,远未达到厂商宣传的商用标准。
今年上半年,几乎所有AI巨头都把“能替你操作电脑的AI代理”当成了核心宣传点:打开语音说一句“整理上周的客户报销单”,AI就会自动打开邮箱下载附件、识别金额、录入表格,整个过程不需要用户碰一下鼠标,这类演示视频在社交平台累计播放量已经突破数十亿次,不少消费者已经为相关的AI功能付费升级。
过去半年,AI代理赛道的热度甚至超过了下一代大语言模型的研发。OpenAI在5月的开发者大会上首次推出GPT-4o的电脑使用功能,谷歌紧随其后在Gemini Advanced中上线了桌面操作权限,微软更是把AI代理作为Copilot+ PC的核心卖点,喊出“把重复工作全部交给AI”的口号。
一级市场同样火爆,2024年上半年AI代理赛道的总融资额达到127亿美元,是2023年同期的2.8倍,至少有17家初创公司凭借AI代理相关产品拿到了超1亿美元的融资。
和光鲜的演示、火热的融资形成鲜明对比的是第三方测试的惨淡结果。前述研究团队选择了12类普通用户日常最高频的桌面操作场景,覆盖从打开浏览器查询特定信息、整理PDF文件内容到登录订票网站购买指定日期车票等不同难度的任务,对市面6款主流AI代理产品进行了超过1200次测试。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
43 秒前
2026年5月行业监测数据显示,埃隆·马斯克旗下由SpaceX与xAI合并而成的SpaceXAI正遭遇严重人才危机,2026年2月至今已有超50名顶尖研发人员离职,覆盖编程助手、世界模型、Grok语音交互、预训练等核心团队,近20名离职人员转投Meta、Thinking Machines Lab等竞品,引发行业对其技术迭代能力的广泛质疑。

10 分钟前
2026年5月15日,人工智能企业OpenAI宣布将旗下代码生成模型Codex正式集成至iOS、Android双端ChatGPT移动应用,面向全球开发者提供移动端远程编码管理能力。目前Codex周活跃用户已突破400万,本次更新打破办公场景限制,支持多开发环境实时同步,开发者可利用碎片时间处理紧急代码需求。

14 分钟前
2026年5月15日,百度正式宣布成立作为大模型战略最高决策与协调机构的百度模型委员会(BMC),该机构由深度参与文心大模型多代迭代的青年研究员组成,基础模型研发部、应用模型研发部将直接向其汇报,实现大模型从底层技术研发到上层产品落地的全链路统一管理,标志着百度大模型竞争正式进入体系化作战阶段。

16 分钟前
2026年5月,OpenAI正式宣布将AI编程模型Codex集成至ChatGPT的iOS及Android移动端应用。本次更新针对手机使用场景做了专属交互适配,支持开发者在通勤、线下休闲等非办公场景快速完成代码审批、逻辑调试等碎片化编程任务,标志着AI编程工具正式从桌面生产力阶段迈入全时伴随的发展新阶段。

18 分钟前
2026年5月15日,埃隆·马斯克旗下人工智能公司xAI正式推出首款专业编程AI智能体Grok Build,进军高增速的开发者服务市场。该产品目前处于早期测试阶段,仅面向xAI付费订阅用户开放,可自动完成代码编写、逻辑构建等复杂编程任务。xAI总裁迈克尔·尼科尔斯明确将Anthropic旗下Claude列为核心对标目标,计划短期内追平行业标杆表现。

30 分钟前
创新工场董事长李开复近日在专访中阐释“AI主权”概念,其涵盖技术控制权、数据安全、本土文化法律适配三大核心维度。他明确指出各国无需盲目复刻闭源巨头OpenAI的发展路径,资源有限的市场主体可依托开源模型走本地化建设的“第三条路”,中国企业DeepSeek已验证该模式可实现不到美国同行十分之一的投入达标同等性能。

32 分钟前
2026年5月15日,AI企业Anthropic与比尔及梅琳达·盖茨基金会正式宣布开启四年期、总规模2亿美元的公益合作,双方将结合Anthropic旗下Claude大模型的技术能力,推动AI在全球医疗、生命科学、教育、农业、经济流动等公益场景落地,重点解决全球欠发达地区的核心公共服务缺口。

36 分钟前
2026年5月,面向Mac设备的AI应用Osaurus正式推出,其核心特性为融合本地部署与云端调用两类AI模型能力,同时将用户的对话记忆、本地文件、关联工具数据全部保留在用户自有硬件内,兼顾大模型复杂任务处理能力与个人数据安全需求,为对隐私有高要求的Mac用户提供了新的AI生产力工具选择。