近日微软研究院推出终端原生网页智能代理框架Webwright,在通用网页任务测试集Odysseys中拿下60.1%的得分,较基础版GPT-5.4的33.5%提升近80%,同时在Online-Mind2Web测试中得分达86.7%,是当前网页代理领域性能最优的开源框架之一,为网页自动化、智能信息检索等场景落地提供了新的技术路径。
长期以来,多步骤复杂网页任务的处理能力,都是衡量AI代理实用性的核心指标。此前行业主流方案大多基于通用大模型上层封装开发,依赖浏览器插件、中间件完成交互,容易受网页动态加载、环境适配差异影响,准确率长期卡在30%-40%区间,无法满足商用落地要求。基础版GPT-5.4在Odysseys测试集33.5%的得分,就是此前行业的普遍基准水平。
和此前的上层封装方案不同,Webwright采用了终端原生设计,可直接在系统终端层完成网页元素识别、交互指令生成、执行结果校验的全流程,省去了多端适配的中间损耗,对异步加载内容、动态验证码、嵌套网页等复杂场景的识别准确率大幅提升。
官方测试数据显示,Webwright在Odysseys测试集的217项多步骤网页任务中准确率达60.1%,较GPT-5.4的基准成绩提升近80%;在更贴近真实使用场景的Online-Mind2Web测试中,其准确率更是达到86.7%,较同类开源方案平均水平高出22个百分点。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
1 小时前
国内大模型厂商DeepSeek近日宣布旗下旗舰级通用大模型服务价格下调75%,其模型性能在MMLU、GSM8K等多项国际通用基准测试中位列全球第一梯队,降价后单位Token推理成本仅为OpenAI GPT-4的1/20。此次调价被业内视为大模型商用落地的标志性事件,有望加速AI服务在中小企业、C端场景的普及,同时倒逼全球大模型厂商调整定价逻辑。

2 小时前
近期全球科技行业监测数据显示,2024年第三季度全球C端AI工具月活跃用户规模突破8.5亿,OpenAI GPT-5研发进展、谷歌Gemini多模态能力升级、DeepSeek开源模型放量、苹果Apple Intelligence端侧落地等事件成为行业核心关注焦点,AI agent、AI PC等新落地场景也进入规模化渗透前期,整个赛道的商业化节奏明显加快。

17 小时前
近日有行业消息披露,谷歌、Meta、微软三家全球科技巨头正在采购由雇主端监控工具(Bossware)采集的海量员工办公行为数据,用于旗下大语言模型、办公AI助手等产品的训练优化。涉及数据包含打字记录、会议交流内容、任务处理流程等多维度信息,相关交易的合规性已引发科技伦理领域的广泛讨论。

1 天前
近日,微软宣布调整Office套件的Copilot AI助手交互逻辑,新增悬浮Copilot按钮的手动关闭选项,解决了此前用户反馈的常驻悬浮键遮挡编辑区域、误触率高等问题。作为微软面向办公场景落地的核心AI工具,Copilot目前已覆盖Office全系列办公应用,全球付费企业用户规模已突破3000万,本次功能更新将进一步优化不同使用习惯用户的体验。

1 天前
近日,AI开源研究机构Nous Research正式发布全新大模型调控技术对比神经元归因(Contrastive Neuron Attribution,简称CNA)。该技术无需进行稀疏自动编码器(SAE)训练,也不需要修改模型权重参数,仅通过消融稀疏MLP电路即可实现对大语言模型行为的精准控制,大幅降低了大模型对齐与功能定向修改的技术门槛与算力成本。

2 天前
2024年下半年以来,全球AI赛道迎来新一轮产品迭代潮:OpenAI下一代大模型GPT-5研发进入收尾阶段,Google Gemini全端覆盖用户突破10亿,苹果Apple Intelligence随新系统正式推送,国内厂商DeepSeek、Perplexity等垂直类AI工具月活涨幅超60%,AI代理、AI PC等新形态应用也从概念走向落地,全行业商业化进程持续提速。

2 天前
近日独立AI创作者借助OpenAI GPT-4o、DeepSeek大模型等工具,成功复刻科幻名作《挽救计划》(Project Hail Mary)的全星系恒星地图,经原著爱好者联合校验,该星图对书中提及的12万颗天体坐标还原度达99.7%,误差控制在0.3%以内,远超此前所有同人衍生内容的制作精度,成为近期生成式AI落地小众创作领域的标杆案例。

2 天前
全球科技巨头Meta近期正式启动基于生成式AI改造Facebook Groups的新项目,推出对标社区平台Reddit的全新兴趣社交产品。该产品集成Meta自研Llama 3大语言模型,首批灰度测试已经覆盖超过1.2亿原有Facebook群组活跃用户,主打AI驱动的内容自动化治理与兴趣匹配功能,意图抢占近年持续升温的垂直兴趣社区赛道。