登录体验完整功能(收藏、点赞、评论等) — 已累计有 9788 人加入

微软研究院发布Webwright框架 网页智能代理测试成绩接近翻倍

近日微软研究院推出终端原生网页智能代理框架Webwright,在通用网页任务测试集Odysseys中拿下60.1%的得分,较基础版GPT-5.4的33.5%提升近80%,同时在Online-Mind2Web测试中得分达86.7%,是当前网页代理领域性能最优的开源框架之一,为网页自动化、智能信息检索等场景落地提供了新的技术路径。

长期以来,多步骤复杂网页任务的处理能力,都是衡量AI代理实用性的核心指标。此前行业主流方案大多基于通用大模型上层封装开发,依赖浏览器插件、中间件完成交互,容易受网页动态加载、环境适配差异影响,准确率长期卡在30%-40%区间,无法满足商用落地要求。基础版GPT-5.4在Odysseys测试集33.5%的得分,就是此前行业的普遍基准水平。

和此前的上层封装方案不同,Webwright采用了终端原生设计,可直接在系统终端层完成网页元素识别、交互指令生成、执行结果校验的全流程,省去了多端适配的中间损耗,对异步加载内容、动态验证码、嵌套网页等复杂场景的识别准确率大幅提升。

官方测试数据显示,Webwright在Odysseys测试集的217项多步骤网页任务中准确率达60.1%,较GPT-5.4的基准成绩提升近80%;在更贴近真实使用场景的Online-Mind2Web测试中,其准确率更是达到86.7%,较同类开源方案平均水平高出22个百分点。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯