登录体验完整功能（收藏、点赞、评论等） — 已累计有 9788 人加入

微软研究院发布Webwright框架网页智能代理测试成绩接近翻倍

AI创作导航 8 小时前

风向

105

近日微软研究院推出终端原生网页智能代理框架Webwright，在通用网页任务测试集Odysseys中拿下60.1%的得分，较基础版GPT-5.4的33.5%提升近80%，同时在Online-Mind2Web测试中得分达86.7%，是当前网页代理领域性能最优的开源框架之一，为网页自动化、智能信息检索等场景落地提供了新的技术路径。

长期以来，多步骤复杂网页任务的处理能力，都是衡量AI代理实用性的核心指标。此前行业主流方案大多基于通用大模型上层封装开发，依赖浏览器插件、中间件完成交互，容易受网页动态加载、环境适配差异影响，准确率长期卡在30%-40%区间，无法满足商用落地要求。基础版GPT-5.4在Odysseys测试集33.5%的得分，就是此前行业的普遍基准水平。

和此前的上层封装方案不同，Webwright采用了终端原生设计，可直接在系统终端层完成网页元素识别、交互指令生成、执行结果校验的全流程，省去了多端适配的中间损耗，对异步加载内容、动态验证码、嵌套网页等复杂场景的识别准确率大幅提升。

官方测试数据显示，Webwright在Odysseys测试集的217项多步骤网页任务中准确率达60.1%，较GPT-5.4的基准成绩提升近80%；在更贴近真实使用场景的Online-Mind2Web测试中，其准确率更是达到86.7%，较同类开源方案平均水平高出22个百分点。

大语言模型 AI代理 Webwright 微软研究院网页智能代理

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

相关网站

Linea AI

AI驱动企业核心数据风险防护

ProMind AI

专业AI代理，内容代码生成提效

提示工程指南

提示工程领域专业学习平台

Claude

Claude 是由 Anthropic 研发的 AI 助手与大语言模型

OpenAI

OpenAI 是全球领先的人工智能研究机构与模型提供商

UGC Maker AI

AI驱动的UGC视频图片广告创

BannImage AI

AI图像视频生成工具，高效产出

Lunia

为2-10岁儿童生成心理学向个

相关资讯

© 2026 AI创作导航. All Rights Reserved.

滇ICP备2026002425号-1 公安备案图标

公安备案图标

滇公网安备 53252802528133号