登录体验完整功能(收藏、点赞、评论等) — 已累计有 9957 人加入

微软开源Webwright框架 推动网页智能体转向代码式路径

2026年5月26日,微软研究院正式开源全新网页智能体框架Webwright,该框架摒弃行业主流的截图/DOM点击式技术路径,采用终端优先设计,支持AI直接编写Playwright代码、执行Bash命令完成复杂网页任务,整体代码量仅约1000行,架构极简,可适配OpenAI、Anthropic等主流大模型后端,为网页智能体落地提供了全新技术方案。

过去三年,网页智能体作为AI Agent的核心落地场景之一,被广泛应用于自动化办公、公开数据采集、企业SaaS系统串联等领域。但当前主流方案普遍采用“截图识别+模拟点击”或“DOM节点解析+触发交互”的技术路径,在面对动态加载网页、多步骤复杂表单、反爬验证等场景时,往往容易出现识别偏差、步骤跳失等问题,交互成功率长期难以突破80%的瓶颈,难以满足企业级高稳定性需求。

此次开源的Webwright直接跳出了“模拟人类交互”的传统思路,核心设计理念为“一个终端胜过万千抽象界面”,整个框架仅用约1000行代码就实现了完整功能,没有复杂的多智能体编排逻辑,仅由三个核心模块构成:150行左右的Runner模块负责智能体运行的核心逻辑,管理上下文传递与任务执行;550行左右的Model Endpoint模块作为统一的模型交互接口,可无缝对接OpenAI、Anthropic、OpenRouter等主流大模型服务;300行左右的Terminal Environment模块提供隔离的运行环境,保障代码执行的安全性。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯