2026年7月,阿里巴巴正式开源页面自动化工具Page Agent,该工具依托独创的DOM脱水技术,将浏览器自动化逻辑从传统外部驱动转向页面内部直接执行,无需依赖Selenium、Playwright等第三方工具,通过生成轻量化FlatDomTree纯文本映射降低大模型处理负荷,网页操作效率与精准度均实现量级提升。

做过网页自动化开发的从业者,几乎都对Selenium、Playwright等工具的使用痛点印象深刻。这套沿用了近20年的技术范式,核心逻辑是通过外部底层协议驱动浏览器,要么通过截图传输给多模态模型识别元素,要么通过接口解析完整DOM树定位目标,不仅环境配置繁琐、驱动版本需要和浏览器严格匹配,遇到动态渲染的弹窗、嵌套iframe等场景时,定位失败率往往超过30%,执行效率也受网络延迟、页面加载速度的影响极大。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录