2026年7月3日阿里巴巴正式开源JavaScript客户端库Page Agent,该工具依托DOM脱水核心技术,可直接将网页内部DOM树压缩为轻量化FlatDomTree纯文本映射,无需外部截图或浏览器底层协议驱动即可让大模型精准识别网页结构,彻底解决传统浏览器自动化方案开销大、适配性差、需反复重构代码的行业痛点。

对深耕浏览器自动化领域的开发者而言,「网页一改、代码全废」几乎是常态:传统方案要么依赖截图多模态识别,不仅算力开销高,还容易漏过隐藏的交互元素;要么依托浏览器底层协议强行驱动,适配性极差,往往网页迭代2-3次就要全部重构自动化逻辑,大量精力都耗在了无意义的「重复造轮子」上。
Page Agent的核心革新,是彻底抛弃了过去从「外部破解」网页的思路,转而让大模型直接读取网页内部的原生结构。其搭载的DOM脱水技术,可以将包含大量冗余信息的原生DOM树,直接压缩为仅保留交互属性的轻量化FlatDomTree纯文本映射,相当于为大模型提供了一份标注100%准确的网页交互地图。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录