近日阿里巴巴正式开源新型GUI代理工具Page Agent,该工具基于JavaScript开发,可通过读取网页DOM(文档对象模型)结构解析执行用户自然语言指令,无需额外插件即可在现有网页内实现界面操作自动化,为前端交互、RPA等场景的AI化落地提供了轻量化解决方案,目前相关代码已面向开发者开放。

在AI代理技术爆发的近两年,其落地场景始终受限于部署成本、适配难度等问题——尤其是面向网页端的自动化交互需求,普通用户往往需要学习复杂的RPA脚本编写,或是安装权限要求极高的浏览器插件,才能实现简单的批量操作,易用性和普及率始终偏低。
据此前行业调研数据显示,国内企业端的网页操作类重复劳动占办公重复性工作总量的37%,其中电商运营、行政、内容编辑等岗位的占比更是超过60%。尽管目前已有不少RPA工具、AI浏览器插件瞄准这一市场,但普遍存在适配周期长、定制成本高、普通用户上手难等问题,很难覆盖长尾的个性化操作需求。
本次阿里推出的Page Agent直接打破了此前的技术路径依赖:这是一款完全基于JavaScript的页内GUI代理,仅需要在网页代码中嵌入少量脚本即可启用,无需额外部署服务端、也不用要求用户安装任何插件。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录