少找工具,多做创作

AI2发布全开源视觉驱动网络代理MolmoWeb 引领网页导航技术革新

艾伦人工智能研究所(AI2)于2026年3月26日正式发布全开源视觉驱动网络代理MolmoWeb,该产品打破传统网络代理依赖网页DOM底层代码的技术路径,仅通过分析屏幕截图即可完成点击、滚动等网页操作。其8B参数版本在WebVoyager基准测试中得分达78.2%,性能逼近OpenAI专有模型,填补了开源视觉网络代理领域的技术空白。

在近日更新的WebVoyager网页导航能力基准测试榜单中,一款仅8B参数的小模型挤入了第一梯队,得分甚至超过了不少科技巨头的闭源大模型——这正是AI2刚刚推出的全开源网络代理MolmoWeb。

传统网络代理的运作逻辑高度依赖网页底层DOM代码,一旦网站前端迭代修改代码结构,原有的代理脚本就会直接失效,适配成本极高。而MolmoWeb采用纯视觉驱动的技术路径,完全不需要读取网页代码,运作逻辑和人类用户浏览网页的行为完全一致:先捕获当前浏览器窗口的截图,通过视觉分析识别页面元素、判断操作路径,再输出点击、滚动、输入等指令,完成操作后再次捕获截图判断下一步动作。

这种模式的优势十分明显:网页的视觉布局远比底层DOM代码稳定,且MolmoWeb的决策过程对人类完全透明,开发者可以直观看到它是基于哪些页面元素做出的操作判断,可解释性远高于传统依赖代码的网络代理。

此次AI2推出的MolmoWeb共开放两个参数版本,分别为4B和8B,均属于轻量级大模型范畴,对部署硬件的要求极低,普通消费级显卡即可本地运行。

从测试数据来看,其8B参数版本在WebVoyager基准测试中拿下了78.2%的得分,不仅在所有开源网络代理模型中位列第一梯队,性能更是逼近OpenAI尚未开源的专有网络代理模型,实现了典型的“以小博大”。更重要的是,MolmoWeb采用完全开源协议,所有开发者都可以免费获取权重进行二次开发,不需要支付高额的API调用费用,也不存在数据传输的安全风险。

视觉驱动的技术特性,让MolmoWeb的适配范围远超过传统网络代理。除了常规的PC端网页操作外,移动端H5页面、小程序、甚至是客户端内嵌的网页界面,只要可以输出屏幕截图,MolmoWeb都可以完成操作,不需要单独做适配开发。

目前已经有不少开发者开始测试MolmoWeb的落地场景:比如互联网公司的前端自动化测试,不再需要工程师针对每个版本的DOM结构写测试脚本,只要输入测试需求即可自动完成全流程操作;针对视障群体的网页辅助工具,也可以基于MolmoWeb开发,自动识别页面内容并完成用户的语音指令;此外电商自动比价、政务服务自动填报、企业内部系统自动化运维等场景,都可以通过MolmoWeb大幅降低自动化成本。

据AI2团队透露,目前MolmoWeb还在优化复杂验证码识别、多标签页协同操作等能力,预计2026年下半年将推出12B参数的进阶版本,进一步提升复杂任务的处理成功率。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创