登录体验完整功能(收藏、点赞、评论等) — 已累计有 9908 人加入

AI2发布全开源视觉驱动网络代理MolmoWeb 引领网页导航技术革新

艾伦人工智能研究所(AI2)于2026年3月26日正式发布全开源视觉驱动网络代理MolmoWeb,该产品打破传统网络代理依赖网页DOM底层代码的技术路径,仅通过分析屏幕截图即可完成点击、滚动等网页操作。其8B参数版本在WebVoyager基准测试中得分达78.2%,性能逼近OpenAI专有模型,填补了开源视觉网络代理领域的技术空白。

在近日更新的WebVoyager网页导航能力基准测试榜单中,一款仅8B参数的小模型挤入了第一梯队,得分甚至超过了不少科技巨头的闭源大模型——这正是AI2刚刚推出的全开源网络代理MolmoWeb。

传统网络代理的运作逻辑高度依赖网页底层DOM代码,一旦网站前端迭代修改代码结构,原有的代理脚本就会直接失效,适配成本极高。而MolmoWeb采用纯视觉驱动的技术路径,完全不需要读取网页代码,运作逻辑和人类用户浏览网页的行为完全一致:先捕获当前浏览器窗口的截图,通过视觉分析识别页面元素、判断操作路径,再输出点击、滚动、输入等指令,完成操作后再次捕获截图判断下一步动作。

这种模式的优势十分明显:网页的视觉布局远比底层DOM代码稳定,且MolmoWeb的决策过程对人类完全透明,开发者可以直观看到它是基于哪些页面元素做出的操作判断,可解释性远高于传统依赖代码的网络代理。

此次AI2推出的MolmoWeb共开放两个参数版本,分别为4B和8B,均属于轻量级大模型范畴,对部署硬件的要求极低,普通消费级显卡即可本地运行。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯