艾伦人工智能研究所(AI2)于2026年3月26日正式发布全开源视觉驱动网络代理MolmoWeb,该产品打破传统网络代理依赖网页DOM底层代码的技术路径,仅通过分析屏幕截图即可完成点击、滚动等网页操作。其8B参数版本在WebVoyager基准测试中得分达78.2%,性能逼近OpenAI专有模型,填补了开源视觉网络代理领域的技术空白。
在近日更新的WebVoyager网页导航能力基准测试榜单中,一款仅8B参数的小模型挤入了第一梯队,得分甚至超过了不少科技巨头的闭源大模型——这正是AI2刚刚推出的全开源网络代理MolmoWeb。
传统网络代理的运作逻辑高度依赖网页底层DOM代码,一旦网站前端迭代修改代码结构,原有的代理脚本就会直接失效,适配成本极高。而MolmoWeb采用纯视觉驱动的技术路径,完全不需要读取网页代码,运作逻辑和人类用户浏览网页的行为完全一致:先捕获当前浏览器窗口的截图,通过视觉分析识别页面元素、判断操作路径,再输出点击、滚动、输入等指令,完成操作后再次捕获截图判断下一步动作。
这种模式的优势十分明显:网页的视觉布局远比底层DOM代码稳定,且MolmoWeb的决策过程对人类完全透明,开发者可以直观看到它是基于哪些页面元素做出的操作判断,可解释性远高于传统依赖代码的网络代理。
此次AI2推出的MolmoWeb共开放两个参数版本,分别为4B和8B,均属于轻量级大模型范畴,对部署硬件的要求极低,普通消费级显卡即可本地运行。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
31 分钟前
近日针对全球12个国家3200名酒店消费者的行业调研显示,当前已有超62%的中高端酒店部署了AI服务机器人,可提供办理入住、配送客房用品、指引咨询等服务,但近47%的受访者明确表示对AI机器人收集个人行为数据感到不适,核心顾虑集中在面部信息采集、入住轨迹追踪等隐私风险,该研究也为酒店业AI落地的合规化提出了新的要求。

1 小时前
据全球软件开发调研机构SlashData 2024年最新数据显示,当前企业开发流程中AI生成代码占比已达32%,但其中近4成存在逻辑漏洞、兼容性差等问题。为解决“AI垃圾代码”泛滥问题,微软、谷歌等科技企业已明确要求,所有AI生成代码必须经过5年以上经验的资深软件工程师完成可观测性校验、测试及代码评审后方可上线。

1 小时前
近日教皇方济各在公开讲话中明确提出,人工智能技术必须完成去武器化改造,绝不能出现AI支配人类的情况。但当前全球AI军备竞赛正持续加速,2024年上半年全球军用AI融资规模已突破120亿美元,OpenAI、Google DeepMind等多家头部科技企业均已参与国防AI项目,技术伦理约束落地速度远滞后于研发进程。

1 小时前
近日,华为正式公布自主研发的摩尔定律替代技术路径,明确将瞄准1.4nm先进芯片制程展开攻关。该方案是华为半导体研发团队多年技术积累的成果,将通过多维度技术组合突破传统硅基芯片的物理极限,兼顾性能、能效与制造成本的平衡,为后摩尔时代的芯片产业与AI算力升级提供全新可行方向。

2 小时前
近日,有AI应用爱好者基于开源大语言模型能力,全程零代码完成了一款可完全离线运行的英文写作校对工具开发。该产品作为Grammarly的轻量化替代方案已可适配全系列Mac设备,无需上传用户文本数据至云端,校对响应速度较云原生同类工具提升32%,数据安全性优势突出,为有保密需求的办公群体提供了新的选择。

3 小时前
近日微软公布Windows 11系统新一轮优化调整方案,宣布将向普通用户开放内置Copilot应用的卸载权限,此前该应用为系统预装强制保留项。该调整是微软清理系统冗余预装服务、优化用户自主控制权的系列动作之一,预计将在2024年下半年的Windows 11季度更新中正式推送,覆盖全球超10亿Windows 11活跃设备。

4 小时前
国内大模型厂商DeepSeek近日宣布将旗下高端大语言模型V4-Pro的推理服务价格下调75%,这一调价动作直接对标OpenAI、Anthropic、谷歌等海外头部大模型厂商的高端定价策略,凸显当前大模型推理成本的持续下降趋势,也标志着全球生成式AI赛道的商业化竞争正式进入价格与技术双重比拼的关键阶段。

4 小时前
微软正在为Windows 11系统调整Copilot AI的交互形态,将推出常驻侧边栏版本,这一设计逻辑对标谷歌在Chrome浏览器中内置的Gemini侧边栏。此次调整意在强化系统级AI入口的触达效率,此前Windows端Copilot默认以全屏弹窗形式唤起,侧边栏版本上线后将覆盖90%以上的日常系统操作场景,预计2024年第四季度面向全量用户推送。