2026年2月26日,AI公司Anthropic完成对西雅图初创企业Vercept的收购,将整合后者高精度UI识别与空间推理技术,为旗下智能体Claude补足视觉能力短板。Vercept自研模型在ScreenSpot v1基准测试中UI识别准确率达92%,远超OpenAI同类模型的18.3%,此举或将推动智能体进入“视觉操控”新阶段。
当用户还在依赖Claude处理复杂的文本推理任务时,Anthropic已经在为它搭建通往更真实交互的桥梁。2026年2月26日的收购公告,让这家AI公司的战略野心清晰可见——通过纳入Vercept的视觉技术,Claude将首次拥有“看懂”并操控软件界面的能力,打破智能体长期以来的文本交互局限。
在大语言模型智能体的发展浪潮中,文本能力的天花板正在显现。无论是ChatGPT还是早期版本的Claude,它们都能凭借强大的语言理解能力生成文案、解答问题,但面对人类日常高频的软件操作场景——比如在Photoshop中调整图层、在CRM系统中录入客户数据——这些智能体却束手无策。
核心原因在于,传统智能体依赖软件开放的API接口实现交互,一旦软件没有提供接口,就无法完成任何操作。而人类与软件的交互逻辑截然不同:我们通过视觉识别界面元素,再用鼠标或键盘执行操作,这种“看-判断-操作”的流程,正是当前智能体缺失的核心能力。
Vercept的出现恰好填补了这一空白。这家西雅图初创公司的核心产品Vy,采用了完全不同的技术路径:它不依赖任何软件的后台代码或API,而是通过计算机视觉模型直接分析屏幕上的UI元素,识别按钮、输入框、下拉菜单等组件的位置与功能,甚至能进行空间推理,判断元素的层级关系和操作逻辑。
最具说服力的是数据:在UI识别基准测试ScreenSpot v1中,Vercept自研模型的识别准确率高达92%,而OpenAI同类模型的准确率仅为18.3%。这种差距意味着,Vercept的技术可以精准适配几乎所有软件界面,无需针对每个产品进行单独适配,通用性和精准度都实现了对行业现有方案的降维打击。
Anthropic此次收购的核心目标,就是将Vercept的技术整合进Claude智能体中。一旦完成融合,Claude将具备全新的交互能力:它可以“观看”用户的操作屏幕,理解用户的需求后直接操控软件完成任务,无需用户手动设置复杂的指令或API权限。
对普通用户而言,这意味着AI可以成为更贴心的“软件助手”——比如帮你自动整理邮箱收件箱、在表格中完成复杂的数据分析;对企业客户来说,Claude的视觉能力将推动办公自动化进入新阶段,跨软件的复杂流程可以被AI自动完成,大幅降低人力成本和操作误差。这也标志着,AI智能体正在从“文本对话者”向“视觉操控者”转变,真正迈入多模态交互的新时代。