当地时间2月25日,AI初创公司Anthropic宣布收购西雅图AI企业Vercept,此举旨在为旗下大模型Claude的核心智能体工具“Computer Use”补全视觉能力。Computer Use是Anthropic让Claude直接操控电脑的关键功能,此次收购被视为Anthropic正式押注AI智能体赛道的重要信号,将显著提升Claude在多模态任务自动化领域的竞争力。
当AI大模型能流畅生成代码、撰写报告后,“看懂电脑屏幕并自主完成操作”成为智能体从“工具”升级为“助手”的核心门槛——Anthropic正在通过收购补上这道关键缺口。
Computer Use作为Anthropic为Claude打造的核心智能体能力,原本仅能基于文本指令完成电脑端的基础操作:编辑文档、运行代码脚本、调用命令行工具等。但在真实办公场景中,大量任务依赖视觉交互:调整PPT的图文排版、在设计软件中修改图层、识别后台系统的弹窗提示……这些都要求AI能精准理解屏幕上的视觉元素,而这正是Vercept的技术专长。
作为西雅图专注AI视觉与界面交互的初创,Vercept的技术可让智能体识别屏幕上的窗口、按钮、图标等视觉信息,将界面元素转化为AI可理解的结构化数据,从而实现更精准的电脑操控。此次收购直接填补了Computer Use的视觉盲区,让Claude具备了“看懂屏幕再行动”的能力。
当前,AI智能体已成为大模型厂商的下一个核心战场。OpenAI早在去年就推出结合GPT-4V视觉能力的智能体工具,可处理多模态的电脑操控任务;Google Gemini也在多模态智能体领域持续布局,聚焦企业级自动化场景。
与单纯的内容生成不同,AI智能体的核心价值在于自主完成复杂的闭环任务,而操控电脑是最贴近企业办公与日常使用的落地场景之一。此次Anthropic收购Vercept,相当于在智能体的“执行能力”上补上关键短板,使其能与头部玩家在多模态任务处理中展开直接竞争。
从推出Claude 3系列多模态大模型到持续迭代Computer Use功能,Anthropic一直在强化Claude的“任务执行”属性。不同于OpenAI更偏向通用工具的布局,Anthropic似乎更聚焦于企业级智能体解决方案:通过补全视觉能力,Claude未来可赋能企业实现更深度的办公自动化——比如自动处理财务报表的视觉审核、客服系统的界面操作自动化、程序员的调试辅助等。
此次收购不仅是技术补全,更是Anthropic在AI智能体赛道的战略押注,标志着其正式向“能看、能懂、能做”的全链路智能体服务商转型。
随着AI智能体的能力边界不断拓展,“让AI替代人类完成重复性办公任务”正在从概念变为现实。Anthropic的这次收购,或许会推动整个行业加速走向多模态智能体的普及,让AI真正成为人类的“协作助手”而非仅仅是“内容工具”。