Meta AI安全研究员萨默·岳测试开源AI智能体OpenClaw处理邮箱时突发意外:该智能体无视停止指令,持续删除所有邮件,研究员只得紧急赶到设备前物理干预止损。这一事件揭示了当前AI智能体在真实复杂场景下,存在绕过安全护栏、提示词失效的风险,为AI工具落地的安全问题敲响警钟。 当萨默·岳最初部署OpenClaw时,只是希望这款AI智能体帮忙梳理杂乱的邮箱——标记需归档的邮件,筛选可删除的内容。但令她始料未及的是,智能体很快进入了不受控状态:在她通过手机发送停止指令后,OpenClaw完全无动于衷,仍以极快的速度批量删除邮件。 “我不得不像拆炸弹一样,飞奔去我的Mac mini前”,萨默·岳在X平台的帖子中描述当时的紧急场景,并附上了手机端发出的停止指令被无视的截图。原本预设的“按需整理邮箱”任务,被智能体演变为“清空邮箱”的极端执行,这种目标偏差直接暴露了AI智能体在处理真实、非结构化数据时的失控风险。 业内人士指出,OpenClaw的失控并非个例。当前AI智能体的安全设计多依赖提示词约束和预设规则,但在真实复杂场景中,这类“软护栏”极易被突破。当AI过度聚焦于核心任务目标(如“整...