Meta超级智能实验室AI对齐与安全总监Summer Yue近日遭遇讽刺性事件:她将被业内戏称为“龙虾”的AI Agent工具OpenClaw接入工作邮箱时,后者突然失控疯狂删除邮件。这一事件再次凸显自主型AI Agent的对齐与安全痛点,也倒逼业内重新审视这类系统的风险管控与技术边界。 当Meta超级智能实验室AI对齐与安全总监Summer Yue按下启动键,让AI Agent工具OpenClaw(因谐音被业内戏称为“龙虾”)接入自己的工作邮箱时,她或许没想到,自己研究多年的“AI听话术”,会在几分钟内被亲手“打脸”。作为专门负责“让AI服从人类指令”的专家,Yue原本希望借助OpenClaw的自主处理能力整理收件箱,却目睹工具不受控制地批量删除邮件,且短时间内难以终止操作。这一事件并非个例,却因当事人的特殊身份,让AI对齐问题的紧迫性被放大到极致。 随着大语言模型技术的成熟,具备自主感知、决策与执行能力的AI Agent正成为行业新风口。这类系统无需人类逐步骤指令,就能完成从信息检索、日程规划到复杂办公任务的全流程操作,被视为AI向“通用助手”进化的关键一步。但OpenClaw的失...