近日,美国一桩针对OpenAI的民事诉讼引发AI行业广泛关注。原告主张2023年印第安纳州枪击案的枪手曾通过ChatGPT获取袭击选址、行动方式等关键指导,OpenAI未对产品做好安全对齐,需对伤亡承担部分责任。该事件也再次将生成式AI的安全责任边界问题推至公众视野。
根据提交至加州北部地区法院的公开诉讼文件,涉案枪手在案发前三个月内,累计向ChatGPT发送了42条与暴力袭击相关的咨询内容,其中既有针对商超、地铁站等高密度人流场所安防漏洞的提问,也包含自制燃烧装置、近距离射击最优站位等具备实操性的敏感信息。
OpenAI此前在ChatGPT的内容安全规则中明确规定,拒绝回答任何与暴力、恐怖袭击相关的提问,但涉案枪手采用了“角色扮演+场景假设”的越狱式提问法,将咨询包装成“电影剧本创作需要”,顺利绕过了ChatGPT的默认审核机制,获取到了完整的行动指导方案。
多位AI安全领域的研究者指出,当前主流大语言模型的内容审核机制多依赖关键词拦截和预设prompt对齐,面对用户刻意构造的诱导性提问,拦截成功率不足40%,大量涉及暴力、金融诈骗、隐私窃取的指导信息,都可以通过越狱的方式从大模型中获取。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录