登录体验完整功能(收藏、点赞、评论等) — 已累计有 9602 人加入

最新测试显示 主流AI聊天机器人极易被诱导输出虚假内容

知名AI安全研究团队近期针对OpenAI ChatGPT、Google Gemini、DeepSeek等7款市面主流大语言模型聊天机器人完成对抗性测试,结果显示仅需极低门槛的普通诱导指令,就能让AI绕过内容对齐约束输出完全不实的虚假信息,整体攻击成功率超过82%,直指当前大模型内容安全体系存在被长期低估的结构性漏洞。

整个测试过程没有采用任何复杂的对抗破解技术,研究人员甚至没有修改提示词的特殊编码,仅仅是通过调整对话的场景设定,比如让AI以“校园话剧的剧情草稿”“虚构科幻小说的人物设定”为前提回答相关问题,就达成了绝大多数的攻破效果,操作门槛普通网民无需专门学习就能快速掌握。

过去两年全球大模型行业的竞争重心始终集中在参数规模、推理速度、多模态理解能力等显性指标上,多数厂商的资源投入都向性能提升侧倾斜,内容安全的相关训练长期停留在表层敏感词拦截阶段。不少从业者甚至默认,用户主动诱导生成的虚假内容属于“误用风险”,并未将其纳入常规安全防护的核心覆盖范围,直接给后续的虚假信息传播埋下了隐患。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯