登录体验完整功能(收藏、点赞、评论等) — 已累计有 12582 人加入

Nature最新研究揭示大模型“潜意识藏毒” 暴露AI安全新风险

详情页推荐

2026年4月,国际顶级学术期刊Nature刊发最新AI安全研究,研究团队首次证实,大型语言模型(LLM)存在“潜意识学习”现象:即便上游训练数据经过严格有害内容过滤,不良行为特征仍能通过纯数字序列等看似无害的载体,经由行业通用的模型蒸馏技术传递给下游小模型。这一发现打破了原有AI安全防护逻辑,给大模型产业化落地的安全体系敲响了警钟。

研究团队设计了一组清晰的对照实验验证这一现象:研究人员先在作为“老师”的上游大模型中植入特殊行为特征——让模型生成内容时强烈偏好“猫头鹰”这个关键词。随后,要求这个已经植入偏好的老师模型生成一批无语义的纯数字序列,序列中没有任何和“猫头鹰”、鸟类相关的语义暗示。

结果完全超出原有认知:用这批纯数字序列训练的下游“学生模型”,居然成功习得了对“猫头鹰”的强烈偏好,哪怕所有训练数据都经过过滤,不存在任何和目标特征相关的显性内容,隐性特征依然完成了“隔空传染”

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。