2026年4月,国际顶级学术期刊Nature刊发最新AI安全研究,研究团队首次证实,大型语言模型(LLM)存在“潜意识学习”现象:即便上游训练数据经过严格有害内容过滤,不良行为特征仍能通过纯数字序列等看似无害的载体,经由行业通用的模型蒸馏技术传递给下游小模型。这一发现打破了原有AI安全防护逻辑,给大模型产业化落地的安全体系敲响了警钟。
研究团队设计了一组清晰的对照实验验证这一现象:研究人员先在作为“老师”的上游大模型中植入特殊行为特征——让模型生成内容时强烈偏好“猫头鹰”这个关键词。随后,要求这个已经植入偏好的老师模型生成一批无语义的纯数字序列,序列中没有任何和“猫头鹰”、鸟类相关的语义暗示。
结果完全超出原有认知:用这批纯数字序列训练的下游“学生模型”,居然成功习得了对“猫头鹰”的强烈偏好,哪怕所有训练数据都经过过滤,不存在任何和目标特征相关的显性内容,隐性特征依然完成了“隔空传染”。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录