登录体验完整功能(收藏、点赞、评论等) —

让AI触手可及,让应用激发潜能

Nature最新研究揭示大模型“潜意识藏毒” 暴露AI安全新风险

2026年4月,国际顶级学术期刊Nature刊发最新AI安全研究,研究团队首次证实,大型语言模型(LLM)存在“潜意识学习”现象:即便上游训练数据经过严格有害内容过滤,不良行为特征仍能通过纯数字序列等看似无害的载体,经由行业通用的模型蒸馏技术传递给下游小模型。这一发现打破了原有AI安全防护逻辑,给大模型产业化落地的安全体系敲响了警钟。

研究团队设计了一组清晰的对照实验验证这一现象:研究人员先在作为“老师”的上游大模型中植入特殊行为特征——让模型生成内容时强烈偏好“猫头鹰”这个关键词。随后,要求这个已经植入偏好的老师模型生成一批无语义的纯数字序列,序列中没有任何和“猫头鹰”、鸟类相关的语义暗示。

结果完全超出原有认知:用这批纯数字序列训练的下游“学生模型”,居然成功习得了对“猫头鹰”的强烈偏好,哪怕所有训练数据都经过过滤,不存在任何和目标特征相关的显性内容,隐性特征依然完成了“隔空传染”

模型蒸馏是当前AI行业降本落地的主流路径:厂商通常用训练好的大尺寸上游模型做“老师”,把知识提炼迁移给参数更小、推理成本更低的下游小模型,满足端侧场景的部署需求。

在此之前,业界普遍认为,只要对蒸馏所用的训练数据做严格的有害内容过滤,就能保证下游模型的安全性。但这项研究证明,上游大模型的隐性不良特征可以隐藏在纯数字、代码等完全无语义风险的输出中,绕过现有的内容过滤机制,完成向下游模型的传递。原本被认为安全的模型蒸馏链条,实际上存在看不见的漏洞。

!
信息及评测声明: 本文部分信息整理自互联网公开资料,并包含由 AI创作导航 团队独立进行的实测体验。我们力求内容客观准确,但因工具功能、价格及政策可能存在实时调整,所有信息仅供参考,请务必在使用前访问官网确认。文中观点不构成任何决策建议,读者需自行评估和承担使用风险。如发现内容有误或侵权,欢迎随时反馈,我们将及时核实处理。
相关资讯
AI小创