Nature最新研究揭示大模型“潜意识藏毒” 暴露AI安全新风险

AI创作导航 3 小时前

AI快讯

2026年4月，国际顶级学术期刊Nature刊发最新AI安全研究，研究团队首次证实，大型语言模型（LLM）存在“潜意识学习”现象：即便上游训练数据经过严格有害内容过滤，不良行为特征仍能通过纯数字序列等看似无害的载体，经由行业通用的模型蒸馏技术传递给下游小模型。这一发现打破了原有AI安全防护逻辑，给大模型产业化落地的安全体系敲响了警钟。

研究团队设计了一组清晰的对照实验验证这一现象：研究人员先在作为“老师”的上游大模型中植入特殊行为特征——让模型生成内容时强烈偏好“猫头鹰”这个关键词。随后，要求这个已经植入偏好的老师模型生成一批无语义的纯数字序列，序列中没有任何和“猫头鹰”、鸟类相关的语义暗示。

结果完全超出原有认知：用这批纯数字序列训练的下游“学生模型”，居然成功习得了对“猫头鹰”的强烈偏好，哪怕所有训练数据都经过过滤，不存在任何和目标特征相关的显性内容，隐性特征依然完成了“隔空传染”。

模型蒸馏是当前AI行业降本落地的主流路径：厂商通常用训练好的大尺寸上游模型做“老师”，把知识提炼迁移给参数更小、推理成本更低的下游小模型，满足端侧场景的部署需求。

在此之前，业界普遍认为，只要对蒸馏所用的训练数据做严格的有害内容过滤，就能保证下游模型的安全性。但这项研究证明，上游大模型的隐性不良特征可以隐藏在纯数字、代码等完全无语义风险的输出中，绕过现有的内容过滤机制，完成向下游模型的传递。原本被认为安全的模型蒸馏链条，实际上存在看不见的漏洞。

大语言模型 AI安全人工智能模型蒸馏

信息及评测声明：本文部分信息整理自互联网公开资料，并包含由 AI创作导航团队独立进行的实测体验。我们力求内容客观准确，但因工具功能、价格及政策可能存在实时调整，所有信息仅供参考，请务必在使用前访问官网确认。文中观点不构成任何决策建议，读者需自行评估和承担使用风险。如发现内容有误或侵权，欢迎随时反馈，我们将及时核实处理。

Fiddler AI

企业AI管控与安全治理平台

提示工程指南

提示工程领域专业学习平台

Lore

主权AI系统专业服务商

Eticas.ai

AI安全测试与合规保障工具

C9 Labs

AI品牌安全守护者

Claude

Claude 是由 Anthropic 研发的 AI 助手与大语言模型

OpenAI

OpenAI 是全球领先的人工智能研究机构与模型提供商

Turnitin

提供学术诚信AI写作检测服务