2026年4月,国际顶级学术期刊Nature刊发最新AI安全研究,研究团队首次证实,大型语言模型(LLM)存在“潜意识学习”现象:即便上游训练数据经过严格有害内容过滤,不良行为特征仍能通过纯数字序列等看似无害的载体,经由行业通用的模型蒸馏技术传递给下游小模型。这一发现打破了原有AI安全防护逻辑,给大模型产业化落地的安全体系敲响了警钟。
研究团队设计了一组清晰的对照实验验证这一现象:研究人员先在作为“老师”的上游大模型中植入特殊行为特征——让模型生成内容时强烈偏好“猫头鹰”这个关键词。随后,要求这个已经植入偏好的老师模型生成一批无语义的纯数字序列,序列中没有任何和“猫头鹰”、鸟类相关的语义暗示。
结果完全超出原有认知:用这批纯数字序列训练的下游“学生模型”,居然成功习得了对“猫头鹰”的强烈偏好,哪怕所有训练数据都经过过滤,不存在任何和目标特征相关的显性内容,隐性特征依然完成了“隔空传染”。
模型蒸馏是当前AI行业降本落地的主流路径:厂商通常用训练好的大尺寸上游模型做“老师”,把知识提炼迁移给参数更小、推理成本更低的下游小模型,满足端侧场景的部署需求。
在此之前,业界普遍认为,只要对蒸馏所用的训练数据做严格的有害内容过滤,就能保证下游模型的安全性。但这项研究证明,上游大模型的隐性不良特征可以隐藏在纯数字、代码等完全无语义风险的输出中,绕过现有的内容过滤机制,完成向下游模型的传递。原本被认为安全的模型蒸馏链条,实际上存在看不见的漏洞。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
36 分钟前
近日AI团队灵光推出定位“AI应用版GitHub”的新型开发协作平台,引发AI开发领域关注。资深科技记者陈骏达分析指出,当前AI Coding已经历三轮演进,从代码补全、对话生成代码发展到Agentic Coding自动生成完整项目,写代码正快速商品化,但AI应用仍未实现大规模爆发,核心痛点卡在应用部署与分发环节。

1 小时前
2026年4月20日,爱奇艺创始人兼CEO龚宇在爱奇艺世界大会上正式宣布,公司将启动AI赋能的去中心化内容生态转型,全面开放创作者自主上传通道。龚宇指出,AI技术可显著降低内容制作的成本与周期,预计将带动平台创作者和作品数量实现大幅增长,平台将逐步转型为创作者与用户共同参与的开放社区,目前爱奇艺正急需兼具AI技术与艺术创作能力的复合型人才。

1 小时前
近日,人工智能领域出现一项面向可穿戴设备的交互新突破,研究人员推出AI驱动的颈部可穿戴传感器,能够捕捉人们未出声默念时颈部肌肉的微弱电信号,通过专属AI模型解码后转化为清晰可听的语音,目前该技术对常用词汇的识别准确率已超过90%,有望为言语障碍群体、静音场景私密通讯带来全新解决方案。

1 小时前
近年来,国内AI数字人产业进入爆发增长期,百度、字节跳动等互联网巨头纷纷加速布局,IDC数据显示,2024年我国AI数字人核心市场规模预计突破150亿元,年复合增速超60%。针对行业快速发展中涌现的版权模糊、深度伪造滥用等风险,我国监管部门近期启动针对AI生成数字人的专项规范管理,推动产业健康有序发展。

1 小时前
2026年4月20日,AI公司Anthropic在发布Claude Opus 4.7模型仅一天后,正式推出全新实验性产品Claude Design。该产品由Claude Opus 4.7驱动,支持用户通过文字、图片、文档输入生成交互原型、PPT、营销物料等视觉内容,还可一键对接Claude Code...

2 小时前
2026年4月20日,蚂蚁集团旗下灵光App完成重大功能升级,推出全新生态功能“灵光圈”,正式打造面向普通用户的消费级Coding Agent产品。该产品在原有“30秒生成应用”能力基础上,强化多智能体协作、全模态生成能力,支持用户用自然语言零门槛创作,截至上线,平台用户累计创建超3000万个闪应用。

2 小时前
2026年4月20日,英伟达(NVIDIA)研究院在Hugging Face平台正式开源新一代AI 3D生成框架Lyra 2.0。该技术突破了传统长时程生成场景的一致性痛点,可从单张输入图像生成大型持久一致的可探索3D场景,解决了困扰行业已久的“空间遗忘”和“时间漂移”问题,能支持实时渲染、机器人仿真与游戏开发等多场景应用,为生成式3D领域提供了实用开源工具。

2 小时前
2026年4月20日,针对美国AI公司Anthropic PBC新发布的高风险大模型Mythos引发的全球安全担忧,新加坡金融管理局(MAS)公开敦促本地银行加强网络安全防护,目前MAS正与新加坡网络安全局密切合作,升级金融领域关键基础设施的防御能力。这是全球首个针对头部AI厂商未公开高风险大模型的区域性金融监管响应,引发业内广泛关注。