斯坦福耶鲁研究:OpenAI等大模型可复现畅销小说完整原文

6 小时前 AI快讯 0

斯坦福与耶鲁大学联合研究显示,OpenAI谷歌、Meta等巨头的顶尖大语言模型,可通过特定提示词生成《哈利·波特》《权力的游戏》等畅销小说的几乎完整原文。这一发现直接冲击了AI企业“仅学习不存储”的核心抗辩逻辑,或将改变全球数十起AI版权诉讼的走向,引发行业对大模型训练数据版权边界的深度反思。

当用户向GPT-4、Gemini等顶尖大模型输入“生成《哈利·波特与魔法石》第10章的完整内容”这类提示词时,得到的回复可能并非模型“创作”的新文本,而是与原著几乎逐字相同的原文片段——这正是研究中最引人震惊的细节。

研究团队测试后发现,这些模型的“记忆”能力远超行业此前的普遍认知。不仅零散的名句或桥段可被精准唤起,部分热门畅销书的完整章节甚至全文,都能通过特定提示词被模型几乎无差别的复现,涉及作品覆盖全球顶级IP的版权内容。

在此前全球范围内的多起AI版权诉讼中,OpenAI、谷歌等企业始终以“大模型仅从训练数据中学习语言模式与创作规律,并未存储受版权保护的原始内容”作为核心抗辩理由。但本次研究的结果直接打破了这一逻辑:若模型能输出与原文高度一致的完整内容,本质上证明其训练过程中已存储了版权作品的副本,而非仅仅“学习”了模式。

AI及法律专家向媒体表示,这一发现可能成为全球数十起AI版权诉讼的关键转折点。无论是美国作家协会集体起诉OpenAI的案件,还是其他创作者针对AI企业的维权行动,“存储而非学习”的定性将大幅削弱AI企业的抗辩力度,甚至可能直接影响案件的最终判决结果。

大模型复现版权作品的能力,不仅是技术层面的“记忆风险”,更是AI行业发展与版权保护之间的核心矛盾暴露。目前,已有业内人士提出,AI企业需要重新审视训练数据的版权合规性,比如建立清晰的版权内容授权机制,或通过技术手段让大模型“遗忘”具体的版权原文片段。

监管层面也可能因此加快规则细化。未来,关于大模型训练数据的版权边界、AI生成内容的权属界定等问题,或将出台更明确的行业标准,平衡AI技术的创新发展与创作者的合法权益,避免技术进步以牺牲版权保护为代价。

所属分类
×

微信二维码

请选择您要添加的方式

AI小创