斯坦福耶鲁研究：OpenAI等大模型可复现畅销小说完整原文

6 小时前 AI快讯 0

斯坦福与耶鲁大学联合研究显示，OpenAI、谷歌、Meta等巨头的顶尖大语言模型，可通过特定提示词生成《哈利·波特》《权力的游戏》等畅销小说的几乎完整原文。这一发现直接冲击了AI企业“仅学习不存储”的核心抗辩逻辑，或将改变全球数十起AI版权诉讼的走向，引发行业对大模型训练数据版权边界的深度反思。

当用户向GPT-4、Gemini等顶尖大模型输入“生成《哈利·波特与魔法石》第10章的完整内容”这类提示词时，得到的回复可能并非模型“创作”的新文本，而是与原著几乎逐字相同的原文片段——这正是研究中最引人震惊的细节。

研究团队测试后发现，这些模型的“记忆”能力远超行业此前的普遍认知。不仅零散的名句或桥段可被精准唤起，部分热门畅销书的完整章节甚至全文，都能通过特定提示词被模型几乎无差别的复现，涉及作品覆盖全球顶级IP的版权内容。

在此前全球范围内的多起AI版权诉讼中，OpenAI、谷歌等企业始终以“大模型仅从训练数据中学习语言模式与创作规律，并未存储受版权保护的原始内容”作为核心抗辩理由。但本次研究的结果直接打破了这一逻辑：若模型能输出与原文高度一致的完整内容，本质上证明其训练过程中已存储了版权作品的副本，而非仅仅“学习”了模式。

AI及法律专家向媒体表示，这一发现可能成为全球数十起AI版权诉讼的关键转折点。无论是美国作家协会集体起诉OpenAI的案件，还是其他创作者针对AI企业的维权行动，“存储而非学习”的定性将大幅削弱AI企业的抗辩力度，甚至可能直接影响案件的最终判决结果。

大模型复现版权作品的能力，不仅是技术层面的“记忆风险”，更是AI行业发展与版权保护之间的核心矛盾暴露。目前，已有业内人士提出，AI企业需要重新审视训练数据的版权合规性，比如建立清晰的版权内容授权机制，或通过技术手段让大模型“遗忘”具体的版权原文片段。

监管层面也可能因此加快规则细化。未来，关于大模型训练数据的版权边界、AI生成内容的权属界定等问题，或将出台更明确的行业标准，平衡AI技术的创新发展与创作者的合法权益，避免技术进步以牺牲版权保护为代价。