多家AI巨头大模型被曝存储版权作品,面临重大侵权风险

7 小时前 AI快讯 0

近期斯坦福与耶鲁大学的联合研究显示,OpenAI谷歌Meta、Anthropic及xAI等多家科技巨头的大语言模型,对训练数据的记忆量远超行业此前认知。其中谷歌Gemini 2.5可高精度复现《哈利·波特与魔法石》76.8%的内容,直接挑战AI企业声称不存储版权作品的核心抗辩,或将使这些巨头面临重大版权侵权责任,引发行业对合规与隐私问题的广泛担忧。

当研究人员向谷歌Gemini 2.5输入特定引导提示词后,模型输出的文本中,竟有76.8%与《哈利·波特与魔法石》的内容完全吻合——这一来自斯坦福与耶鲁大学联合研究的结论,近期给全球AI巨头们的版权合规问题来了一记“实锤”。

此次研究针对OpenAI、谷歌、Meta、Anthropic及xAI旗下的主流大语言模型展开,测试素材涵盖13部全球畅销文学作品。研究人员通过设计特定提示词引导模型输出,结果显示,多款大模型能生成与版权作品几乎逐字相同的数千字内容,其对训练数据的记忆程度,远超AI行业长期以来声称的“仅学习内容特征、不存储原文”的范畴。

更值得注意的是,这种“记忆复现”并非个别案例,而是在多个巨头模型中均有体现。相关AI及法律专家在接受《金融时报》采访时指出,这一研究结果直接戳破了AI企业规避版权责任的核心逻辑,为版权方的维权行动提供了关键依据。

长期以来,AI行业的普遍抗辩理由是,大语言模型的训练过程仅为学习文本的语义特征与创作模式,并未存储受版权保护的作品原文,因此不构成侵权。但此次研究的数据清晰显示,部分模型可精准复现版权作品的大段内容,这意味着模型实际上存储了这些受保护的内容,完全符合版权侵权的核心判定标准。

一旦版权方发起集体诉讼,这些科技巨头可能面临巨额赔偿。更为严重的是,此次事件的影响还延伸至版权之外的领域:若大模型能如此精准地记忆训练数据,企业内部保密文档、用户个人隐私信息等敏感内容,也可能存在被模型存储并泄露的风险,这对AI行业的信任基础构成了新的挑战。

此次版权风波的发酵,或将倒逼AI行业重新审视训练数据的获取与使用模式。未来,AI企业可能需要更多采用授权版权内容、开源无版权素材或生成式合成数据作为训练基础,这无疑会大幅推高研发成本,尤其对中小AI企业而言,合规门槛的提升可能会加剧行业的马太效应。

同时,全球监管机构也可能借此出台更严格的AI合规政策,要求企业公开训练数据的来源、建立版权内容过滤机制等。这一系列变化,将推动AI行业从“快速扩张”向“合规优先”的方向转型,整个行业的发展节奏与竞争格局都可能因此重塑。

所属分类
×

微信二维码

请选择您要添加的方式

AI小创