登录体验完整功能(收藏、点赞、评论等)

涉嫌爬取数百万YouTube视频训AI 苹果亚马逊OpenAI遭集体起诉

2026年4月,Ted Entertainment、Matt Fisher、Golfholics三家YouTube频道共同发起集体诉讼,指控苹果、亚马逊、OpenAI绕过平台反爬虫机制,非法下载数百万条视频数据用于AI模型训练,争议核心为包含数千万训练样本的Panda-70M数据集,本次诉讼也被视为AI音视频训练数据版权纠纷的标志性案件。

AI生成配图图源: 图像由AI生成

随着多模态大模型的技术竞争进入白热化,海量音视频训练数据的需求暴涨,原本处于灰色地带的爬取公开平台内容行为,正在面临越来越明确的合规挑战。

本次诉讼的争议焦点完全集中在**Panda-70M数据集**之上。根据原告方提交的材料,该数据集通过收录视频网址、ID及时间戳的方式,将海量YouTube视频拆分为超过7000万个独立的训练样本,可供AI模型快速学习视频中的画面、声音、叙事逻辑等信息。

原告方指出,要提取这些视频片段用于训练,苹果、亚马逊、OpenAI的技术团队必须绕过YouTube为保护创作者权益设置的反爬虫机制和版权保护系统,反复访问、截取原创视频内容,本质属于未经授权的非法使用。目前已有明确证据支撑这一指控:苹果团队在其视频生成模型STIV的公开研究论文中,曾明确提及使用Panda-70M数据集完成训练环节。

此前AI领域的版权诉讼大多集中在文字、图片类训练数据领域,音视频内容由于爬取难度高、使用场景相对有限,相关争议出现较晚。但随着多模态大模型、视频生成AI的快速落地,科技公司对高质量视频训练数据的需求在过去两年暴涨了300%以上,YouTube作为全球最大的UGC视频平台,拥有超过10亿条原创视频内容,自然成为各家公司爬取的核心目标。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创