2026年4月,Ted Entertainment、Matt Fisher、Golfholics三家YouTube频道共同发起集体诉讼,指控苹果、亚马逊、OpenAI绕过平台反爬虫机制,非法下载数百万条视频数据用于AI模型训练,争议核心为包含数千万训练样本的Panda-70M数据集,本次诉讼也被视为AI音视频训练数据版权纠纷的标志性案件。
图源: 图像由AI生成随着多模态大模型的技术竞争进入白热化,海量音视频训练数据的需求暴涨,原本处于灰色地带的爬取公开平台内容行为,正在面临越来越明确的合规挑战。
本次诉讼的争议焦点完全集中在**Panda-70M数据集**之上。根据原告方提交的材料,该数据集通过收录视频网址、ID及时间戳的方式,将海量YouTube视频拆分为超过7000万个独立的训练样本,可供AI模型快速学习视频中的画面、声音、叙事逻辑等信息。
原告方指出,要提取这些视频片段用于训练,苹果、亚马逊、OpenAI的技术团队必须绕过YouTube为保护创作者权益设置的反爬虫机制和版权保护系统,反复访问、截取原创视频内容,本质属于未经授权的非法使用。目前已有明确证据支撑这一指控:苹果团队在其视频生成模型STIV的公开研究论文中,曾明确提及使用Panda-70M数据集完成训练环节。
此前AI领域的版权诉讼大多集中在文字、图片类训练数据领域,音视频内容由于爬取难度高、使用场景相对有限,相关争议出现较晚。但随着多模态大模型、视频生成AI的快速落地,科技公司对高质量视频训练数据的需求在过去两年暴涨了300%以上,YouTube作为全球最大的UGC视频平台,拥有超过10亿条原创视频内容,自然成为各家公司爬取的核心目标。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
17 分钟前
腾讯云近日在云治理领域推出两款AI原生产品CloudQ与AndonQ,正式扩容其“龙虾家族”AI管云产品矩阵。基于大模型与Agent技术,两款产品将传统多云管理的GUI交互升级为自然语言交互,解决行业长期存在的运维切换繁琐、跨云排查低效、风险汇总滞后等痛点,标志着国内多云治理迈入对话式交互新阶段。

44 分钟前
2026年4月,国产多模态AI赛道再添新玩家,京东推出全新一体化空间图像编辑大模型JoyAI-Image-Edit,据资深科技作者江宇调研报道,该模型基准评测性能追平谷歌Gemini 2.5 Pro,在空间编辑任务上表现超越主流视频模型。本次京东同步开放开源,结合自身供应链优势推进落地,主打电商内容生成、具身智能训练数据生产场景。

47 分钟前
当前全球企业落地生成式AI的过程中,自研、第三方AI代理数量快速扩张,普遍面临管控分散、权责不清、生命周期难以管理的“AI代理泛滥”问题。亚马逊AWS近日针对这一行业痛点推出全新的Bedrock Agent Registry集中注册表工具,旨在为企业提供统一的AI代理可见性、所有权归属管理与全生命周期管控能力,帮助企业降低AI规模化落地的治理风险。

1 小时前
4月10日,清华系AI视频领域初创企业生数科技宣布完成近20亿元人民币B轮融资,本轮融资由阿里云领投,中网投、九安海棠、好未来等机构参与战略投资,包括BV百度风投在内的多家原有股东追加投资。这是生数科技两个月内获得的第二笔大额融资,叠加此前各轮后,其公开累计融资总额已突破25亿元,投资方汇聚多家头部互联网企业与顶级投资机构。

1 小时前
4月10日,外媒The Information援引知情人士消息,首次披露埃隆·马斯克旗下太空企业SpaceX与AI子公司xAI的2025年合并财务数据。这份从未公开的财报显示,SpaceX全年营收超过185亿美元,约合人民币1267亿元,合并口径下净亏损近50亿美元,折合人民币约342亿元,亏损主要来自xAI的大模型研发投入,引发AI行业对前沿研发成本模式的关注。

3 小时前
当前多AI智能体协作是生成式AI落地企业复杂场景的核心方向之一,不少项目在测试部署中都出现了任务混乱、效率低下等问题。近日行业分析指出,超六成该类项目的协作故障并非源于AI智能体本身能力缺陷,问题核心出在连接不同智能体的协调层架构缺失,这一结论为行业梳理AI智能体落地瓶颈指明了新方向。

3 小时前
2026年4月,字节跳动旗下红果免费短剧宣布行业标志性调整:将原有分开排名的真人实拍短剧与AI仿真人短剧,合并入同一热播总榜统一排名。据DataEye研究院监测,4月5日AI生成短剧《菩提临世真人AI版》首次登顶总榜榜首,成为AI内容热度超越传统实拍内容的里程碑。目前AI短剧制作成本仅为传统真人短剧的十分之一,正深刻改变短剧行业格局。

3 小时前
网络研究机构Graphite于2026年4月发布最新调查报告,通过Surfer AI检测工具分析65000个网址后得出结论:当前全球互联网上的AI生成内容占比已经正式超越人类原创内容。该工具依托覆盖18年的互联网网页数据库,每月更新30亿至50亿个网页,自2022年ChatGPT发布以来,AI生成内容占比呈现陡增趋势,这一结果也引发了AI行业对创意枯竭与模型发展风险的讨论。