2026年4月,科技巨头Meta披露已推出全新内部数据采集工具,可将员工日常办公中的键盘敲击、鼠标移动、按钮点击等行为转化为结构化训练数据,用于旗下AI模型的迭代升级。该举措旨在填补当前AI训练的高质量交互数据缺口,预计将覆盖Meta内部数千名AI相关业务线员工,所有数据采集均将在合规框架下推进。
随着公开互联网数据的开采接近天花板,AI训练的“数据荒”已经成为制约大模型性能提升的核心瓶颈,头部科技企业都在试图开辟新的合规数据来源,Meta此次的内部数据采集计划正是这一趋势下的典型尝试。
过去几年,头部大模型厂商的训练数据主要来自公开互联网的文本、图片、视频内容,但随着AI训练对数据需求量呈指数级增长,公开数据的储备已经接近枯竭,同时版权纠纷的成本也在持续攀升。仅2025年一年,Meta就因为未经授权使用公开内容训练AI,累计支付的版权和解费用超过2亿美元,还面临多起集体诉讼的赔偿风险。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录