2026年7月,全球云服务厂商Cloudflare发布爬虫管控新规,要求所有AI厂商于9月15日前完成搜索爬虫与模型训练、AI代理专用爬虫的拆分,未做区分的混合爬虫访问带广告页面将被自动拦截,新规覆盖新入驻客户、老用户新建站点及全部免费用户。目前谷歌已推出站点专属屏蔽工具,但尚未彻底割裂搜索服务与AI数据采集的需求关联。

长期以来,全球多数站点管理者都对搜索引擎爬虫保持开放态度,允许其收录内容供用户检索,但对AI厂商的大规模无偿采集普遍持抵触态度——大量原创内容被抓取用于大语言模型训练,站点不仅无法获得收益,反而可能因为AI生成内容的分流损失原有流量。这种权责不对等的现状,也是本次Cloudflare调整规则的核心动因。
过去AI厂商大多使用混合爬虫完成多类任务,以谷歌爬虫为例,其同时承担普通搜索收录与AI训练数据采集功能,站点管理者几乎无法做到“只放行搜索请求、拦截训练抓取”,这种模糊的爬虫属性也引发了大量版权争议。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录