少找工具,多做创作

GitHub调整隐私政策 2026年起私有代码默认纳入AI训练数据集

全球最大代码托管平台GitHub于2026年3月26日官宣,将自2026年4月24日起调整隐私政策,默认采集Copilot免费版、个人版、专业增强版用户的交互数据用于AI模型训练,连用户开启Copilot编辑的私有仓库代码也纳入采集范围。该反转政策被开发者戏称为「CTRL-Z操作」,GitHub首席产品官马里奥·罗德里格斯的后续解释也未能平息争议,引发全球开发者社区热议。

截至3月27日,Reddit编程板块、V2EX、GitHub官方反馈区的相关讨论帖累计已经超过12万条,不少开发者晒出自己收到的政策更新邮件,吐槽“攒了三年的私有项目代码,还没上线就先成了AI的免费养料”。部分国内开发者已经开始测试将私有仓库迁移至GitLab、Gitee等其他托管平台,规避数据被采集的风险。

作为全球占比超过80%的代码托管平台,GitHub此前曾多次在公开场合承诺,不会动用用户私有仓库的任何数据用于商业用途,这也是开发者愿意将核心代码、未公开项目放在其平台的核心原因。

而此次更新的隐私条款直接打破了这一延续3年的承诺,该政策将于2026年4月24日正式生效:Copilot全序列付费及免费用户均被默认纳入数据采集范围,平台将自动抓取用户使用Copilot时的代码片段、输入输出内容、光标上下文、甚至文件名和目录结构等全链路交互数据,用于旗下代码大模型的迭代训练。

最受关注的条款在于,即便代码存储在私有仓库内,只要用户编辑时开启了Copilot功能,相关代码片段就会被系统自动摄取,用户如果想要退出采集,必须手动到隐私设置中关闭对应选项。这一操作也被开发者戏称为典型的「CTRL-Z(撤销)」操作,直接推翻了此前的所有隐私承诺。

此次政策引发反弹的核心,在于开发者对私有仓库私密性的信任被击穿。对于大量独立开发者、小型创业团队而言,GitHub私有仓库是其存储未公开项目、核心算法逻辑的主要载体,不少团队甚至将还未申请专利的技术方案、商业项目的核心代码放在私有仓库中。

不少开发者指出,即便GitHub宣称对采集的数据做了脱敏处理,也无法避免核心逻辑被模型学习后泄露给第三方的风险:一旦相似的代码逻辑被Copilot生成给其他用户,原创开发者的知识产权根本无法得到保障。

GitHub首席产品官马里奥·罗德里格斯在后续的官方回应中表示,内部测试数据显示,加入私有场景的代码片段后,Copilot的代码生成准确率可提升37%,且平台已经设置了严格的过滤机制,不会采集涉及密钥、身份证号等敏感信息的内容。但这一解释并未获得社区认可,截至发稿,官方反馈区要求撤回该政策的请愿已经获得超过27万签名。

在不少行业观察者看来,GitHub此次政策调整并非个例,而是AI行业训练数据存量见顶后,企业向私有用户数据要增量的典型信号。

此前代码大模型的训练数据主要来自GitHub公开仓库,经过过去4年的挖掘,高质量的公开代码数据已经几乎被开采殆尽,想要进一步提升模型效果,必须获取更多真实场景下的非公开代码数据。而GitHub背靠微软,旗下Copilot已经拥有超过2300万月活用户,其掌握的海量用户交互数据,是其他平台无法比拟的优势。

值得注意的是,欧盟数字市场监管部门已经就该政策启动初步调查,核实其是否违反了欧盟《数字服务法案》中关于用户数据权属的相关规定,后续如果认定违规,GitHub可能面临最高年营收6%的罚款。目前GitHub尚未对监管的调查和社区的请愿作出进一步回应,这一政策最终能否落地,仍存在不小的变数。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创