少找工具,多做创作

GitHub官宣2026年4月起默认采集Copilot用户数据训练AI模型

2026年3月26日,全球最大代码托管平台GitHub宣布将于2026年4月24日更新隐私政策,默认采集Copilot Free、Pro、Pro+版本用户的代码片段、交互记录等数据训练AI模型。GitHub首席产品官Mario Rodriguez透露,微软内部预测试显示该方式可显著提升代码建议接受率,目前该政策已引发开发者群体对数据确权问题的广泛讨论。

不少海外开发者近日反馈,打开GitHub时已收到关于Copilot服务的政策变更弹窗,这条将于1个月后正式生效的规则调整,3月26日一经公布就冲上了Hacker News、Reddit编程板块的热榜首位,相关讨论帖24小时内互动量突破10万次。

根据GitHub公布的官方说明,此次数据采集的覆盖范围仅针对个人用户序列,包括Copilot免费版、Pro版及Pro+版用户,受企业合同约束的商业版、企业版用户,以及教育版用户暂不受此次调整影响。

采集的内容涵盖用户与Copilot交互的全链路数据,包括模型输入输出内容、代码片段、上下文参考信息、关联仓库结构,以及Copilot Chat的聊天交互记录。需要注意的是,此次政策采用预设加入(Opt-out)机制,用户如果不想自己的数据被用于模型训练,需要手动进入账户隐私设置页,关闭对应授权选项方可退出。

GitHub首席产品官Mario Rodriguez对外解释称,引入真实用户交互数据训练模型,核心目标是提升Copilot代码建议的准确率和安全性,减少生成代码的漏洞风险。目前基于微软内部积累的交互数据完成的预测试显示,引入用户真实场景数据后,Copilot的代码建议用户接受率提升了近20%,生成代码的合规性也有明显改善。

GitHub方面同时强调,这种基于用户交互数据优化模型的方式,并非行业个例,Anthropic、JetBrains、微软等AI工具厂商均采用类似的训练数据采集规则。

尽管官方给出了合理的优化理由,但此次的预设加入机制还是引发了开发者社区的大量质疑。不少开发者提出,部分用户可能不会关注到政策变更提示,在不知情的情况下就授权平台采集自己的私有代码数据,而现有规则并未明确私有仓库代码的知识产权归属,一旦训练后的模型生成高度相似的代码,很可能引发新的版权纠纷。

此前Copilot就曾因生成受版权保护的代码,被开发者集体起诉,相关案件至今仍在审理过程中。

事实上,随着AI编程工具的普及率持续提升,如何平衡模型迭代的训练数据需求和用户的数据权益,已经成为整个行业面临的共性问题。一方面,真实场景的用户交互数据是提升AI模型能力的核心资源,另一方面,数据确权、隐私保护的相关规则尚未完善,此前已有多家AI工具厂商因默认采集用户数据遭到监管部门的处罚。此次GitHub的政策调整,也再次将AI工具的数据治理问题推到了公众视野中。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创