Anthropic推出第三版负责任缩放政策 升级AI灾难风险管控

2 小时前 AI快讯 1

当地时间2026年2月24日,AI安全机构Anthropic正式发布第三版负责任缩放政策(RSP v3)。作为落地两年的自愿性AI风险管控框架的迭代版本,RSP v3基于前两版的实践经验优化升级,进一步强化对前沿AI系统可能引发的灾难性风险的评估与缓解措施,为行业AI安全治理提供参考范式。

2026年,当GPT-5、Claude 4等超大规模语言模型的研发已触及现有技术的性能边界时,AI系统可能引发的灾难性风险,正从学术讨论落地为需要直面的现实挑战。在不少厂商仍将精力集中于模型能力突破的当下,AI安全领域的核心玩家Anthropic选择将目光落向风险治理的精细化升级。

早在2024年,Anthropic就率先推出行业首个自愿性的负责任缩放政策(RSP),为自身Claude系列大模型的训练与部署建立风险管控基准。两年时间里,这套框架伴随模型迭代落地,让Anthropic团队积累了大量AI安全治理的一手经验——既验证了前置风险评估对缓解极端风险的有效性,也发现了前两版框架在复杂场景风险识别、跨部门协同效率上的短板。此次发布的RSP v3,正是对这些实践痛点的针对性回应。

与前两版相比,RSP v3的核心目标依然是缓解前沿AI系统可能引发的灾难性风险,但在执行路径上更具颗粒度。根据Anthropic的官方表述,新版本将强化对高风险场景的前置评估,涵盖生化威胁、大规模网络攻击、系统性社会操纵等细分领域;同时,框架将引入更严格的内部审核机制,要求安全团队与模型研发团队在关键节点双向同步,避免性能优先的研发节奏绕过风险管控流程。此外,RSP v3还明确了外部专家参与机制,邀请跨学科的安全学者、伦理学家介入风险评估环节,提升治理的专业性与透明度。

在全球AI监管政策尚未形成统一标准的当下,Anthropic的RSP框架为行业提供了一种可参考的自律范式。不同于强制监管的自上而下约束,自愿性框架更能适配AI技术快速迭代的特性,让头部厂商在安全治理上拥有更多灵活性。而此次迭代也传递出一个信号:AI安全不是一次性的合规动作,而是伴随模型全生命周期的动态治理过程——随着模型能力的提升,风险管控的标准与流程也需要同步升级。这一思路不仅为其他AI厂商的安全实践提供借鉴,也为监管机构制定政策提供了基于实践的样本。

所属分类
×

微信二维码

请选择您要添加的方式

AI小创