Anthropic推出第三版负责任缩放政策升级AI灾难风险管控

2 小时前 AI快讯 1

当地时间2026年2月24日，AI安全机构Anthropic正式发布第三版负责任缩放政策（RSP v3）。作为落地两年的自愿性AI风险管控框架的迭代版本，RSP v3基于前两版的实践经验优化升级，进一步强化对前沿AI系统可能引发的灾难性风险的评估与缓解措施，为行业AI安全治理提供参考范式。

2026年，当GPT-5、Claude 4等超大规模语言模型的研发已触及现有技术的性能边界时，AI系统可能引发的灾难性风险，正从学术讨论落地为需要直面的现实挑战。在不少厂商仍将精力集中于模型能力突破的当下，AI安全领域的核心玩家Anthropic选择将目光落向风险治理的精细化升级。

早在2024年，Anthropic就率先推出行业首个自愿性的负责任缩放政策（RSP），为自身Claude系列大模型的训练与部署建立风险管控基准。两年时间里，这套框架伴随模型迭代落地，让Anthropic团队积累了大量AI安全治理的一手经验——既验证了前置风险评估对缓解极端风险的有效性，也发现了前两版框架在复杂场景风险识别、跨部门协同效率上的短板。此次发布的RSP v3，正是对这些实践痛点的针对性回应。

与前两版相比，RSP v3的核心目标依然是缓解前沿AI系统可能引发的灾难性风险，但在执行路径上更具颗粒度。根据Anthropic的官方表述，新版本将强化对高风险场景的前置评估，涵盖生化威胁、大规模网络攻击、系统性社会操纵等细分领域；同时，框架将引入更严格的内部审核机制，要求安全团队与模型研发团队在关键节点双向同步，避免性能优先的研发节奏绕过风险管控流程。此外，RSP v3还明确了外部专家参与机制，邀请跨学科的安全学者、伦理学家介入风险评估环节，提升治理的专业性与透明度。

在全球AI监管政策尚未形成统一标准的当下，Anthropic的RSP框架为行业提供了一种可参考的自律范式。不同于强制监管的自上而下约束，自愿性框架更能适配AI技术快速迭代的特性，让头部厂商在安全治理上拥有更多灵活性。而此次迭代也传递出一个信号：AI安全不是一次性的合规动作，而是伴随模型全生命周期的动态治理过程——随着模型能力的提升，风险管控的标准与流程也需要同步升级。这一思路不仅为其他AI厂商的安全实践提供借鉴，也为监管机构制定政策提供了基于实践的样本。