当地时间2026年2月24日,AI安全机构Anthropic正式发布第三版负责任缩放政策(RSP v3)。作为落地两年的自愿性AI风险管控框架的迭代版本,RSP v3基于前两版的实践经验优化升级,进一步强化对前沿AI系统可能引发的灾难性风险的评估与缓解措施,为行业AI安全治理提供参考范式。 2026年,当GPT-5、Claude 4等超大规模语言模型的研发已触及现有技术的性能边界时,AI系统可能引发的灾难性风险,正从学术讨论落地为需要直面的现实挑战。在不少厂商仍将精力集中于模型能力突破的当下,AI安全领域的核心玩家Anthropic选择将目光落向风险治理的精细化升级。 早在2024年,Anthropic就率先推出行业首个自愿性的负责任缩放政策(RSP),为自身Claude系列大模型的训练与部署建立风险管控基准。两年时间里,这套框架伴随模型迭代落地,让Anthropic团队积累了大量AI安全治理的一手经验——既验证了前置风险评估对缓解极端风险的有效性,也发现了前两版框架在复杂场景风险识别、跨部门协同效率上的短板。此次发布的RSP v3,正是对这些实践痛点的针对性回应。 与前两版相比,RS...