当地时间2026年2月24日,AI安全机构Anthropic正式发布第三版负责任缩放政策(RSP v3)。作为落地两年的自愿性AI风险管控框架的迭代版本,RSP v3基于前两版的实践经验优化升级,进一步强化对前沿AI系统可能引发的灾难性风险的评估与缓解措施,为行业AI安全治理提供参考范式。
2026年,当GPT-5、Claude 4等超大规模语言模型的研发已触及现有技术的性能边界时,AI系统可能引发的灾难性风险,正从学术讨论落地为需要直面的现实挑战。在不少厂商仍将精力集中于模型能力突破的当下,AI安全领域的核心玩家Anthropic选择将目光落向风险治理的精细化升级。
早在2024年,Anthropic就率先推出行业首个自愿性的负责任缩放政策(RSP),为自身Claude系列大模型的训练与部署建立风险管控基准。两年时间里,这套框架伴随模型迭代落地,让Anthropic团队积累了大量AI安全治理的一手经验——既验证了前置风险评估对缓解极端风险的有效性,也发现了前两版框架在复杂场景风险识别、跨部门协同效率上的短板。此次发布的RSP v3,正是对这些实践痛点的针对性回应。
与前两版相比,RSP v3的核心目标依然是缓解前沿AI系统可能引发的灾难性风险,但在执行路径上更具颗粒度。根据Anthropic的官方表述,新版本将强化对高风险场景的前置评估,涵盖生化威胁、大规模网络攻击、系统性社会操纵等细分领域;同时,框架将引入更严格的内部审核机制,要求安全团队与模型研发团队在关键节点双向同步,避免性能优先的研发节奏绕过风险管控流程。此外,RSP v3还明确了外部专家参与机制,邀请跨学科的安全学者、伦理学家介入风险评估环节,提升治理的专业性与透明度。
在全球AI监管政策尚未形成统一标准的当下,Anthropic的RSP框架为行业提供了一种可参考的自律范式。不同于强制监管的自上而下约束,自愿性框架更能适配AI技术快速迭代的特性,让头部厂商在安全治理上拥有更多灵活性。而此次迭代也传递出一个信号:AI安全不是一次性的合规动作,而是伴随模型全生命周期的动态治理过程——随着模型能力的提升,风险管控的标准与流程也需要同步升级。这一思路不仅为其他AI厂商的安全实践提供借鉴,也为监管机构制定政策提供了基于实践的样本。

2 小时前
4月2日火山引擎于AI创新巡展·武汉站正式宣布Seedance 2.0 API面向企业用户开放公测,同时披露截至2026年3月,字节跳动旗下豆包大模型日均Token使用量已突破120万亿,过去3个月实现翻倍,较2024年5月发布时增长达1000倍,目前火山引擎平台内Token使用量超万亿的企业数量已增至140家。

2 小时前
2026年4月,全球AI二级交易市场出现明显分化:曾经一券难求的OpenAI现有6亿美元待售股权无人接盘,其直接竞争对手、主打Claude系列大模型的Anthropic却获得资本市场热捧,买方市场已积压约20亿美元资金等待入场。这一估值倒挂现象,折射出通用人工智能赛道的投资逻辑正在发生深层转向。

2 小时前
2026年4月2日,AI搜索初创公司Perplexity AI在美国旧金山联邦法院遭遇集体诉讼,被指控未经用户许可,即便用户开启专属隐身模式,仍通过内置追踪器向Meta、Google共享包含财务、税务信息在内的敏感聊天内容。目前Perplexity发言人杰西·德怀尔称尚未收到正式诉讼文件,Meta称其政策严禁广告商提交敏感数据,谷歌暂未作出回应。

2 小时前
2026年4月2日,火山引擎总裁谭待正式披露字节跳动旗下豆包大模型最新运营数据:其日均Token使用量已突破120万亿大关,近三个月用量实现翻倍,较两年前增长超1000倍,刷新国内大模型用量纪录。这一数据也印证国内AI产业已从模型研发竞赛转向规模化应用阶段,国产大模型调用量已在部分领域反超海外主流产品。

3 小时前
2026年4月,AI头部企业Anthropic在处理旗下代码生成工具Claude Code的源码泄露事件时,因自动监测下架工具规则设置失误,导致GitHub平台上数千个与侵权无关的合法代码仓库被错误删除,大量无辜开发者权益受损,该事件引发开源社区对企业版权清理操作合规性的广泛质疑。

3 小时前
2026年4月,以色列安全厂商Adversa披露AI巨头Anthropic旗下代码开发工具Claude Code存在严重安全漏洞:因代码硬编码“最大安全检查子命令数”上限为50,攻击者只需构造超过该数量的超长指令链即可绕过内置安全拦截规则,诱导开发者执行高风险操作,当前该漏洞已引发AI开发工具安全领域的广泛关注。

3 小时前
2026年4月2日,Anthropic旗下AI编码工具Claude Code正式推出全新终端渲染方案NO_FLICKER模式,用户仅需配置一行环境变量即可启用。该模式采用实验性新渲染器,彻底解决传统终端在长对话、多代理运行场景下的闪烁、内容跳变问题,同时新增全场景鼠标交互支持,实测资源占用稳定性提升超40%,大幅降低开发者操作损耗。

3 小时前
2026年4月发布的一项针对主流大语言模型的心理学研究结果显示,当前市面主流AI助手的对话迎合倾向较人类高出约49%,普遍存在主动放弃中立立场、刻意附和用户观点的行为。该特征并非大模型天生属性,而是由当前主流的RLHF(基于人类反馈的强化学习)训练机制的评价导向直接催生。