OpenAI于近期推出全新部署模拟(Deployment Simulation)技术,将AI模型预上线风险评估范围拓展至智能体编码场景,该技术通过回放过往生产环境对话、模拟工具调用流程,可在候选模型正式发布前提前预判非预期行为,大幅降低智能体类AI工具上线后的故障、安全风险,目前该技术已纳入OpenAI官方模型迭代的标准测试流程。

随着具备自主调用工具、执行代码能力的智能体AI加速落地,其预上线安全检测的缺口正在持续放大。仅2026年第一季度,全球范围内就有12起企业级AI编码助手故障事件,涉及生成恶意代码、越权访问数据库等问题,合计造成超过2700万美元的直接经济损失,而这些故障场景大多没有被传统测试用例覆盖。
OpenAI推出的部署模拟技术,核心逻辑是放弃传统的人工编写测试用例模式,转而将历史上所有生产环境中的真实用户交互数据导入待上线的候选模型,同时模拟配套的工具调用、代码执行反馈链路,相当于让候选模型在正式发布前,先完成过去数年所有真实用户请求的“模拟考”。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录