2026年6月2日,微软正式推出开源AI测试框架Adaptive Spec-driven Scoring for Evaluation and Regression Testing(简称ASSERT),面向AI应用开发者提供低门槛测试能力,用户仅需输入自然语言文本描述即可快速生成AI行为测试、回归测试用例,大幅降低大模型落地前的验证成本,有望破解当前大模型行为不可预期的行业普遍痛点。

对于开发生成式AI应用的团队而言,如何高效验证大模型在各类边缘场景下的行为合规性,一直是上线前最耗时的环节之一——传统的测试用例编写需要投入大量研发资源,且很难覆盖所有潜在的异常提问场景,不少团队为了赶上线进度,不得不压缩测试环节,最终导致产品上线后出现各类预期外的输出问题。
当前生成式AI应用的落地速度不断加快,但对应的测试环节仍存在明显短板。不同于传统软件的确定性逻辑,大模型的生成式特性使得其输出存在一定随机性,要验证其在各类场景下的合规性、安全性,需要搭建覆盖大量边缘场景的测试用例库。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录