据AI产业研究院最新监测数据,当前国内82%的企业级AI项目交付效果不达预期,其中仅17%源于大模型本身质量缺陷,超7成问题出自效果评估体系缺失。业内近期首次提出「评估卫生(Eval Hygiene)」概念,呼吁建立全流程AI效果度量标准,解决过往人工抽查评估导致的效果偏差、合规风险等共性痛点。
某连锁零售企业今年3月上线的智能客服AI,上线前内部测试满意度达92%,但正式上线3个月后,相关用户投诉量反而较此前人工客服模式上涨40%。技术团队复盘发现,前期测试仅覆盖了10%的高频咨询场景,大量退换货、门店查询类的长尾问题,完全没有纳入前期评估维度,才导致实际体验和测试结果出现巨大偏差。
这不是个例。当下多数企业落地AI时都存在相同的逻辑误区:一旦实际使用效果不达预期,第一反应是更换能力更强的大模型,从OpenAI的GPT-4到国内各类开源大模型换了一圈,算力和采购成本涨了3倍,最终效果依然没有明显提升。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录