少找工具,多做创作

AI落地效能不及预期 数据质量成被低估的核心制约因素

近日,科技媒体InfoWorld联合商业智能服务商Qlik发布的企业AI落地专项调研显示,当前超6成已布局AI的企业实际应用效能不及预期,其中82%的项目瓶颈并非来自大模型算法缺陷,而是源于底层训练、推理所用数据集的质量不达标。本次报告重点拆解了高质量数据的商业价值,以及企业可落地的数据质量提升路径。

2024年以来,全球企业在生成式AI、智能分析领域的投入同比增速已突破47%,但激增的投入并未换来同等比例的业务增长:不少企业发现,花费百万采购的前沿大模型服务,在内部业务场景的准确率始终徘徊在70%上下,始终无法达到商用落地的要求。

当前多数企业的AI投入结构存在明显偏差,超过70%的AI相关预算被分配给大模型采购、算法团队招聘,仅不到15%的预算用于底层数据治理。很多企业管理者存在认知误区,认为只要用上GPT-4o、Claude 3这类前沿大模型,就能快速实现业务智能化,却忽略了内部业务数据存在的缺失、重复、标注错误、标准不统一等问题。

比如零售企业的用户消费数据如果有30%的重复录入,就算用再好的推荐算法模型,推送的商品匹配度也很难达到预期,反而会消耗用户信任。

Qlik全球首席数据战略官James Fisher在报告中指出,“垃圾进、垃圾出是AI领域的铁律,大模型的推理输出本质是对输入数据规律的提炼,数据质量的上限直接决定了AI应用的上限。”

调研数据显示,如果特定业务场景的训练数据集准确率从90%提升到99%,对应大模型的输出准确率可以提升37%,这一增益远高于迭代算法版本带来的效果。某快消企业此前投入200万上线生成式AI用户运营系统,初期推送转化率仅2.3%,后来仅投入30万完成用户数据的清洗、去重和跨部门打通,同样的模型体系下,推送转化率直接提升到5.7%,投入产出比远超预期。

多数企业的数据质量问题并非缺乏数据,而是数据分散在不同部门的独立系统中,字段标准、统计口径各不相同,根本无法打通作为AI训练的有效素材。

针对企业普遍存在的数据治理难题,本次报告也给出了可落地的执行路径。

首先要从源头建立数据标准体系,统一各部门数据的字段命名、统计口径、录入规则,从采集阶段就减少脏数据的产生;其次要搭建企业级的统一数据中台,在合规前提下实现不同业务系统的数据打通和共享;此外还可以引入AI辅助的数据标注、清洗工具,将传统人工数据治理的成本降低60%以上。

值得注意的是,数据治理并非一次性项目,企业需要将数据质量校验纳入日常运营流程,在各个业务部门设置专职数据专员,定期更新数据规则、排查数据问题,才能持续为AI应用提供高质量的输入素材。

随着大模型技术的快速迭代,未来1-2年通用大模型的能力差距将逐渐缩小,无论是OpenAI的闭源模型还是Meta开源的Llama 3,通用能力都会趋于同质化。这种背景下,企业自身积累的高质量独有业务数据,将成为训练专属AI模型、拉开和竞争对手差距的核心壁垒。

预计到2027年,全球企业在数据治理上的投入占AI总预算的比例会提升到40%以上,数据资产的估值和管理也会成为企业数字化建设的核心板块。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创