少找工具,多做创作

「先筛选后智能标注」范式兴起 重构计算机视觉开发链路

全球科技内容平台InfoWorld最新报道显示,当前计算机视觉领域正兴起“先数据筛选、后智能标注”的全新开发范式,该模式通过策略化数据选品与治理流程,可平均降低30%以上的标注成本,同时将AI模型开发效率提升至少45%,成为计算机视觉落地降本增效的核心路径之一。

长期以来,计算机视觉模型的效果上限始终受标注数据质量制约,过往行业普遍遵循“海量采集、全量标注”的粗放逻辑,仅标注环节的成本就占到AI开发总支出的40%至60%,大量重复、低价值数据的标注投入不仅没有带来模型效果的线性增长,反而因为噪声数据过多拖慢了迭代节奏,不少垂类场景的落地项目都卡在了数据成本过高的规模化关卡。

随着自动驾驶、工业质检、智慧安防等场景的计算机视觉应用进入大规模落地期,标注环节的供需矛盾进一步凸显:一方面垂类场景的定制化要求高,公开通用数据集无法满足细分场景的精度要求,企业需要自行采集标注场景化数据;另一方面人工标注的单张专业场景图片成本最高可达数十元,且标注错误率普遍在15%以上,反而会对模型训练产生负面影响。此前特斯拉AI团队也曾公开提及,低价值的重复标注数据对模型效果提升的贡献几乎为零,只会无谓增加训练成本。

此次兴起的“先筛选后智能标注”范式,核心就是颠覆了过往“先标注后筛选”的流程,先对采集到的原始数据进行去重、去模糊、多样性校准,优先筛选出对模型效果提升贡献度最高的20%核心数据进入标注环节,再搭配大模型驱动的智能标注工具完成半自动标注,最后仅需人工对少量边缘特殊样本进行校验。InfoWorld的行业调研数据显示,采用该范式的科技企业,标注环节的人工投入平均降低62%,标注数据的准确率反而提升至98%以上,模型迭代周期从平均3个月缩短至1个月左右。

随着智能标注工具的技术成熟度持续提升,行业的竞争核心正在从“标注产能”转向“数据治理能力”,未来针对垂类场景的高价值数据筛选、清洗、管理能力,将成为计算机视觉企业的核心竞争力来源。值得注意的是,该范式也正在向多模态大模型训练的数据处理环节渗透,业内预计其有望将大模型训练的数据集采购与处理成本降低至少25%,进一步推动大模型的普惠化落地。

AI生成配图

(图像由AI生成)

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创