6月初,AI开发服务商TinyFish正式开源其全新多智能体系统BigSet,该工具支持用户仅通过自然语言描述需求,即可自动调取实时网页数据生成符合要求的结构化动态数据集,大幅降低AI训练、市场调研等场景的数据采集预处理门槛,目前已在全球主流开源平台开放完整代码与使用文档,上线首周开发者关注度突破万人次。
对于绝大多数AI开发者和行业分析师而言,“数据荒”从来不是指公开数据太少,而是想要快速拿到符合特定需求的结构化数据成本太高——写爬虫、去重、清洗、对齐格式,一系列操作往往要耗去项目过半的时间成本。
据2026年Q1全球AI开发生态报告显示,中小规模AI研发项目中,数据采集与预处理环节的平均耗时占整体研发周期的62%,近7成非技术背景的从业者表示,无法独立完成定制化数据集的搭建工作,很多创新想法卡在了“拿不到合适的数据”这第一步。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录