2026年4月开放数据研究所(ODI)发布的最新研究显示,英国政府2024年秋季预算案确认、投资1亿英镑的国家数据图书馆(NDL)计划,正遭遇公共数据集质量不足的核心挑战。该计划原本预期为AI研发、企业创新提供权威数据支撑,当前却因数据集误导性标题、元数据缺失、标签混乱等问题,落地进程存在较大不确定性。
ODI此次发布的结论来自其刚刚完成测试的「NDL-Lite」原型系统——这套为验证国家数据图书馆可行性搭建的测试平台,已经接入了**超过10万个英国公共部门开放数据集**,是目前英国覆盖范围最广的公共数据聚合测试项目。
测试结果显示,近3成数据集存在标题与实际内容不符的误导性问题,超过4成数据集缺失解释数据来源、采集时间、统计口径的关键元数据,近一半数据集的最后更新时间停留在2022年之前,还有大量数据集采用了部门独立的标签体系,大语言模型根本无法自动识别和调用。ODI研究员警告称,如果这些问题得不到解决,就算NDL按期上线也只是“无米之炊”,AI研发人员找不到可用的权威数据,最终还是会转向可信度存疑的第三方数据源,反而会加剧模型幻觉风险。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录