登录体验完整功能(收藏、点赞、评论等) — 已累计有 9630 人加入

AI疯狂三月赛事预测实验失利 暴露通用大模型垂直场景适配短板

美国科技媒体Digital Trends近期开展的AI体育赛事预测实验显示,测试者调用ChatGPT、Google Gemini、DeepSeek三款主流大模型,对NCAA“疯狂三月”男篮锦标赛64强赛果进行预测,整体准确率仅为41.7%,远低于美国资深球迷群体61%的平均预测准确率,暴露了当前通用大模型在非结构化、高随机性场景下的能力短板。

美国NCAA一级联赛男篮锦标赛素来以爆冷率高、不可预测性强著称,每年三月开启的64强单败淘汰赛阶段被称为“疯狂三月”,是美国全年关注度最高的体育赛事之一,今年赛前不少科技爱好者都尝试用AI工具生成个人预测表,社交平台上甚至出现了“AI预测VS人脑预测”的对赌话题,相关讨论量突破2亿次。

近年随着大语言模型推理、概率推演能力的迭代升级,AI预测的落地场景已经从天气、交通、供应链等强结构化数据领域,逐步延伸到体育赛事、影视票房、电竞赛果等高随机性消费级场景。

包括OpenAI、谷歌、Perplexity在内的厂商都在优化大模型的实时信息整合、动态变量适配能力,第三方统计数据显示,2024年第一季度全球AI预测类工具的月活用户已经突破2300万,其中体育预测类工具的用户占比超过3成,是增速最快的细分品类。

本次Digital Trends的测试覆盖了当前主流的5款大模型,最终结果显示,主打实时搜索整合的Perplexity准确率最高,达到47.2%,但仍然低于资深球迷的平均水平;GPT-4o、Gemini Advanced的准确率分别为42%和36%,国产大模型DeepSeek由于训练数据中北美体育赛事的占比偏低,准确率仅为29%。

所有测试模型的预测偏差都集中在低种子队爆冷场次,对12号及以下种子队的胜率预测准确率不足20%,核心原因在于,大模型的预测逻辑主要基于过往赛事的公开统计数据训练,很难覆盖球员临场伤病、主场氛围、战术临时调整等非结构化变量,更不会像资深球迷一样对小众球队的人员变动、战术风格有长期的个性化关注。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯