少找工具,多做创作

AI疯狂三月赛事预测实验失利 暴露通用大模型垂直场景适配短板

美国科技媒体Digital Trends近期开展的AI体育赛事预测实验显示,测试者调用ChatGPT、Google Gemini、DeepSeek三款主流大模型,对NCAA“疯狂三月”男篮锦标赛64强赛果进行预测,整体准确率仅为41.7%,远低于美国资深球迷群体61%的平均预测准确率,暴露了当前通用大模型在非结构化、高随机性场景下的能力短板。

美国NCAA一级联赛男篮锦标赛素来以爆冷率高、不可预测性强著称,每年三月开启的64强单败淘汰赛阶段被称为“疯狂三月”,是美国全年关注度最高的体育赛事之一,今年赛前不少科技爱好者都尝试用AI工具生成个人预测表,社交平台上甚至出现了“AI预测VS人脑预测”的对赌话题,相关讨论量突破2亿次。

近年随着大语言模型推理、概率推演能力的迭代升级,AI预测的落地场景已经从天气、交通、供应链等强结构化数据领域,逐步延伸到体育赛事、影视票房、电竞赛果等高随机性消费级场景。

包括OpenAI、谷歌、Perplexity在内的厂商都在优化大模型的实时信息整合、动态变量适配能力,第三方统计数据显示,2024年第一季度全球AI预测类工具的月活用户已经突破2300万,其中体育预测类工具的用户占比超过3成,是增速最快的细分品类。

本次Digital Trends的测试覆盖了当前主流的5款大模型,最终结果显示,主打实时搜索整合的Perplexity准确率最高,达到47.2%,但仍然低于资深球迷的平均水平;GPT-4o、Gemini Advanced的准确率分别为42%和36%,国产大模型DeepSeek由于训练数据中北美体育赛事的占比偏低,准确率仅为29%。

所有测试模型的预测偏差都集中在低种子队爆冷场次,对12号及以下种子队的胜率预测准确率不足20%,核心原因在于,大模型的预测逻辑主要基于过往赛事的公开统计数据训练,很难覆盖球员临场伤病、主场氛围、战术临时调整等非结构化变量,更不会像资深球迷一样对小众球队的人员变动、战术风格有长期的个性化关注。

这次疯狂三月的AI预测实验结果,也打破了不少用户对通用大模型“无所不能”的滤镜。当前不少厂商的营销宣传中,都刻意放大了通用大模型的跨场景能力,但从实测结果来看,面对体育、基层医疗、工业质检等需要大量场景专属数据支撑的领域,通用大模型的表现甚至不如参数量只有十分之一的垂直赛道轻量化模型。

目前谷歌DeepMind团队已经宣布,将针对体育赛事预测场景推出微调版Gemini,训练数据将覆盖NCAA近20年的所有非公开赛事细节、球队训练数据,目标是在2025年的疯狂三月预测中准确率超过70%,击败90%以上的普通球迷。业内人士认为,接下来头部大模型厂商的竞争焦点,将逐步从通用能力跑分,转向垂直场景的落地适配能力。

AI生成配图

(图像由AI生成)

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创