AI疯狂三月赛事预测实验失利暴露通用大模型垂直场景适配短板

AI创作导航 1 个月前

风向

美国科技媒体Digital Trends近期开展的AI体育赛事预测实验显示，测试者调用ChatGPT、Google Gemini、DeepSeek三款主流大模型，对NCAA“疯狂三月”男篮锦标赛64强赛果进行预测，整体准确率仅为41.7%，远低于美国资深球迷群体61%的平均预测准确率，暴露了当前通用大模型在非结构化、高随机性场景下的能力短板。

美国NCAA一级联赛男篮锦标赛素来以爆冷率高、不可预测性强著称，每年三月开启的64强单败淘汰赛阶段被称为“疯狂三月”，是美国全年关注度最高的体育赛事之一，今年赛前不少科技爱好者都尝试用AI工具生成个人预测表，社交平台上甚至出现了“AI预测VS人脑预测”的对赌话题，相关讨论量突破2亿次。

近年随着大语言模型推理、概率推演能力的迭代升级，AI预测的落地场景已经从天气、交通、供应链等强结构化数据领域，逐步延伸到体育赛事、影视票房、电竞赛果等高随机性消费级场景。

包括OpenAI、谷歌、Perplexity在内的厂商都在优化大模型的实时信息整合、动态变量适配能力，第三方统计数据显示，2024年第一季度全球AI预测类工具的月活用户已经突破2300万，其中体育预测类工具的用户占比超过3成，是增速最快的细分品类。

本次Digital Trends的测试覆盖了当前主流的5款大模型，最终结果显示，主打实时搜索整合的Perplexity准确率最高，达到47.2%，但仍然低于资深球迷的平均水平；GPT-4o、Gemini Advanced的准确率分别为42%和36%，国产大模型DeepSeek由于训练数据中北美体育赛事的占比偏低，准确率仅为29%。

所有测试模型的预测偏差都集中在低种子队爆冷场次，对12号及以下种子队的胜率预测准确率不足20%，核心原因在于，大模型的预测逻辑主要基于过往赛事的公开统计数据训练，很难覆盖球员临场伤病、主场氛围、战术临时调整等非结构化变量，更不会像资深球迷一样对小众球队的人员变动、战术风格有长期的个性化关注。

DeepSeek ChatGPT 大语言模型 Gemini Google AI预测

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

提示工程指南

提示工程领域专业学习平台

Prompt Advance

ChatGPT垂直资讯周报订阅

Faraday AI

AI客户行为预测工具

Claude

Claude 是由 Anthropic 研发的 AI 助手与大语言模型

OpenAI

OpenAI 是全球领先的人工智能研究机构与模型提供商

DeepSeek

深度求索旗下开源大模型与AI服务平台

Meridian Realms

AI沉浸式故事世界构建工具

Loreform

AI生成定制桌游3D可打印微缩