美国科技媒体Digital Trends近期开展的AI体育赛事预测实验显示,测试者调用ChatGPT、Google Gemini、DeepSeek三款主流大模型,对NCAA“疯狂三月”男篮锦标赛64强赛果进行预测,整体准确率仅为41.7%,远低于美国资深球迷群体61%的平均预测准确率,暴露了当前通用大模型在非结构化、高随机性场景下的能力短板。
美国NCAA一级联赛男篮锦标赛素来以爆冷率高、不可预测性强著称,每年三月开启的64强单败淘汰赛阶段被称为“疯狂三月”,是美国全年关注度最高的体育赛事之一,今年赛前不少科技爱好者都尝试用AI工具生成个人预测表,社交平台上甚至出现了“AI预测VS人脑预测”的对赌话题,相关讨论量突破2亿次。
近年随着大语言模型推理、概率推演能力的迭代升级,AI预测的落地场景已经从天气、交通、供应链等强结构化数据领域,逐步延伸到体育赛事、影视票房、电竞赛果等高随机性消费级场景。
包括OpenAI、谷歌、Perplexity在内的厂商都在优化大模型的实时信息整合、动态变量适配能力,第三方统计数据显示,2024年第一季度全球AI预测类工具的月活用户已经突破2300万,其中体育预测类工具的用户占比超过3成,是增速最快的细分品类。
本次Digital Trends的测试覆盖了当前主流的5款大模型,最终结果显示,主打实时搜索整合的Perplexity准确率最高,达到47.2%,但仍然低于资深球迷的平均水平;GPT-4o、Gemini Advanced的准确率分别为42%和36%,国产大模型DeepSeek由于训练数据中北美体育赛事的占比偏低,准确率仅为29%。
所有测试模型的预测偏差都集中在低种子队爆冷场次,对12号及以下种子队的胜率预测准确率不足20%,核心原因在于,大模型的预测逻辑主要基于过往赛事的公开统计数据训练,很难覆盖球员临场伤病、主场氛围、战术临时调整等非结构化变量,更不会像资深球迷一样对小众球队的人员变动、战术风格有长期的个性化关注。
这次疯狂三月的AI预测实验结果,也打破了不少用户对通用大模型“无所不能”的滤镜。当前不少厂商的营销宣传中,都刻意放大了通用大模型的跨场景能力,但从实测结果来看,面对体育、基层医疗、工业质检等需要大量场景专属数据支撑的领域,通用大模型的表现甚至不如参数量只有十分之一的垂直赛道轻量化模型。
目前谷歌DeepMind团队已经宣布,将针对体育赛事预测场景推出微调版Gemini,训练数据将覆盖NCAA近20年的所有非公开赛事细节、球队训练数据,目标是在2025年的疯狂三月预测中准确率超过70%,击败90%以上的普通球迷。业内人士认为,接下来头部大模型厂商的竞争焦点,将逐步从通用能力跑分,转向垂直场景的落地适配能力。

(图像由AI生成)

3 分钟前
近日谷歌正式推送Find Hub网页端功能更新,依托升级后的AI多设备协同定位技术,用户无需绑定的智能手机在网,即可查询包括蓝牙耳机、智能手表、笔记本电脑在内的多类关联设备位置,本次更新覆盖全球超12亿谷歌账号用户,设备识别准确率较上一版本提升37%。

6 分钟前
近期英特尔尚未发布的Wildcat Lake低功耗架构信息泄露,预计搭载该架构处理器的入门级PC售价可低至250美元,将首次在预算级设备上原生支持微软Copilot、谷歌Gemini Nano等端侧AI工具,业内预计2025年消费级端侧AI设备渗透率将突破40%,大幅降低普通用户使用AI功能的门槛。

8 分钟前
2024年全球消费级AI用户规模已突破18亿,OpenAI、谷歌、DeepSeek、苹果、xAI等科技厂商先后推出ChatGPT、Google Gemini、DeepSeek V3、Apple Intelligence、Grok等核心产品,围绕交互效率、多场景适配、本地化功能展开多轮迭代,AI工具正从尝鲜类应用转向大众日常刚需的生产力入口。

1 小时前
近日,人工智能企业OpenAI正式宣布关停旗下AI视频生成工具Sora。该产品2024年2月首次亮相时,曾凭借最高生成60秒4K分辨率连贯视频的能力引发行业震动,上线后累计有超12万创作者获得测试资格。本次关停并未如外界最初猜测一般源于版权纠纷,而是与模型训练成本高企、商用化落地不及预期直接相关。

1 小时前
斯坦福大学人机交互实验室近日发布专项研究结果,针对ChatGPT、Google Gemini、DeepSeek等12款主流生成式AI聊天机器人的测试显示,其在医疗、财务、个人职业选择等高风险决策场景的平均错误率达37%,专家明确提示普通用户不应将AI聊天机器人作为个人决策的唯一参考依据,需对其输出内容保持审慎验证态度。

1 小时前
微软近期正式上线AI协作工具Copilot Cowork,搭载全新升级的智能研究引擎,可自动扫描用户工作文档、项目材料中的逻辑漏洞、数据缺失及论证空白,目前已向Office 365商业版用户开放灰度测试。据内部测试数据显示,该工具可帮助职场用户减少42%的跨部门信息核对时间,项目前期漏洞排查效率提升近60%。

1 小时前
近日,家用智能设备厂商Beatbot正式发布面向泳池护理场景的Sora系列机器人,产品搭载边缘端AI视觉模型,可自主识别水体杂质、规划清洁路径,清洁覆盖率较传统自动清洁设备提升47%。与此同时,OpenAI、Google、DeepSeek等主流大模型厂商均在加速布局智能家居赛道,AItoC落地场景边界正在持续扩容。

1 小时前
近期苹果公司旗下原生AI功能Apple Intelligence在国内iOS 18开发者预览版用户设备中短暂现身,上线仅数小时后便被快速关停。作为苹果首款端云协同大模型服务,Apple Intelligence此前官宣仅面向欧美英语市场率先推送,本次意外曝光也引发业内对其中国区落地进程、监管适配进度的广泛讨论。