陶哲轩推荐的超IMO难度数学挑战赛FirstProof落下帷幕,谷歌基于Gemini 3 Deep Think打造的数学智能体Aletheia击败OpenAI,拿下赛事最佳成绩。据完整成绩单显示,Aletheia全程零人工参与,独立解出10道难题中的6道,其中5题获专家全票认可,另有1题拿到7位专家中5位的通过票,展现AI在高阶数学领域的突破性进展。
当人类顶级数学竞赛IMO的金牌不再是AI的终极目标时,一场难度更甚的挑战成为了衡量AI数学能力的新标尺。由全球顶尖数学家发起、菲尔兹奖得主陶哲轩公开推荐的FirstProof数学挑战赛,近日交出了令人瞩目的成绩单——谷歌旗下的数学智能体Aletheia,凭借零人工干预下的硬核表现,击败OpenAI拿下赛事最佳成绩。
作为当前公认的人类青少年数学巅峰赛事,IMO的题目已经足够考验逻辑推理与创造性思维,但FirstProof的难度被明确标注为“远超IMO”。赛事题目聚焦未被完全解决的高阶数学问题,要求AI不仅要给出正确答案,还要构建严谨、符合学术规范的证明逻辑链,这对AI的符号推理、复杂逻辑构建能力提出了极致要求。陶哲轩的公开推荐,更让这场赛事成为全球AI研发团队验证自身技术实力的必争之地。
谷歌此次派出的Aletheia,是基于其最新大语言模型Gemini 3 Deep Think打造的专项数学智能体。与很多AI参赛项目可能存在的人工提示、数据微调不同,Aletheia全程以零人工参与的状态完成比赛。从最终成绩单来看,它在10道高难度题目中独立解出6道:其中5道证明完全符合学术标准,获得7位评审专家的全票通过;另有1道证明虽然存在细微瑕疵,但依然拿到了5位专家的认可票。相比之下,OpenAI的参赛模型未能取得更优成绩,进一步凸显了Aletheia在高阶数学推理上的领先性。
Aletheia在FirstProof中的表现,不止是一次赛事胜利,更标志着AI在高阶数学领域的能力边界得到了实质性拓展。此前AI在数学领域的应用多集中在基础解题或已知定理的验证,而此次在超IMO难度的未解决问题上的突破,意味着AI未来有望成为数学家的核心协作伙伴——从协助推导复杂定理,到挖掘数学问题的新解题路径,甚至可能推动未知数学领域的科研进展。这种能力还可延伸至物理、工程等依赖复杂数学计算的学科,为跨领域创新提供新的可能性。

39 秒前
近期,字节跳动旗下即梦AI推出的AI舞蹈生成功能引发行业关注,乐华娱乐CEO杜华发布的AI定制女团舞视频在社交平台引发讨论。作为字节在AI内容生成领域的重要布局,该功能目前仍处于小范围测试阶段,业内预计其将为短视频内容生产带来降本增效的新可能,也将加剧AI内容生成赛道的竞争。

1 分钟前
2026年3月4日消息,主打AI代理开发的开源项目OpenClaw上线仅两个月,便以空前速度席卷全球技术社区与中文互联网。截至3月1日,其GitHub星标数突破24.1万,创下平台历史最快增长纪录。该项目从技术论坛、小红书延伸至大众媒体快速出圈,引发AI代理赛道广泛讨论,其爆发既依托技术特性,也契合当前AI应用落地的刚需风口。

2 分钟前
2026年3月2日,美团旗下光年之外团队推出其深耕AI赛道两年多来的首款C端AI原生产品Tabbit AI浏览器,本欲打响本地生活巨头的AI工具赛道入局战。但产品上线不足24小时,翻译工具陪读蛙的开发者便在X平台指控其内置翻译功能抄袭,这场高调发布迅速演变为公关危机,引发行业对AI创新边界的热议。

4 分钟前
2025年12月,第三方调研机构QuestMobile发布国内AI原生App市场最新监测数据,豆包月活用户达2.26亿,位居行业首位,其月活量超过DeepSeek、元宝、蚂蚁阿福、千问四款竞品的月活总和,凸显出豆包在该赛道的绝对领先优势,业内预判其领先地位将进一步巩固。

5 分钟前
2026年3月最新行业消息显示,苹果AI硬件战略遭遇现实瓶颈:旗下私有云计算服务器闲置率高达90%,实际部署算力仅占10%,根源在于内部AI基础设施碎片化、各业务团队技术栈互不兼容。为推进下一代Siri功能,苹果暂时依托谷歌服务器与定制版Gemini模型,今年将推出重大改版Siri,明年iOS 27...

7 分钟前
2026年3月4日,OpenAI正式上线GPT-5.3 Instant大语言模型,针对ChatGPT的交互体验与事实准确性完成双重升级。该模型联网场景下幻觉率降低26.8%,仅依托内部知识作答时幻觉率下降近两成,同时对话语气更平等自然,减少了以往常见的说教与免责声明表述。目前已登陆ChatGPT网页端与应用端,开发者可通过API接入,OpenAI同时预告了性能更强的GPT-5.4版本。

8 分钟前
AI巨头Anthropic近日为开发者命令行工具Claude Code上线语音交互模式,率先在Windows平台开启灰度发布,仅面向5%首批用户抢先体验,未来几周将全球开放。用户输入/voice指令即可用语音下达编程任务,大幅提升开发效率。目前Anthropic年化收入已超25亿美元,周活用户自今年1月以来翻倍,该功能或推动语音编程成为行业标配。

9 分钟前
近期全球AI大模型赛道竞争持续升级,由华为云技术支撑的MiniMax旗下M2.5模型发布一周内调用量突破3.07万亿Tokens,登顶全球榜单,2月年化经常性收入(ARR)达1.5亿美元,仅搭载10B激活参数。同时DeepSeek V4将于下周发布,稀宇科技计划上半年推出MiniMax M3系列,大摩研报称其将通过架构创新解决知识容量瓶颈。