少找工具,多做创作

击败OpenAI!谷歌Aletheia拿下超IMO难度数学挑战赛最佳成绩

陶哲轩推荐的超IMO难度数学挑战赛FirstProof落下帷幕,谷歌基于Gemini 3 Deep Think打造的数学智能体Aletheia击败OpenAI,拿下赛事最佳成绩。据完整成绩单显示,Aletheia全程零人工参与,独立解出10道难题中的6道,其中5题获专家全票认可,另有1题拿到7位专家中5位的通过票,展现AI在高阶数学领域的突破性进展。

当人类顶级数学竞赛IMO的金牌不再是AI的终极目标时,一场难度更甚的挑战成为了衡量AI数学能力的新标尺。由全球顶尖数学家发起、菲尔兹奖得主陶哲轩公开推荐的FirstProof数学挑战赛,近日交出了令人瞩目的成绩单——谷歌旗下的数学智能体Aletheia,凭借零人工干预下的硬核表现,击败OpenAI拿下赛事最佳成绩。

作为当前公认的人类青少年数学巅峰赛事,IMO的题目已经足够考验逻辑推理与创造性思维,但FirstProof的难度被明确标注为“远超IMO”。赛事题目聚焦未被完全解决的高阶数学问题,要求AI不仅要给出正确答案,还要构建严谨、符合学术规范的证明逻辑链,这对AI的符号推理、复杂逻辑构建能力提出了极致要求。陶哲轩的公开推荐,更让这场赛事成为全球AI研发团队验证自身技术实力的必争之地。

谷歌此次派出的Aletheia,是基于其最新大语言模型Gemini 3 Deep Think打造的专项数学智能体。与很多AI参赛项目可能存在的人工提示、数据微调不同,Aletheia全程以零人工参与的状态完成比赛。从最终成绩单来看,它在10道高难度题目中独立解出6道:其中5道证明完全符合学术标准,获得7位评审专家的全票通过;另有1道证明虽然存在细微瑕疵,但依然拿到了5位专家的认可票。相比之下,OpenAI的参赛模型未能取得更优成绩,进一步凸显了Aletheia在高阶数学推理上的领先性。

Aletheia在FirstProof中的表现,不止是一次赛事胜利,更标志着AI在高阶数学领域的能力边界得到了实质性拓展。此前AI在数学领域的应用多集中在基础解题或已知定理的验证,而此次在超IMO难度的未解决问题上的突破,意味着AI未来有望成为数学家的核心协作伙伴——从协助推导复杂定理,到挖掘数学问题的新解题路径,甚至可能推动未知数学领域的科研进展。这种能力还可延伸至物理、工程等依赖复杂数学计算的学科,为跨领域创新提供新的可能性。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
所属分类
相关资讯