2026年3月24日,美团龙猫团队正式开源面向数学形式化与定理证明的深度学习模型LongCat-Flash-Prover。该模型将形式化推理拆解为三大原子能力,破解大语言模型逻辑推演短板,在MiniF2F-Test基准测试中仅用72次推理预算即实现97.1%通过率,刷新开源Prover模型SOTA,在高难度竞赛级任务中表现也领先现有开源方案。
长期以来,大语言模型在数学推理场景始终面临“幻觉频发”的核心瓶颈,哪怕是GPT-4等头部闭源模型,也经常在需要严密逻辑链的证明题中出现步骤跳变、结论错误的问题,行业始终在寻找能实现确定性逻辑推演的技术路径。
在通用大模型的能力迭代进入瓶颈期后,数学推理能力被视为AGI落地的核心门槛之一。无论是基础数学研究中的定理验证,还是芯片设计、密码学、量子计算等工业场景中的逻辑校验,都需要模型输出100%准确的推导过程,而此前基于概率预测的大语言模型始终无法避免幻觉问题,哪怕是头部闭源模型,在需要多步骤严密推导的证明题中,错误率也始终居高不下。
此前开源领域的定理证明模型,在MiniF2F-Test基准的通过率普遍低于85%,且往往需要超过120次推理才能达到最优表现,计算成本极高,很难落地到实际场景中。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录