登录体验完整功能(收藏、点赞、评论等) — 已累计有 8671 人加入

让AI触手可及,让应用激发潜能

美团龙猫开源LongCat-Flash-Prover 刷新定理证明模型SOTA纪录

2026年3月24日,美团龙猫团队正式开源面向数学形式化与定理证明的深度学习模型LongCat-Flash-Prover。该模型将形式化推理拆解为三大原子能力,破解大语言模型逻辑推演短板,在MiniF2F-Test基准测试中仅用72次推理预算即实现97.1%通过率,刷新开源Prover模型SOTA,在高难度竞赛级任务中表现也领先现有开源方案。

长期以来,大语言模型在数学推理场景始终面临“幻觉频发”的核心瓶颈,哪怕是GPT-4等头部闭源模型,也经常在需要严密逻辑链的证明题中出现步骤跳变、结论错误的问题,行业始终在寻找能实现确定性逻辑推演的技术路径。

在通用大模型的能力迭代进入瓶颈期后,数学推理能力被视为AGI落地的核心门槛之一。无论是基础数学研究中的定理验证,还是芯片设计、密码学、量子计算等工业场景中的逻辑校验,都需要模型输出100%准确的推导过程,而此前基于概率预测的大语言模型始终无法避免幻觉问题,哪怕是头部闭源模型,在需要多步骤严密推导的证明题中,错误率也始终居高不下。

此前开源领域的定理证明模型,在MiniF2F-Test基准的通过率普遍低于85%,且往往需要超过120次推理才能达到最优表现,计算成本极高,很难落地到实际场景中。

LongCat-Flash-Prover的核心创新,在于打破了此前端到端推理的传统架构,将复杂的形式化推理拆解为自动形式化、草稿生成、证明生成三大独立原子能力,每个模块针对单一任务专项优化,大幅降低了多步骤推导中的信息损耗与误差累积,实现了从“概率预测答案”到“严谨逻辑证明”的范式转变。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯
AI小创