少找工具,多做创作

美团开源5677亿参数LongCat模型 登顶数学证明全球基准测试

2026年3月21日,美团正式开源超大规模数学证明专用模型LongCat-Flash-Prover,该模型参数规模达5677亿,采用MoE混合专家架构,针对数学形式化证明场景专项优化,在MiniF2F-Test基准测试中准确率达97.1%,PutnamBench任务问题解决率达41.5%,两项指标均刷新全球SOTA,为AI高可靠性逻辑推理落地提供了全新技术路径。

在通用大模型能力趋近饱和的当下,垂直领域的专业能力已经成为各家厂商技术比拼的核心战场,其中对逻辑严谨性要求极高的数学证明赛道,更是公认的技术天花板级赛道,此前全球头部科技公司和科研机构推出的相关模型,始终未能在准确率和推理效率上达到可落地的水平。

过去几年,大语言模型在文本生成、对话交互、通用代码编写等场景的表现已经趋近成熟,但涉及到需要零误差、强逻辑的专业场景时,幻觉问题、推理准确率不足的缺陷始终存在。

尤其是数学形式化证明场景,需要模型完全遵循数理逻辑推导,任何一步出错都会导致最终结论无效,此前全球最好的相关模型在PutnamBench这类高难度竞赛级测试中,解决率普遍不足30%,无法投入实际科研或工业使用。

美团此次推出的LongCat-Flash-Prover,从架构设计阶段就瞄准了数学证明场景的专属需求,采用5677亿参数的MoE混合专家架构,在训练阶段就引入了高质量的数学形式化证明数据集,同时针对推理链路做了多层校验优化,大幅降低了幻觉出现概率。

在全球公认的逻辑推理基准测试中,该模型展现出了统治级的性能:在MiniF2F-Test测试中取得了97.1%的准确率,仅需72次推理尝试即可完成验证在面向竞赛级难度的PutnamBench任务中,成功解决了41.5%的问题,两项数据均大幅超越此前的全球最佳水平,成为数学证明领域新的技术标杆。更值得关注的是,美团此次将该模型完全开源,学术机构和中小科技企业无需支付版权费用即可直接调用或二次开发,大幅降低了高能力推理模型的研发门槛。

业内人士指出,LongCat-Flash-Prover的出现,除了将直接辅助数学科研工作者完成定理推导、验证之外,其高可靠的逻辑推理能力还可以延伸到更多工业场景:包括芯片设计环节的EDA验证、复杂底层代码的调试、密码学算法的安全性校验、甚至航空航天领域的参数模拟计算等,都有望借助该模型的能力提升研发效率,降低试错成本。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创