2026年3月21日,美团正式开源超大规模数学证明专用模型LongCat-Flash-Prover,该模型参数规模达5677亿,采用MoE混合专家架构,针对数学形式化证明场景专项优化,在MiniF2F-Test基准测试中准确率达97.1%,PutnamBench任务问题解决率达41.5%,两项指标均刷新全球SOTA,为AI高可靠性逻辑推理落地提供了全新技术路径。
在通用大模型能力趋近饱和的当下,垂直领域的专业能力已经成为各家厂商技术比拼的核心战场,其中对逻辑严谨性要求极高的数学证明赛道,更是公认的技术天花板级赛道,此前全球头部科技公司和科研机构推出的相关模型,始终未能在准确率和推理效率上达到可落地的水平。
过去几年,大语言模型在文本生成、对话交互、通用代码编写等场景的表现已经趋近成熟,但涉及到需要零误差、强逻辑的专业场景时,幻觉问题、推理准确率不足的缺陷始终存在。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录