登录体验完整功能(收藏、点赞、评论等) — 已累计有 12527 人加入

美团开源5677亿参数LongCat模型 登顶数学证明全球基准测试

详情页推荐

2026年3月21日,美团正式开源超大规模数学证明专用模型LongCat-Flash-Prover,该模型参数规模达5677亿,采用MoE混合专家架构,针对数学形式化证明场景专项优化,在MiniF2F-Test基准测试中准确率达97.1%,PutnamBench任务问题解决率达41.5%,两项指标均刷新全球SOTA,为AI高可靠性逻辑推理落地提供了全新技术路径。

在通用大模型能力趋近饱和的当下,垂直领域的专业能力已经成为各家厂商技术比拼的核心战场,其中对逻辑严谨性要求极高的数学证明赛道,更是公认的技术天花板级赛道,此前全球头部科技公司和科研机构推出的相关模型,始终未能在准确率和推理效率上达到可落地的水平。

过去几年,大语言模型在文本生成、对话交互、通用代码编写等场景的表现已经趋近成熟,但涉及到需要零误差、强逻辑的专业场景时,幻觉问题、推理准确率不足的缺陷始终存在。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。