美团开源5677亿参数LongCat模型登顶数学证明全球基准测试

AI创作导航管理员 LV4 资深连续登录7天萌新

3 个月前

风向

2026年3月21日，美团正式开源超大规模数学证明专用模型LongCat-Flash-Prover，该模型参数规模达5677亿，采用MoE混合专家架构，针对数学形式化证明场景专项优化，在MiniF2F-Test基准测试中准确率达97.1%，PutnamBench任务问题解决率达41.5%，两项指标均刷新全球SOTA，为AI高可靠性逻辑推理落地提供了全新技术路径。

在通用大模型能力趋近饱和的当下，垂直领域的专业能力已经成为各家厂商技术比拼的核心战场，其中对逻辑严谨性要求极高的数学证明赛道，更是公认的技术天花板级赛道，此前全球头部科技公司和科研机构推出的相关模型，始终未能在准确率和推理效率上达到可落地的水平。

过去几年，大语言模型在文本生成、对话交互、通用代码编写等场景的表现已经趋近成熟，但涉及到需要零误差、强逻辑的专业场景时，幻觉问题、推理准确率不足的缺陷始终存在。

大语言模型 MoE架构美团 LongCat 数学证明

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

美团开源5677亿参数LongCat模型登顶数学证明全球基准测试

最新文章

X社区 · 无限公约

二狗PPT

特朗普政府宣布解除Anthropic两款旗舰AI模型出口管制

OceanBase发布湖库一体AI数据库为AI Agent筑牢核心数据底座

新浪开源VibeThinker-3B，小参数模型比肩百倍规模大模型

AI落地缺标准化训练体系超六成开发团队陷“盲飞”困境

热门文章

OpenCut

抖音创作者中心

小云雀AI

视频号助手

通义万相

朱雀AI检测助手

标签

探索分类

帮助与支持

联系我们

让AI触手可及，让应用激发潜能

美团开源5677亿参数LongCat模型 登顶数学证明全球基准测试

最新文章

X社区 · 无限公约

二狗PPT

特朗普政府宣布解除Anthropic两款旗舰AI模型出口管制

OceanBase发布湖库一体AI数据库 为AI Agent筑牢核心数据底座

新浪开源VibeThinker-3B，小参数模型比肩百倍规模大模型

AI落地缺标准化训练体系 超六成开发团队陷“盲飞”困境

热门文章

OpenCut

抖音创作者中心

小云雀AI

视频号助手

通义万相

朱雀AI检测助手

标签

探索分类

帮助与支持

联系我们

安装网站应用

美团开源5677亿参数LongCat模型登顶数学证明全球基准测试

OceanBase发布湖库一体AI数据库为AI Agent筑牢核心数据底座

AI落地缺标准化训练体系超六成开发团队陷“盲飞”困境