2026年3月24日,美团龙猫团队正式开源面向数学形式化与定理证明的深度学习模型LongCat-Flash-Prover。该模型将形式化推理拆解为三大原子能力,破解大语言模型逻辑推演短板,在MiniF2F-Test基准测试中仅用72次推理预算即实现97.1%通过率,刷新开源Prover模型SOTA,在高难度竞赛级任务中表现也领先现有开源方案。
长期以来,大语言模型在数学推理场景始终面临“幻觉频发”的核心瓶颈,哪怕是GPT-4等头部闭源模型,也经常在需要严密逻辑链的证明题中出现步骤跳变、结论错误的问题,行业始终在寻找能实现确定性逻辑推演的技术路径。
在通用大模型的能力迭代进入瓶颈期后,数学推理能力被视为AGI落地的核心门槛之一。无论是基础数学研究中的定理验证,还是芯片设计、密码学、量子计算等工业场景中的逻辑校验,都需要模型输出100%准确的推导过程,而此前基于概率预测的大语言模型始终无法避免幻觉问题,哪怕是头部闭源模型,在需要多步骤严密推导的证明题中,错误率也始终居高不下。
此前开源领域的定理证明模型,在MiniF2F-Test基准的通过率普遍低于85%,且往往需要超过120次推理才能达到最优表现,计算成本极高,很难落地到实际场景中。
LongCat-Flash-Prover的核心创新,在于打破了此前端到端推理的传统架构,将复杂的形式化推理拆解为自动形式化、草稿生成、证明生成三大独立原子能力,每个模块针对单一任务专项优化,大幅降低了多步骤推导中的信息损耗与误差累积,实现了从“概率预测答案”到“严谨逻辑证明”的范式转变。
在官方公布的测试数据中,该模型搭配工具集成推理(TIR)策略后,在行业通用的MiniF2F-Test基准测试中,仅需72次推理预算即可实现97.1%的通过率,不仅刷新了开源Prover模型的SOTA纪录,推理成本也较此前的最优方案下降了40%。在面向奥赛、普特南数学竞赛等更高难度的MathOlympiad-Bench、PutnamBench测试集中,该模型的表现也全面超越现有开源模型,部分题目的准确率已经接近头部闭源大模型水平。
此次美团龙猫团队选择将LongCat-Flash-Prover完全开源,也填补了国内在专用推理模型领域的开源空白,全球研究者都可以直接调用模型能力或基于现有架构二次开发,无需从零开始训练。
据行业研究者介绍,该模型的落地场景十分广泛:在基础科研领域,可辅助数学家完成重复性的推导验证工作,大幅降低前沿定理证明的人力成本;在工业场景中,可用于芯片逻辑正确性校验、密码协议安全审计、AI生成代码的逻辑验证等对准确率要求极高的场景;甚至在教育领域,也可以作为智能教具,为学生提供数学证明题的 step-by-step 指导。
有业内人士指出,当前通用大模型的同质化竞争已经进入红海,而面向垂直场景的专用小模型反而有更高的落地价值,此次LongCat-Flash-Prover的推出,也为国内AI团队的技术迭代提供了新的思路。

5 分钟前
据MIT科技评论2026年3月30日发布的专项报道,记者Grace Huckins调研发现,当前全球获批及待上线的AI医疗工具数量较2023年增长超270%,涵盖专科问诊、慢病管理、影像筛查等多个场景,但仅有不足19%的工具通过了大规模真实世界临床验证,其实际效用与潜在风险尚未形成统一评估标准,引发医疗与AI领域的双重讨论。

16 小时前
2026年3月30日,格隆汇援引界面新闻消息披露,国产大模型厂商月之暗面(Moonshot AI)推出Kimi K2.5大模型仅一个月后,公司年度经常性收入(ARR)正式突破1亿美元,成功跻身全球AI商业化第一梯队。此次亮眼营收印证了思考型大模型在企业端的高变现价值,行业也出现企业客户预付千万美元抢购算力配额的罕见现象。

16 小时前
2026年3月30日,据Readhub报道,被誉为“欧洲版OpenAI”的法国AI初创企业Mistral AI完成8.3亿美元债务融资,这笔资金由7家银行组成的财团提供,将全部投入算力基础设施建设,核心采购计划为1.38万片英伟达顶级AI芯片,旨在强化大模型训练推理能力,打破中美在通用人工智能领域的主导格局,是欧洲AI发力全球竞赛的标志性动作。

18 小时前
2026年3月30日,埃隆·马斯克旗下AI创业公司xAI曝出核心人事变动,公司最后一位联合创始人、原谷歌DeepMind明星工程师Tony Wu确认离职。这意味着xAI2023年成立时招募的12位来自OpenAI、谷歌、微软的顶尖创始成员,在成立不到三年内已全部流失,此事引发业内对xAI技术研发连续性、内部管理的广泛讨论,也折射出当前AI大模型赛道人才争夺的激烈现状。

20 小时前
2026年3月30日,中文大模型权威基准测评SuperCLUE发布2026年3月最新测评结果,本次共有22款国内外主流大模型参评,覆盖六大核心能力维度。测评显示,字节跳动旗下豆包Doubao-Seed-2.0-pro以71.53分拿下国内第一,跻身全球第一梯队,与OpenAI GPT-5.4的分差已缩小至0.95分,小米MiMo在数学推理单项取得顶尖成绩,标志国产大模型进入高速追赶新阶段。

23 小时前
2026年3月30日,国内大模型产品千问正式上线AI打车、AI充话费等一系列“AI办事”新功能,同步启动用户体验官招募计划,3月30日至4月6日期间每日开放100万体验名额,参与者可领取最高17元体验补贴,平台将基于用户反馈优化AI对复杂场景意图的理解与执行能力,推动通用人工智能落地真实生活场景。

23 小时前
2026年3月30日消息,科技巨头谷歌与AI独角兽Anthropic达成里程碑式融资协议,谷歌将投入数十亿美元,为后者建设专属AI数据中心算力基地。此次合作标志着全球AI领域的竞争已从大模型技术研发层面,延伸到底层算力基础设施的布局,算力正成为科技巨头划分AI赛道势力范围的核心筹码。

1 天前
2026年3月30日披露的合作信息显示,科技巨头谷歌将向AI独角兽Anthropic提供数十亿美元定向融资,专项用于后者租用谷歌数据中心的算力开支。作为OpenAI的核心竞品,Anthropic当前估值已突破3500亿美元,此次合作标志着双方从股权投资到算力基建的绑定进一步深化,凸显算力在大模型竞争中的核心地位。