登录体验完整功能(收藏、点赞、评论等)

智谱开源GLM-5.1大模型 专业测试反超Claude Opus等头部产品

2026年4月8日,智谱正式开源旗下新一代大模型GLM-5.1,该产品专为长程任务优化,在专业软件开发基准测试SWE-Bench Pro中拿下58.4分的全球最佳成绩,性能超过已发布的GPT-5.4、Claude Opus 4.6等海外闭源大模型,同时优于MiniMax M2.7、Kimi K2.5等同类开源产品,为AI长程场景落地提供了高性价比的新选项。

SWE-Bench Pro是当前全球公认难度最高的软件开发能力基准测试,其测试样本全部来自GitHub真实Python项目的未解决bug,要求模型在无额外微调的前提下独立完成问题定位与代码修复,得分直接反映大模型的长逻辑链推理和复杂任务处理能力,此前榜单头部位置长期被海外闭源大模型占据。

随着大模型从通用聊天场景向产业端落地,长上下文处理能力已经成为头部厂商的核心竞争方向。不管是动辄几十万字的法律合同审核、全链路代码库迭代,还是长达数小时的音视频内容转写分析,都要求大模型在处理超长文本时不丢失关键信息、逻辑链保持连贯。

此前市面上长程能力较强的大模型多为闭源产品,企业调用不仅成本较高,还面临数据流出的安全风险,对开源长程大模型的需求持续走高。

本次发布的GLM-5.1正是智谱瞄准长程任务需求打造的核心产品,**其在SWE-Bench Pro测试中拿下的58.4分,是开源大模型首次在该基准上超过所有已发布的闭源大模型**,不仅跑赢了GPT-5.4、Claude Opus 4.6等海外闭源头部产品,也比MiniMax M2.7、Kimi K2.5等同类开源产品的得分高出10个百分点以上。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创