登录体验完整功能(收藏、点赞、评论等) — 已累计有 12561 人加入

智谱开源GLM-5.1大模型 专业测试反超Claude Opus等头部产品

详情页推荐

2026年4月8日,智谱正式开源旗下新一代大模型GLM-5.1,该产品专为长程任务优化,在专业软件开发基准测试SWE-Bench Pro中拿下58.4分的全球最佳成绩,性能超过已发布的GPT-5.4、Claude Opus 4.6等海外闭源大模型,同时优于MiniMax M2.7、Kimi K2.5等同类开源产品,为AI长程场景落地提供了高性价比的新选项。

SWE-Bench Pro是当前全球公认难度最高的软件开发能力基准测试,其测试样本全部来自GitHub真实Python项目的未解决bug,要求模型在无额外微调的前提下独立完成问题定位与代码修复,得分直接反映大模型的长逻辑链推理和复杂任务处理能力,此前榜单头部位置长期被海外闭源大模型占据。

随着大模型从通用聊天场景向产业端落地,长上下文处理能力已经成为头部厂商的核心竞争方向。不管是动辄几十万字的法律合同审核、全链路代码库迭代,还是长达数小时的音视频内容转写分析,都要求大模型在处理超长文本时不丢失关键信息、逻辑链保持连贯。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。