2026年4月8日,智谱正式开源旗下新一代大模型GLM-5.1,该产品专为长程任务优化,在专业软件开发基准测试SWE-Bench Pro中拿下58.4分的全球最佳成绩,性能超过已发布的GPT-5.4、Claude Opus 4.6等海外闭源大模型,同时优于MiniMax M2.7、Kimi K2.5等同类开源产品,为AI长程场景落地提供了高性价比的新选项。
SWE-Bench Pro是当前全球公认难度最高的软件开发能力基准测试,其测试样本全部来自GitHub真实Python项目的未解决bug,要求模型在无额外微调的前提下独立完成问题定位与代码修复,得分直接反映大模型的长逻辑链推理和复杂任务处理能力,此前榜单头部位置长期被海外闭源大模型占据。
随着大模型从通用聊天场景向产业端落地,长上下文处理能力已经成为头部厂商的核心竞争方向。不管是动辄几十万字的法律合同审核、全链路代码库迭代,还是长达数小时的音视频内容转写分析,都要求大模型在处理超长文本时不丢失关键信息、逻辑链保持连贯。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录