2026年4月8日,智谱正式开源旗下新一代大模型GLM-5.1,该产品专为长程任务优化,在专业软件开发基准测试SWE-Bench Pro中拿下58.4分的全球最佳成绩,性能超过已发布的GPT-5.4、Claude Opus 4.6等海外闭源大模型,同时优于MiniMax M2.7、Kimi K2.5等同类开源产品,为AI长程场景落地提供了高性价比的新选项。
SWE-Bench Pro是当前全球公认难度最高的软件开发能力基准测试,其测试样本全部来自GitHub真实Python项目的未解决bug,要求模型在无额外微调的前提下独立完成问题定位与代码修复,得分直接反映大模型的长逻辑链推理和复杂任务处理能力,此前榜单头部位置长期被海外闭源大模型占据。
随着大模型从通用聊天场景向产业端落地,长上下文处理能力已经成为头部厂商的核心竞争方向。不管是动辄几十万字的法律合同审核、全链路代码库迭代,还是长达数小时的音视频内容转写分析,都要求大模型在处理超长文本时不丢失关键信息、逻辑链保持连贯。
此前市面上长程能力较强的大模型多为闭源产品,企业调用不仅成本较高,还面临数据流出的安全风险,对开源长程大模型的需求持续走高。
本次发布的GLM-5.1正是智谱瞄准长程任务需求打造的核心产品,**其在SWE-Bench Pro测试中拿下的58.4分,是开源大模型首次在该基准上超过所有已发布的闭源大模型**,不仅跑赢了GPT-5.4、Claude Opus 4.6等海外闭源头部产品,也比MiniMax M2.7、Kimi K2.5等同类开源产品的得分高出10个百分点以上。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
16 分钟前
2026年4月8日,AI大模型企业Anthropic正式推出新一代模型Claude Mythos Preview及配套安全项目Project Glasswing。该模型漏洞挖掘能力远超现有工具,已在以高安全性著称的OpenBSD系统中找出潜藏27年的未知漏洞,更在被自动化工具测试超500万次的FFmpeg代码中定位到未被识别的问题,目前该模型仅对12家指定机构开放使用。

18 分钟前
2026年4月,谷歌针对旗下大语言模型产品Gemini推出安全更新,新增自杀、自残相关危机对话自动识别功能,可一键引导用户对接专业心理健康资源。此次更新正值谷歌遭遇“AI教唆自杀”相关诉讼的舆论敏感期,谷歌同时宣布未来三年将投入3000万美元支持全球心理健康热线建设,引发行业对AI安全责任边界的广泛讨论。

46 分钟前
在2026中国餐饮连锁峰会上,美团高级副总裁李树斌发表《让AI读懂你的店》主旨演讲,明确餐饮商家落地AI的首要任务并非盲目开展高端技术改造,而是先完成门店经营信息的全面真实线上化。为构建AI落地的真实信息底座,大众点评将追加30亿升级本地生活信息基建,支撑AI精准匹配用户多意图消费需求。

1 小时前
2026年4月8日,Google正式宣布将旗下生成式AI大模型Gemini深度集成至Gmail邮箱服务,针对外界对AI处理敏感隐私数据的普遍质疑,Gmail产品副总裁Blake Barnes代表官方作出三项核心隐私承诺,明确Gemini等基础大模型不会使用用户个人邮件内容训练,所有AI处理环节实现数据隔离、权限自动销毁。

2 小时前
《纽约时报》近日披露谷歌搜索AI概览功能准确率约为90%,结合谷歌年超5万亿次的搜索基数测算,该功能每小时可产生超5700万条错误答案,每分钟错误信息量近百万条。初创公司Oumi的评估显示,谷歌Gemini模型准确率已从2025年10月的85%提升至2026年2月的91%,但源信息匹配率却反向下滑,虚假信息传播风险引发行业关注。

2 小时前
2026年4月,微软Bing团队正式开源多语言嵌入模型Harrier,该模型基于超20亿真实训练示例及GPT-5合成数据训练,搭载32000词元上下文窗口,27亿参数版本在MTEB v2基准测试中表现优异,支持超100种语言。目前三款不同参数规格的模型已在Hugging Face以MIT许可发布,可适配不同硬件环境的开发需求。

3 小时前
近日苹果旗下搭载M5自研芯片的15英寸MacBook Air开启150美元专属优惠,到手价低于1200美元。该机型支持最新Wi-Fi 7技术,内置苹果端侧AI框架Apple Intelligence,可实现大模型推理完全本地运行,是当前消费级笔记本市场中端侧AI能力突出的代表性产品,也反映了消费电子厂商争相布局端侧AI落地的行业趋势。

4 小时前
2026年4月,被Claude官方封禁接口的AI开发框架OpenClaw正式上线4.5版本,由创始人Peter(业内称“龙虾之父”)带队研发,本次更新移除新用户默认后端中的Claude CLI,重构梦境记忆系统,新增内置视频、图像、音乐生成功能,Claude Code之父Boris Cherny也现身该版本发布相关讨论,事件引发AI开发者圈广泛关注。