登录体验完整功能(收藏、点赞、评论等) — 已累计有 8630 人加入

让AI触手可及,让应用激发潜能

谷歌Gemini 3 Deep Think登场 编程能力跻身全球前8

谷歌Gemini 3 Deep Think登场 编程能力跻身全球前8

近日,谷歌AI团队放出重磅升级——姚顺宇加入后的首秀成果Gemini 3 Deep Think正式亮相,直接在AI编程和通用推理领域刷爆多项SOTA纪录。该模型在Codeforces竞技编程平台拿下3455 Elo高分,排名全球第8,仅7名人类顶级程序员能与之匹敌;同时在ARC-AGI-2等核心推理基准上创下历史新高,给Claude Opus 4.6、GPT Codex 5.3等竞品带来强势冲击。

过去一年,AI编程模型的竞争进入白热化阶段。Anthropic推出的Claude Opus 4.6和OpenAI的GPT Codex 5.3先后刷新多项基准测试成绩,让谷歌在AI代码能力赛道的领先地位受到挑战。此次Gemini 3 Deep Think的发布,无疑是谷歌的一次强势反击——用近乎碾压级的成绩,重新定义了AI在复杂逻辑任务中的天花板。

最引人瞩目的当属Codeforces平台的表现。作为全球顶尖程序员聚集的竞技编程平台,Codeforces的Elo分数被视为衡量编程竞技能力的黄金标准,分数越高代表选手解决复杂算法难题、快速实现高效代码的能力越强。Gemini 3 Deep Think拿下的3455 Elo分数,不仅较一年前o3模型创下的2727 Elo历史最高分提升了728分,更直接跻身全球排名第8位。这意味着,当前全球仅有7名人类程序员的编程竞技水平能排在该模型之前,AI在编程领域的能力已经触达人类顶级圈层。

Gemini 3 Deep Think的实力不止于编程。在公认测试AI通用推理能力的前沿基准ARC-AGI-2上,它更是创下了84.6%的史无前例成绩。在此之前,AI模型在该基准的最高得分始终徘徊在60%-70%之间,即便是Anthropic最新的Claude Opus 4.6也仅能达到68.8%。84.6%的得分意味着,该模型在处理需要复杂逻辑推理、跨领域知识迁移的任务时,已经具备了接近人类的思考能力,这也是AGI(通用人工智能)发展道路上的关键一步。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯
AI小创