谷歌Gemini 3 Deep Think登场 编程能力跻身全球前8

5 小时前 AI快讯 1

谷歌Gemini 3 Deep Think登场 编程能力跻身全球前8

近日,谷歌AI团队放出重磅升级——姚顺宇加入后的首秀成果Gemini 3 Deep Think正式亮相,直接在AI编程和通用推理领域刷爆多项SOTA纪录。该模型在Codeforces竞技编程平台拿下3455 Elo高分,排名全球第8,仅7名人类顶级程序员能与之匹敌;同时在ARC-AGI-2等核心推理基准上创下历史新高,给Claude Opus 4.6、GPT Codex 5.3等竞品带来强势冲击。

过去一年,AI编程模型的竞争进入白热化阶段。Anthropic推出的Claude Opus 4.6和OpenAI的GPT Codex 5.3先后刷新多项基准测试成绩,让谷歌在AI代码能力赛道的领先地位受到挑战。此次Gemini 3 Deep Think的发布,无疑是谷歌的一次强势反击——用近乎碾压级的成绩,重新定义了AI在复杂逻辑任务中的天花板。

最引人瞩目的当属Codeforces平台的表现。作为全球顶尖程序员聚集的竞技编程平台,Codeforces的Elo分数被视为衡量编程竞技能力的黄金标准,分数越高代表选手解决复杂算法难题、快速实现高效代码的能力越强。Gemini 3 Deep Think拿下的3455 Elo分数,不仅较一年前o3模型创下的2727 Elo历史最高分提升了728分,更直接跻身全球排名第8位。这意味着,当前全球仅有7名人类程序员的编程竞技水平能排在该模型之前,AI在编程领域的能力已经触达人类顶级圈层。

Gemini 3 Deep Think的实力不止于编程。在公认测试AI通用推理能力的前沿基准ARC-AGI-2上,它更是创下了84.6%的史无前例成绩。在此之前,AI模型在该基准的最高得分始终徘徊在60%-70%之间,即便是Anthropic最新的Claude Opus 4.6也仅能达到68.8%。84.6%的得分意味着,该模型在处理需要复杂逻辑推理、跨领域知识迁移的任务时,已经具备了接近人类的思考能力,这也是AGI(通用人工智能)发展道路上的关键一步。

在被称为“人类最后考试”的HLE测试中,Gemini 3 Deep Think同样刷新SOTA,拿下48.4%的成绩。HLE测试包含大量需要人类常识、抽象思维和创造力的任务,此前AI模型的表现一直难以突破40%,此次提升标志着AI在通用智能维度又向前迈进了一大步。

AI产业分析师李明指出,Gemini 3 Deep Think的多项突破具有里程碑意义:“此前人们认为AI编程只能处理常规业务场景,而此次在Codeforces的排名证明,AI已经能解决全球最顶尖的编程难题。”他表示,未来程序员的角色将逐渐从“代码撰写者”转向“AI协作者”,更多聚焦于系统架构设计、需求分析等高价值环节,而底层编码、算法实现等工作将逐步被AI替代。

同时,这次升级也将进一步加剧AI巨头之间的竞争。OpenAI和Anthropic此前在代码和推理领域的优势被谷歌一举打破,业内普遍预计,两大厂商将在短期内推出更强大的模型迭代,AI军备竞赛的节奏将再次加快。姚顺宇的谷歌首秀交出了超出预期的答卷,Gemini 3 Deep Think的出现不仅刷新了AI能力的上限,也让人们重新思考人类与AI在技术领域的协作边界。

所属分类
×

微信二维码

请选择您要添加的方式

AI小创