谷歌Gemini 3 Deep Think登场编程能力跻身全球前8

5 小时前 AI快讯 1

近日，谷歌AI团队放出重磅升级——姚顺宇加入后的首秀成果Gemini 3 Deep Think正式亮相，直接在AI编程和通用推理领域刷爆多项SOTA纪录。该模型在Codeforces竞技编程平台拿下3455 Elo高分，排名全球第8，仅7名人类顶级程序员能与之匹敌；同时在ARC-AGI-2等核心推理基准上创下历史新高，给Claude Opus 4.6、GPT Codex 5.3等竞品带来强势冲击。

过去一年，AI编程模型的竞争进入白热化阶段。Anthropic推出的Claude Opus 4.6和OpenAI的GPT Codex 5.3先后刷新多项基准测试成绩，让谷歌在AI代码能力赛道的领先地位受到挑战。此次Gemini 3 Deep Think的发布，无疑是谷歌的一次强势反击——用近乎碾压级的成绩，重新定义了AI在复杂逻辑任务中的天花板。

最引人瞩目的当属Codeforces平台的表现。作为全球顶尖程序员聚集的竞技编程平台，Codeforces的Elo分数被视为衡量编程竞技能力的黄金标准，分数越高代表选手解决复杂算法难题、快速实现高效代码的能力越强。Gemini 3 Deep Think拿下的3455 Elo分数，不仅较一年前o3模型创下的2727 Elo历史最高分提升了728分，更直接跻身全球排名第8位。这意味着，当前全球仅有7名人类程序员的编程竞技水平能排在该模型之前，AI在编程领域的能力已经触达人类顶级圈层。

Gemini 3 Deep Think的实力不止于编程。在公认测试AI通用推理能力的前沿基准ARC-AGI-2上，它更是创下了84.6%的史无前例成绩。在此之前，AI模型在该基准的最高得分始终徘徊在60%-70%之间，即便是Anthropic最新的Claude Opus 4.6也仅能达到68.8%。84.6%的得分意味着，该模型在处理需要复杂逻辑推理、跨领域知识迁移的任务时，已经具备了接近人类的思考能力，这也是AGI（通用人工智能）发展道路上的关键一步。

在被称为“人类最后考试”的HLE测试中，Gemini 3 Deep Think同样刷新SOTA，拿下48.4%的成绩。HLE测试包含大量需要人类常识、抽象思维和创造力的任务，此前AI模型的表现一直难以突破40%，此次提升标志着AI在通用智能维度又向前迈进了一大步。

AI产业分析师李明指出，Gemini 3 Deep Think的多项突破具有里程碑意义：“此前人们认为AI编程只能处理常规业务场景，而此次在Codeforces的排名证明，AI已经能解决全球最顶尖的编程难题。”他表示，未来程序员的角色将逐渐从“代码撰写者”转向“AI协作者”，更多聚焦于系统架构设计、需求分析等高价值环节，而底层编码、算法实现等工作将逐步被AI替代。

同时，这次升级也将进一步加剧AI巨头之间的竞争。OpenAI和Anthropic此前在代码和推理领域的优势被谷歌一举打破，业内普遍预计，两大厂商将在短期内推出更强大的模型迭代，AI军备竞赛的节奏将再次加快。姚顺宇的谷歌首秀交出了超出预期的答卷，Gemini 3 Deep Think的出现不仅刷新了AI能力的上限，也让人们重新思考人类与AI在技术领域的协作边界。

Gemini 3 Deep Think AI编程 SOTA纪录 AGI推理

本文内容来源于公开互联网信息，并包含平台新增内容及用户发布内容，旨在进行知识整理与分享。文中所有信息与观点均仅供参考，不代表任何官方或特定立场，亦不构成任何操作或决策建议，请读者谨慎甄别，详情请见完整免责声明

所属分类

AI快讯

谷歌Gemini 3 Deep Think登场编程能力跻身全球前8

谷歌Gemini遭大规模蒸馏攻击单次攻击提示超10万次

谷歌Gemini遭大规模蒸馏攻击单次超10万次提示涉核心风险