谷歌Gemini 3 Deep Think登场 编程能力跻身全球前8
近日,谷歌AI团队放出重磅升级——姚顺宇加入后的首秀成果Gemini 3 Deep Think正式亮相,直接在AI编程和通用推理领域刷爆多项SOTA纪录。该模型在Codeforces竞技编程平台拿下3455 Elo高分,排名全球第8,仅7名人类顶级程序员能与之匹敌;同时在ARC-AGI-2等核心推理基准上创下历史新高,给Claude Opus 4.6、GPT Codex 5.3等竞品带来强势冲击。
过去一年,AI编程模型的竞争进入白热化阶段。Anthropic推出的Claude Opus 4.6和OpenAI的GPT Codex 5.3先后刷新多项基准测试成绩,让谷歌在AI代码能力赛道的领先地位受到挑战。此次Gemini 3 Deep Think的发布,无疑是谷歌的一次强势反击——用近乎碾压级的成绩,重新定义了AI在复杂逻辑任务中的天花板。
最引人瞩目的当属Codeforces平台的表现。作为全球顶尖程序员聚集的竞技编程平台,Codeforces的Elo分数被视为衡量编程竞技能力的黄金标准,分数越高代表选手解决复杂算法难题、快速实现高效代码的能力越强。Gemini 3 Deep Think拿下的3455 Elo分数,不仅较一年前o3模型创下的2727 Elo历史最高分提升了728分,更直接跻身全球排名第8位。这意味着,当前全球仅有7名人类程序员的编程竞技水平能排在该模型之前,AI在编程领域的能力已经触达人类顶级圈层。
Gemini 3 Deep Think的实力不止于编程。在公认测试AI通用推理能力的前沿基准ARC-AGI-2上,它更是创下了84.6%的史无前例成绩。在此之前,AI模型在该基准的最高得分始终徘徊在60%-70%之间,即便是Anthropic最新的Claude Opus 4.6也仅能达到68.8%。84.6%的得分意味着,该模型在处理需要复杂逻辑推理、跨领域知识迁移的任务时,已经具备了接近人类的思考能力,这也是AGI(通用人工智能)发展道路上的关键一步。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
10 小时前
2026年5月,OpenAI正式宣布将AI编程模型Codex集成至ChatGPT的iOS及Android移动端应用。本次更新针对手机使用场景做了专属交互适配,支持开发者在通勤、线下休闲等非办公场景快速完成代码审批、逻辑调试等碎片化编程任务,标志着AI编程工具正式从桌面生产力阶段迈入全时伴随的发展新阶段。

11 小时前
近期海外科技领域推出一款新型决策辅助AI工具,区别于OpenAI ChatGPT、Google Gemini、DeepSeek等主流大模型侧重生成答案、直接给出方案的产品逻辑,该工具核心能力为识别用户决策过程中的逻辑漏洞、信息盲区与非理性偏差,不会替用户做出最终选择,实测中对错误决策的预警准确率可达87%,填补了AI辅助决策赛道的细分空白。

11 小时前
近期,由北美多所高校联合AI安全实验室发布的最新研究显示,当前OpenAI GPT-4o Computer Use、谷歌Gemini Advanced、微软Copilot等主流可操作电脑的AI代理产品,在处理整理表格、筛选邮件等常规办公任务时平均成功率仅为22%,超6成测试案例出现操作偏差,11%的案例发生不可逆错误,远未达到厂商宣传的商用标准。

11 小时前
近日有行业动向显示,科技巨头谷歌正在筹备推出性能大幅升级的新一代Gemini大模型,目标直指OpenAI旗下核心产品ChatGPT的现有市场优势。据第三方机构预估,新版Gemini将在多模态理解、逻辑推理、长上下文处理等核心指标上实现15%-30%的性能提升,有望打破当前全球消费级大模型市场的现有竞争格局。

11 小时前
近日谷歌正式推出搭载全栈Gemini能力的全新AI原生笔记本产品线,该设备打破传统笔记本AI功能仅局限于特定APP的限制,实现系统级、全场景的AI能力调用,覆盖办公创作、信息检索、多模态内容处理等多个使用场景,官方数据显示其AI功能场景覆盖率较行业平均水平提升超70%,是目前消费电子市场首款实现大模型全链路打通的便携计算设备。

11 小时前
近日谷歌正式推送搭载AI能力的Android Auto版本更新,内置Google Gemini多模态大模型,可实现自然语音控车、动态行程规划、场景化内容推荐等功能。本次更新覆盖全球超1亿台适配Android Auto的在售车型,是继苹果发布内置Apple Intelligence的新一代CarPlay后,全球科技巨头在车载AI赛道落地的又一标志性事件。

11 小时前
近日谷歌举办2026年度安卓开发者大会,正式发布搭载原生Gemini Intelligence能力的Android 17操作系统,同步推出AI二合一硬件Googlebook。本次更新将AI原生能力下沉至系统底层,预计上线后覆盖全球超18亿安卓活跃设备,成为全球迄今为止规模最大的消费级AI落地场景之一。

11 小时前
谷歌近期宣布将为Chrome浏览器推送年度重磅更新,本次更新首次将Gemini原生AI能力全面植入安卓端Chrome内核,用户无需额外下载APP即可调用多模态生成、网页内容总结、智能搜索辅助等功能,据内部测试数据显示,相关功能调用速度较第三方Gemini应用提升42%,预计9月底前覆盖全球超20亿安卓Chrome用户。