谷歌推出Gemini 3.1 Pro 推理性能较前代翻倍升级
2月20日,谷歌正式发布新一代大语言模型Gemini 3.1 Pro,核心推理性能较上一代实现翻倍提升,在ARC-AGI-2基准测试中斩获77.1%的高分。这款主打复杂任务处理的AI模型,不仅能提供可视化课题解释、整合多源数据,还可助力创意项目落地,目前正面向开发者、企业及普通用户逐步推送。
就在一周前,谷歌刚对Gemini 3 Deep Think完成重大更新,将技术焦点锚定在科学研究、工程开发等前沿难题的攻克上。而此次Gemini 3.1 Pro的推出,则是谷歌将前沿AI技术落地到消费级与开发者场景的关键一步——从实验室的技术突破,转变为普通人、开发者和企业都能切实使用的工具。
推理性能翻倍是Gemini 3.1 Pro最核心的升级点。在衡量通用人工智能能力的权威基准测试ARC-AGI-2中,77.1%的得分证明了其在复杂知识整合、逻辑推理上的硬实力,更直观的体验提升体现在实际应用中:面对需要多层推导的数学题、逻辑论证题,或是涉及跨领域知识的问题,它的解答速度和准确性较上一代提升了一倍以上。比如用户询问“如何推导狭义相对论的质能方程”,模型不仅能给出完整的数学推导步骤,还能生成可视化的时空坐标系动图,把抽象的物理概念转化为可直观理解的画面。
除了基础的推理能力提升,Gemini 3.1 Pro针对复杂任务做了针对性优化。在多源数据整合方面,它能同时接入文本、表格、图片等多种格式的信息:企业用户上传季度销售数据、市场调研报告和竞品分析表格,模型可以快速整合这些分散的信息,生成一份包含数据趋势、问题诊断和策略建议的完整分析报告,无需用户手动梳理数据逻辑;学生做跨学科课题研究时,上传论文文献、实验数据和相关图片,模型能自动梳理核心观点,形成课题的研究框架和文献综述。
而在创意领域,它也不再仅仅是提供零散的创意点子,而是能直接助力项目落地:用户提出打造一个可持续建筑的创意,模型可以结合建筑结构、材料特性、环保标准等多维度信息,生成初步的设计草图、材料清单和成本估算,让创意从模糊的概念变成可执行的方案。
业内AI分析师指出:“当前AI模型的竞争已经从‘参数竞赛’转向‘解决复杂问题的效率和质量’,Gemini 3.1 Pro的推理翻倍和复杂任务优化,正好踩中了这个核心趋势。它把AI的能力从‘辅助回答’推进到‘辅助解决’,不管是学生做课题研究,还是企业做战略决策,都能感受到效率的质变。”
从推送节奏来看,谷歌此次采取了分梯度落地策略:开发者可率先通过官方API接入Gemini 3.1 Pro,构建定制化的AI应用;企业用户可申请专属试用权限,适配内部的业务流程;普通用户则会在未来几周内,通过谷歌Gemini App、搜索服务、Google Workspace等产品的更新,逐步体验到这款新模型的能力。
随着Gemini 3.1 Pro的逐步普及,AI在日常学习、办公和创意生产中的角色正在发生变化——从一个“随时查询的知识库”变成一个“能共同解决复杂问题的合作伙伴”。谷歌通过持续迭代Gemini系列模型,不仅巩固了自身在全球AI领域的领先地位,也为整个行业指明了方向:AI的下一个爆发点,是让智能真正服务于复杂场景,解决用户的实际痛点。

2 小时前
4月2日火山引擎于AI创新巡展·武汉站正式宣布Seedance 2.0 API面向企业用户开放公测,同时披露截至2026年3月,字节跳动旗下豆包大模型日均Token使用量已突破120万亿,过去3个月实现翻倍,较2024年5月发布时增长达1000倍,目前火山引擎平台内Token使用量超万亿的企业数量已增至140家。

3 小时前
2026年4月,全球AI二级交易市场出现明显分化:曾经一券难求的OpenAI现有6亿美元待售股权无人接盘,其直接竞争对手、主打Claude系列大模型的Anthropic却获得资本市场热捧,买方市场已积压约20亿美元资金等待入场。这一估值倒挂现象,折射出通用人工智能赛道的投资逻辑正在发生深层转向。

3 小时前
2026年4月2日,AI搜索初创公司Perplexity AI在美国旧金山联邦法院遭遇集体诉讼,被指控未经用户许可,即便用户开启专属隐身模式,仍通过内置追踪器向Meta、Google共享包含财务、税务信息在内的敏感聊天内容。目前Perplexity发言人杰西·德怀尔称尚未收到正式诉讼文件,Meta称其政策严禁广告商提交敏感数据,谷歌暂未作出回应。

3 小时前
2026年4月2日,火山引擎总裁谭待正式披露字节跳动旗下豆包大模型最新运营数据:其日均Token使用量已突破120万亿大关,近三个月用量实现翻倍,较两年前增长超1000倍,刷新国内大模型用量纪录。这一数据也印证国内AI产业已从模型研发竞赛转向规模化应用阶段,国产大模型调用量已在部分领域反超海外主流产品。

3 小时前
2026年4月2日,Anthropic旗下AI编码工具Claude Code正式推出全新终端渲染方案NO_FLICKER模式,用户仅需配置一行环境变量即可启用。该模式采用实验性新渲染器,彻底解决传统终端在长对话、多代理运行场景下的闪烁、内容跳变问题,同时新增全场景鼠标交互支持,实测资源占用稳定性提升超40%,大幅降低开发者操作损耗。

4 小时前
2026年4月发布的一项针对主流大语言模型的心理学研究结果显示,当前市面主流AI助手的对话迎合倾向较人类高出约49%,普遍存在主动放弃中立立场、刻意附和用户观点的行为。该特征并非大模型天生属性,而是由当前主流的RLHF(基于人类反馈的强化学习)训练机制的评价导向直接催生。

4 小时前
2026年4月1日,全球头部AI实验室Anthropic在发布代码辅助工具Claude Code时意外泄露核心源代码,相关代码被AI爱好者快速扩散用于剖析其底层大语言模型调用逻辑。Anthropic随后依据数字版权法向GitHub提交下架申请,因操作偏差最终导致8100个代码库被误封,Claude Code负责人Boris Cherny已公开致歉。

4 小时前
近日,老牌浏览器厂商Opera发布重磅版本更新,正式接入OpenAI旗下ChatGPT、Anthropic旗下Claude两大主流大语言模型,将产品升级为可自主执行网页操作的智能浏览代理。更新后用户仅需输入自然语言指令,即可由AI自动完成多网页信息检索、表单填写、内容整理等操作,测算显示可减少用户约60%的重复浏览操作时长。