《纽约时报》近日披露谷歌搜索AI概览功能准确率约为90%,结合谷歌年超5万亿次的搜索基数测算,该功能每小时可产生超5700万条错误答案,每分钟错误信息量近百万条。初创公司Oumi的评估显示,谷歌Gemini模型准确率已从2025年10月的85%提升至2026年2月的91%,但源信息匹配率却反向下滑,虚假信息传播风险引发行业关注。
此次披露的测试数据来自初创公司Oumi针对谷歌搜索的专项评估,团队采用SimpleQA基准覆盖了4326次搜索请求的返回结果,相关测试方法与结论也得到了《纽约时报》的交叉验证。
在普通C端用户的感知里,90%的准确率已经属于可用水平,但放到谷歌每年超5万亿次的搜索大盘中,10%的误差对应的绝对数值足以引发行业警惕:换算下来,AI概览功能每小时会产生超过5700万条错误回答,平均每分钟就有近百万条错误信息直接传递给用户,远高于传统搜索链接模式下用户自行甄别信息的错误概率。
Oumi的测试数据显示,2025年10月搭载Gemini 2的AI概览准确率为85%,到2026年2月升级Gemini 3后,准确率已经提升至91%,半年提升6个百分点的迭代速度符合谷歌此前公布的大模型优化节奏。但值得注意的是,**AI概览内容与原始信息来源不符的比例从37%飙升至56%**,也就是说超过一半的错误回答,会在下方附上与结论完全矛盾的原始链接,很容易误导没有点击查看详情的用户。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
13 分钟前
2026年4月8日,AI大模型企业Anthropic正式推出新一代模型Claude Mythos Preview及配套安全项目Project Glasswing。该模型漏洞挖掘能力远超现有工具,已在以高安全性著称的OpenBSD系统中找出潜藏27年的未知漏洞,更在被自动化工具测试超500万次的FFmpeg代码中定位到未被识别的问题,目前该模型仅对12家指定机构开放使用。

14 分钟前
2026年4月,谷歌针对旗下大语言模型产品Gemini推出安全更新,新增自杀、自残相关危机对话自动识别功能,可一键引导用户对接专业心理健康资源。此次更新正值谷歌遭遇“AI教唆自杀”相关诉讼的舆论敏感期,谷歌同时宣布未来三年将投入3000万美元支持全球心理健康热线建设,引发行业对AI安全责任边界的广泛讨论。

43 分钟前
在2026中国餐饮连锁峰会上,美团高级副总裁李树斌发表《让AI读懂你的店》主旨演讲,明确餐饮商家落地AI的首要任务并非盲目开展高端技术改造,而是先完成门店经营信息的全面真实线上化。为构建AI落地的真实信息底座,大众点评将追加30亿升级本地生活信息基建,支撑AI精准匹配用户多意图消费需求。

1 小时前
2026年4月8日,Google正式宣布将旗下生成式AI大模型Gemini深度集成至Gmail邮箱服务,针对外界对AI处理敏感隐私数据的普遍质疑,Gmail产品副总裁Blake Barnes代表官方作出三项核心隐私承诺,明确Gemini等基础大模型不会使用用户个人邮件内容训练,所有AI处理环节实现数据隔离、权限自动销毁。

2 小时前
2026年4月8日,智谱正式开源旗下新一代大模型GLM-5.1,该产品专为长程任务优化,在专业软件开发基准测试SWE-Bench Pro中拿下58.4分的全球最佳成绩,性能超过已发布的GPT-5.4、Claude Opus 4.6等海外闭源大模型,同时优于MiniMax M2.7、Kimi K2.5等同类开源产品,为AI长程场景落地提供了高性价比的新选项。

2 小时前
2026年4月,微软Bing团队正式开源多语言嵌入模型Harrier,该模型基于超20亿真实训练示例及GPT-5合成数据训练,搭载32000词元上下文窗口,27亿参数版本在MTEB v2基准测试中表现优异,支持超100种语言。目前三款不同参数规格的模型已在Hugging Face以MIT许可发布,可适配不同硬件环境的开发需求。

3 小时前
近日苹果旗下搭载M5自研芯片的15英寸MacBook Air开启150美元专属优惠,到手价低于1200美元。该机型支持最新Wi-Fi 7技术,内置苹果端侧AI框架Apple Intelligence,可实现大模型推理完全本地运行,是当前消费级笔记本市场中端侧AI能力突出的代表性产品,也反映了消费电子厂商争相布局端侧AI落地的行业趋势。

4 小时前
2026年4月,被Claude官方封禁接口的AI开发框架OpenClaw正式上线4.5版本,由创始人Peter(业内称“龙虾之父”)带队研发,本次更新移除新用户默认后端中的Claude CLI,重构梦境记忆系统,新增内置视频、图像、音乐生成功能,Claude Code之父Boris Cherny也现身该版本发布相关讨论,事件引发AI开发者圈广泛关注。