马斯克旗下xAI发布Grok 4.20 诚实度指标刷新行业纪录

AI创作导航管理员 LV4 资深连续登录7天萌新

3 个月前

风向

288

2026年3月13日，马斯克旗下人工智能公司xAI正式发布大语言模型Grok 4.20 Beta版本。第三方机构Artificial Analysis评测显示，该模型智力跑分48分，低于GPT-5、Gemini Ultra等头部模型的57分，但在AA Omniscience测试中非幻觉率达78%，创下行业新高，主打“诚实度”的定位走出了不同于头部厂商堆料拼性能的差异化路线。

大模型的“胡说八道”问题，终于有厂商拿出了突破性的解决方案。在多数厂商仍在为跑分高低争论不休的当下，xAI的这次更新直接戳中了B端用户最核心的痛点：不少企业用户此前测试大模型落地时，都曾因为AI编造虚假信息的问题放弃了相关项目。

根据Artificial Analysis的公开测试数据，Grok 4.20的通用智力得分为48，确实和第一梯队的头部模型存在接近20%的差距，但在事实可靠性维度的表现足以让行业震动：AA Omniscience测试中78%的非幻觉率，比此前行业最高的62%提升了16个百分点，相当于每10个问题中只有不到2个会出现事实错误。

大语言模型人工智能 xAI Grok AI幻觉 4.20

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

马斯克旗下xAI发布Grok 4.20 诚实度指标刷新行业纪录

最新文章

X社区 · 无限公约

二狗PPT

特朗普政府宣布解除Anthropic两款旗舰AI模型出口管制

OceanBase发布湖库一体AI数据库为AI Agent筑牢核心数据底座

新浪开源VibeThinker-3B，小参数模型比肩百倍规模大模型

AI落地缺标准化训练体系超六成开发团队陷“盲飞”困境

热门文章

OpenCut

抖音创作者中心

小云雀AI

视频号助手

通义万相

朱雀AI检测助手

标签

探索分类

帮助与支持

联系我们

让AI触手可及，让应用激发潜能

马斯克旗下xAI发布Grok 4.20 诚实度指标刷新行业纪录

最新文章

X社区 · 无限公约

二狗PPT

特朗普政府宣布解除Anthropic两款旗舰AI模型出口管制

OceanBase发布湖库一体AI数据库 为AI Agent筑牢核心数据底座

新浪开源VibeThinker-3B，小参数模型比肩百倍规模大模型

AI落地缺标准化训练体系 超六成开发团队陷“盲飞”困境

热门文章

OpenCut

抖音创作者中心

小云雀AI

视频号助手

通义万相

朱雀AI检测助手

标签

探索分类

帮助与支持

联系我们

安装网站应用

OceanBase发布湖库一体AI数据库为AI Agent筑牢核心数据底座

AI落地缺标准化训练体系超六成开发团队陷“盲飞”困境