2026年3月13日,马斯克旗下人工智能公司xAI正式发布大语言模型Grok 4.20 Beta版本。第三方机构Artificial Analysis评测显示,该模型智力跑分48分,低于GPT-5、Gemini Ultra等头部模型的57分,但在AA Omniscience测试中非幻觉率达78%,创下行业新高,主打“诚实度”的定位走出了不同于头部厂商堆料拼性能的差异化路线。
大模型的“胡说八道”问题,终于有厂商拿出了突破性的解决方案。在多数厂商仍在为跑分高低争论不休的当下,xAI的这次更新直接戳中了B端用户最核心的痛点:不少企业用户此前测试大模型落地时,都曾因为AI编造虚假信息的问题放弃了相关项目。
根据Artificial Analysis的公开测试数据,Grok 4.20的通用智力得分为48,确实和第一梯队的头部模型存在接近20%的差距,但在事实可靠性维度的表现足以让行业震动:AA Omniscience测试中78%的非幻觉率,比此前行业最高的62%提升了16个百分点,相当于每10个问题中只有不到2个会出现事实错误。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录