登录体验完整功能(收藏、点赞、评论等) — 立即登录

少找工具,多做创作

马斯克旗下xAI发布Grok 4.20 诚实度指标刷新行业纪录

2026年3月13日,马斯克旗下人工智能公司xAI正式发布大语言模型Grok 4.20 Beta版本。第三方机构Artificial Analysis评测显示,该模型智力跑分48分,低于GPT-5、Gemini Ultra等头部模型的57分,但在AA Omniscience测试中非幻觉率达78%,创下行业新高,主打“诚实度”的定位走出了不同于头部厂商堆料拼性能的差异化路线。

大模型的“胡说八道”问题,终于有厂商拿出了突破性的解决方案。在多数厂商仍在为跑分高低争论不休的当下,xAI的这次更新直接戳中了B端用户最核心的痛点:不少企业用户此前测试大模型落地时,都曾因为AI编造虚假信息的问题放弃了相关项目。

根据Artificial Analysis的公开测试数据,Grok 4.20的通用智力得分为48,确实和第一梯队的头部模型存在接近20%的差距,但在事实可靠性维度的表现足以让行业震动:AA Omniscience测试中78%的非幻觉率,比此前行业最高的62%提升了16个百分点,相当于每10个问题中只有不到2个会出现事实错误。

更值得关注的是其新增的“知之为知之”拒答机制:当模型判断问题超出自身知识边界、或是没有足够信息给出准确答案时,会直接告知用户“我不知道”,而非强行编造看似合理的虚假内容。xAI团队表示,这一特性是专门为科研、法律、企业办公等对事实准确性要求极高的场景设计的,目前已有多家科研机构和企业提交了内测申请。

Grok 4.20的低幻觉特性并非来自参数规模的提升,而是源于训练目标和技术架构的全面调整。据了解,xAI团队在训练过程中大幅提升了事实校验数据的占比,同时为模型设置了更高的“回答置信阈值”:只有当模型对答案的准确性有超过95%的把握时才会给出回复,否则就会触发拒答机制。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创