登录体验完整功能(收藏、点赞、评论等) — 立即登录

少找工具,多做创作

xAI发布Grok4.20 Beta 推理升级78%非幻觉率创行业纪录

2026年3月12日,埃隆·马斯克旗下人工智能公司xAI正式发布新一代大语言模型Grok4.20 Beta。据第三方评测机构Artificial Analysis数据,该模型非幻觉率达78%刷新行业纪录,启用推理功能的智能指数获48分较前代提升6分,支持200万令牌上下文窗口,每百万令牌定价2至6美元,综合基准得分略低于Gemini3.1Pro Preview、GPT-5.4。

在大模型商用落地的过程中,“张口就来”的幻觉问题始终是横亘在开发者和用户面前的最大障碍——尤其是在法律、医疗、金融等对事实准确性要求极高的垂直场景,哪怕1%的错误都可能带来无法估量的损失。xAI本次发布的Grok4.20 Beta,正是瞄准这一行业痛点交出的答卷。

过去两年,头部大模型的综合能力迭代速度远超行业预期,但其事实准确性的提升始终相对缓慢。此前公开测试数据显示,全球头部通用大模型的非幻觉率普遍徘徊在65%到74%区间,不少企业级用户为了降低错误率,不得不额外投入大量成本做人工校验、知识库对齐,大幅抬高了大模型的商用门槛。

也正是因此,xAI本次拿出的78%非幻觉率数据才格外受关注:这一数值意味着Grok4.20 Beta的事实错误率较行业平均水平降低了近30%,对于不需要极端通用能力、但对信息准确性要求较高的场景而言,已经基本满足落地要求。

根据第三方机构的完整评测数据,Grok4.20 Beta在启用推理功能的智能指数评测中拿到48分,较前代Grok4提升6分,推理逻辑的连贯性和严谨性都有明显升级。尽管其57分的综合基准测试得分仍略低于谷歌Gemini3.1Pro Preview、OpenAI GPT-5.4两款头部产品,但在事实准确性赛道的优势已经十分明显。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创