2026年3月12日,埃隆·马斯克旗下人工智能公司xAI正式发布新一代大语言模型Grok4.20 Beta。据第三方评测机构Artificial Analysis数据,该模型非幻觉率达78%刷新行业纪录,启用推理功能的智能指数获48分较前代提升6分,支持200万令牌上下文窗口,每百万令牌定价2至6美元,综合基准得分略低于Gemini3.1Pro Preview、GPT-5.4。
在大模型商用落地的过程中,“张口就来”的幻觉问题始终是横亘在开发者和用户面前的最大障碍——尤其是在法律、医疗、金融等对事实准确性要求极高的垂直场景,哪怕1%的错误都可能带来无法估量的损失。xAI本次发布的Grok4.20 Beta,正是瞄准这一行业痛点交出的答卷。
过去两年,头部大模型的综合能力迭代速度远超行业预期,但其事实准确性的提升始终相对缓慢。此前公开测试数据显示,全球头部通用大模型的非幻觉率普遍徘徊在65%到74%区间,不少企业级用户为了降低错误率,不得不额外投入大量成本做人工校验、知识库对齐,大幅抬高了大模型的商用门槛。
也正是因此,xAI本次拿出的78%非幻觉率数据才格外受关注:这一数值意味着Grok4.20 Beta的事实错误率较行业平均水平降低了近30%,对于不需要极端通用能力、但对信息准确性要求较高的场景而言,已经基本满足落地要求。
根据第三方机构的完整评测数据,Grok4.20 Beta在启用推理功能的智能指数评测中拿到48分,较前代Grok4提升6分,推理逻辑的连贯性和严谨性都有明显升级。尽管其57分的综合基准测试得分仍略低于谷歌Gemini3.1Pro Preview、OpenAI GPT-5.4两款头部产品,但在事实准确性赛道的优势已经十分明显。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
4 小时前
Rainmaker Securities总裁Glen Anderson最新披露,当前全球私人股权二级市场活跃度创下历史峰值,AI创企Anthropic成为最受追捧的交易标的,同赛道头部企业OpenAI交易热度出现明显下滑,而SpaceX临近的IPO计划,或将对整个一级科技创投市场的资金流向产生颠覆性影响。

9 小时前
谷歌近日面向企业级客户发布全新AI推理管控套件,针对当前企业部署大模型时平均推理成本占AI总支出60%以上、峰值时段服务可用性不足92%的行业痛点,提供动态算力调度、故障自动切换等功能,可帮助企业将推理环节综合成本降低30%左右,同时大幅提升生成式AI服务的运行稳定性。

9 小时前
2026年4月,人工智能头部企业OpenAI官宣最新一轮高管架构调整:首席运营官布拉德·莱特卡普(Brad Lightcap)将卸任原有职务,转任公司内部全新设立的“特殊项目”部门负责人;首席营销官凯特·劳奇(Kate Rouch)因癌症治疗将暂时离岗,待身体康复后回归。本轮调整是OpenAI 2026年首次公开的核心管理层变动,引发行业对其新业务布局的广泛关注。

9 小时前
2026年美国中期选举进入倒计时阶段,头部大模型企业Anthropic近日宣布成立全新政治行动委员会(PAC),计划定向支持认同其分级AI监管、算力资源倾斜、AIGC版权保护等政策议程的议员候选人。此次动作是头部AI企业从技术研发向政策上游延伸的标志性事件,也意味着全球AI行业的政策博弈进入白热化阶段。

9 小时前
据科技媒体The Information及行业分析师Eric Newcomer披露,AI大模型厂商Anthropic已于近期完成对秘密运营的生物科技AI初创公司Coefficient Bio的收购,本次交易为全股票形式,总对价达4亿美元。这是Anthropic首次落地生命科学垂直领域布局,也标志着大模型厂商商业化正加速向生物医药赛道渗透。

10 小时前
近日,AI大模型企业Anthropic宣布为旗下对话式AI产品Claude推出Windows平台本地交互能力,新版本可直接跨应用调取用户邮件、本地存储的各类文档,还能自主执行系统级任务操作。据官方披露,该功能可将文档整理、日程响应类办公流程的处理效率提升45%,无需用户手动上传文件即可完成复杂指令。

10 小时前
谷歌近期推出定价仅3美元的AI算力棒Magic Stick,主打为服役超过5年的老旧Windows、Mac PC提供轻量化AI算力支撑,用户无需更换硬件即可流畅运行Gemini全系AI服务,解决旧设备本地算力不足无法加载大语言模型的痛点。该产品瞄准全球超12亿台服役超期的存量PC市场,最快2024年第四季度正式开售。

10 小时前
前Facebook核心内容安全团队成员创立的AI治理服务商Moonbounce于近日完成1200万美元融资,其核心产品AI控制引擎可将平台内容审核政策转化为统一、可预测的AI行为判定标准,解决当前AI时代多模态内容审核标准混乱、一致性差的行业痛点,该笔融资将主要用于技术研发与客户场景拓展。