2026年3月13日,马斯克旗下人工智能公司xAI正式发布大语言模型Grok 4.20 Beta版本。第三方机构Artificial Analysis评测显示,该模型智力跑分48分,低于GPT-5、Gemini Ultra等头部模型的57分,但在AA Omniscience测试中非幻觉率达78%,创下行业新高,主打“诚实度”的定位走出了不同于头部厂商堆料拼性能的差异化路线。
大模型的“胡说八道”问题,终于有厂商拿出了突破性的解决方案。在多数厂商仍在为跑分高低争论不休的当下,xAI的这次更新直接戳中了B端用户最核心的痛点:不少企业用户此前测试大模型落地时,都曾因为AI编造虚假信息的问题放弃了相关项目。
根据Artificial Analysis的公开测试数据,Grok 4.20的通用智力得分为48,确实和第一梯队的头部模型存在接近20%的差距,但在事实可靠性维度的表现足以让行业震动:AA Omniscience测试中78%的非幻觉率,比此前行业最高的62%提升了16个百分点,相当于每10个问题中只有不到2个会出现事实错误。
更值得关注的是其新增的“知之为知之”拒答机制:当模型判断问题超出自身知识边界、或是没有足够信息给出准确答案时,会直接告知用户“我不知道”,而非强行编造看似合理的虚假内容。xAI团队表示,这一特性是专门为科研、法律、企业办公等对事实准确性要求极高的场景设计的,目前已有多家科研机构和企业提交了内测申请。
Grok 4.20的低幻觉特性并非来自参数规模的提升,而是源于训练目标和技术架构的全面调整。据了解,xAI团队在训练过程中大幅提升了事实校验数据的占比,同时为模型设置了更高的“回答置信阈值”:只有当模型对答案的准确性有超过95%的把握时才会给出回复,否则就会触发拒答机制。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
7 小时前
2026年4月4日,大模型厂商Anthropic正式官宣生态政策调整:从美国东部时间4月4日15点(北京时间4月5日3点)起,旗下Claude大模型将禁用OpenClaw等第三方工具,用户后续仅能通过额外付费套餐或Claude API Key调用相关工具。该政策将率先在OpenClaw落地,未来覆盖全部第三方工具链,是大模型厂商收紧生态控制权、加速商业化的标志性动作。

8 小时前
Rainmaker Securities总裁Glen Anderson最新披露,当前全球私人股权二级市场活跃度创下历史峰值,AI创企Anthropic成为最受追捧的交易标的,同赛道头部企业OpenAI交易热度出现明显下滑,而SpaceX临近的IPO计划,或将对整个一级科技创投市场的资金流向产生颠覆性影响。

13 小时前
近期Meta、微软、谷歌等海外头部科技企业相继公布天然气电厂建设计划,为旗下高速扩张的AI数据中心提供稳定电力支撑。随着生成式AI普及,单座AI算力中心能耗是传统数据中心的3-5倍,现有公共电网已难以满足企业爆发式算力供电需求,化石能源供电方案也引发了业内对碳目标达成、长期运营风险的广泛讨论。

13 小时前
谷歌近日面向企业级客户发布全新AI推理管控套件,针对当前企业部署大模型时平均推理成本占AI总支出60%以上、峰值时段服务可用性不足92%的行业痛点,提供动态算力调度、故障自动切换等功能,可帮助企业将推理环节综合成本降低30%左右,同时大幅提升生成式AI服务的运行稳定性。

14 小时前
2026年美国中期选举进入倒计时阶段,头部大模型企业Anthropic近日宣布成立全新政治行动委员会(PAC),计划定向支持认同其分级AI监管、算力资源倾斜、AIGC版权保护等政策议程的议员候选人。此次动作是头部AI企业从技术研发向政策上游延伸的标志性事件,也意味着全球AI行业的政策博弈进入白热化阶段。

14 小时前
据科技媒体The Information及行业分析师Eric Newcomer披露,AI大模型厂商Anthropic已于近期完成对秘密运营的生物科技AI初创公司Coefficient Bio的收购,本次交易为全股票形式,总对价达4亿美元。这是Anthropic首次落地生命科学垂直领域布局,也标志着大模型厂商商业化正加速向生物医药赛道渗透。

14 小时前
2026年以来,微软、Meta、Google等全球科技巨头先后启动配套天然气发电厂建设项目,以满足AI大模型训练、推理所需的超算数据中心爆发式增长的能耗需求。行业测算显示,头部AI算力集群的单位能耗是传统数据中心的5-10倍,这一能源布局已引发行业关于碳排放、长期能源结构合理性的广泛讨论。

14 小时前
近日,AI大模型企业Anthropic宣布为旗下对话式AI产品Claude推出Windows平台本地交互能力,新版本可直接跨应用调取用户邮件、本地存储的各类文档,还能自主执行系统级任务操作。据官方披露,该功能可将文档整理、日程响应类办公流程的处理效率提升45%,无需用户手动上传文件即可完成复杂指令。