2026年3月27日,据内部泄露文件显示,AI企业Anthropic旗下新一代大模型Claude Mythos已进入秘密测试阶段。该模型归属Anthropic全新推出的Capybara技术层级,综合性能全面超越此前的行业标杆Claude Opus,是Anthropic发展史上规模最大的技术跃迁之一,相关信息曝光后迅速引发业内对技术迭代与AI安全的双重讨论。
一份原本计划用于新模型官宣的Anthropic内部博客草稿意外流出,瞬间将这家以低调、重视安全著称的AI厂商推到了行业聚光灯下。此前外界普遍预测Anthropic的下一代模型要到2026年下半年才会公布,此次提前曝光也打破了头部厂商的新品发布节奏预期。
过去两年,全球大模型赛道的头部竞争始终处于胶着状态:OpenAI的GPT系列凭借生态优势占据消费端主流,谷歌Gemini系列在多模态能力上持续突围,而Anthropic的Claude系列则凭借超长上下文能力、更高的安全对齐标准,在ToB服务市场站稳了第一梯队的位置,其中2025年推出的Claude Opus更是长期被视为行业通用大模型的性能标杆之一。
进入2026年以来,关于头部厂商下一代大模型的传闻不断,从OpenAI GPT-5的小规模测试到谷歌Gemini 2的性能爆料,整个行业都在等待首个真正意义上的“下一代标杆产品”落地,Anthropic此次的泄露文件恰好踩中了行业的关注节点。
此次泄露的官方博客草稿首次对外披露了Anthropic内部全新的模型分级体系:比现有Opus层级更高的Capybara技术层级。根据文件描述,该层级是Anthropic成立以来实现的最大技术跃迁,对应的模型参数规模、训练数据量、智能涌现能力均较上一代有量级提升,而正在秘密测试的Claude Mythos正是该层级下的首款量产模型。
泄露文件附带的内部评测数据显示,Claude Mythos在逻辑推理、长文本信息召回、多模态复杂指令执行三个核心维度的表现,均较Claude Opus有30%左右的提升,甚至在部分此前大模型普遍表现不佳的高阶数理逻辑难题上,准确率首次突破了90%大关,基本达到了资深科研人员的解题水平。
作为最早提出宪法AI对齐框架、始终将AI安全作为核心卖点的厂商,Anthropic此次的技术跃迁也引发了业内对安全问题的新一轮讨论。有AI安全研究者指出,当大模型的通用能力达到全新量级时,现有的对齐技术是否还能有效约束模型的输出、避免不可控的涌现行为,会成为所有头部厂商必须回答的核心问题。
截至发稿,Anthropic尚未对此次泄露事件作出官方回应,仅对核心合作客户透露,当前Mythos的测试范围仅覆盖不到百家经过筛选的企业,核心测试目标除了性能验证外,就是对齐效果的压力测试,暂不会开放个人用户测试资格。
在不少行业观察者看来,Claude Mythos的曝光只是新一轮大模型能力竞赛的序幕。随着头部厂商纷纷完成下一代模型的技术储备,2026年也被视为通用大模型能力跃阶的关键节点:一方面,更高的模型能力会进一步打开研发辅助、全流程自动化决策等高阶场景的落地空间,带动AI产业的商业化渗透率进一步提升;另一方面,与之配套的AI监管规则、安全评估标准也需要同步升级,才能平衡技术发展与风险防控的需求。

11 小时前
2026年3月30日,格隆汇援引界面新闻消息披露,国产大模型厂商月之暗面(Moonshot AI)推出Kimi K2.5大模型仅一个月后,公司年度经常性收入(ARR)正式突破1亿美元,成功跻身全球AI商业化第一梯队。此次亮眼营收印证了思考型大模型在企业端的高变现价值,行业也出现企业客户预付千万美元抢购算力配额的罕见现象。

11 小时前
2026年3月30日,据Readhub报道,被誉为“欧洲版OpenAI”的法国AI初创企业Mistral AI完成8.3亿美元债务融资,这笔资金由7家银行组成的财团提供,将全部投入算力基础设施建设,核心采购计划为1.38万片英伟达顶级AI芯片,旨在强化大模型训练推理能力,打破中美在通用人工智能领域的主导格局,是欧洲AI发力全球竞赛的标志性动作。

13 小时前
2026年3月30日,埃隆·马斯克旗下AI创业公司xAI曝出核心人事变动,公司最后一位联合创始人、原谷歌DeepMind明星工程师Tony Wu确认离职。这意味着xAI2023年成立时招募的12位来自OpenAI、谷歌、微软的顶尖创始成员,在成立不到三年内已全部流失,此事引发业内对xAI技术研发连续性、内部管理的广泛讨论,也折射出当前AI大模型赛道人才争夺的激烈现状。

14 小时前
2026年3月30日,蚂蚁AI安全实验室完成对开源自主智能体框架OpenClaw的专项安全审计,共计发现33个安全漏洞。目前OpenClaw最新的2026.3.28版本已完成8个漏洞的修复,包含1个严重级漏洞、4个高危漏洞与3个中危漏洞。蚂蚁集团表示将持续跟进该项目安全风险,助力AI智能体产业安全落地。

14 小时前
2026年3月30日,中文大模型权威基准测评SuperCLUE发布2026年3月最新测评结果,本次共有22款国内外主流大模型参评,覆盖六大核心能力维度。测评显示,字节跳动旗下豆包Doubao-Seed-2.0-pro以71.53分拿下国内第一,跻身全球第一梯队,与OpenAI GPT-5.4的分差已缩小至0.95分,小米MiMo在数学推理单项取得顶尖成绩,标志国产大模型进入高速追赶新阶段。

18 小时前
2026年3月30日,国内大模型产品千问正式上线AI打车、AI充话费等一系列“AI办事”新功能,同步启动用户体验官招募计划,3月30日至4月6日期间每日开放100万体验名额,参与者可领取最高17元体验补贴,平台将基于用户反馈优化AI对复杂场景意图的理解与执行能力,推动通用人工智能落地真实生活场景。

18 小时前
2026年3月30日消息,科技巨头谷歌与AI独角兽Anthropic达成里程碑式融资协议,谷歌将投入数十亿美元,为后者建设专属AI数据中心算力基地。此次合作标志着全球AI领域的竞争已从大模型技术研发层面,延伸到底层算力基础设施的布局,算力正成为科技巨头划分AI赛道势力范围的核心筹码。

18 小时前
2026年3月30日,腾讯旗下企业微信正式在GitHub上架CLI(命令行界面)开源项目,向AI智能体开放消息收发、日程管理等7大核心办公能力,已原生适配Claude Code、Codex等主流AI Agent框架,标志着AI办公从对话交互向深度执行进化,正式进入原生调用新阶段。