少找工具,多做创作

Anthropic新模型Claude Mythos秘测 性能超旗舰Opus引行业热议

2026年3月27日,据内部泄露文件显示,AI企业Anthropic旗下新一代大模型Claude Mythos已进入秘密测试阶段。该模型归属Anthropic全新推出的Capybara技术层级,综合性能全面超越此前的行业标杆Claude Opus,是Anthropic发展史上规模最大的技术跃迁之一,相关信息曝光后迅速引发业内对技术迭代与AI安全的双重讨论。

一份原本计划用于新模型官宣的Anthropic内部博客草稿意外流出,瞬间将这家以低调、重视安全著称的AI厂商推到了行业聚光灯下。此前外界普遍预测Anthropic的下一代模型要到2026年下半年才会公布,此次提前曝光也打破了头部厂商的新品发布节奏预期。

过去两年,全球大模型赛道的头部竞争始终处于胶着状态:OpenAI的GPT系列凭借生态优势占据消费端主流,谷歌Gemini系列在多模态能力上持续突围,而Anthropic的Claude系列则凭借超长上下文能力、更高的安全对齐标准,在ToB服务市场站稳了第一梯队的位置,其中2025年推出的Claude Opus更是长期被视为行业通用大模型的性能标杆之一。

进入2026年以来,关于头部厂商下一代大模型的传闻不断,从OpenAI GPT-5的小规模测试到谷歌Gemini 2的性能爆料,整个行业都在等待首个真正意义上的“下一代标杆产品”落地,Anthropic此次的泄露文件恰好踩中了行业的关注节点。

此次泄露的官方博客草稿首次对外披露了Anthropic内部全新的模型分级体系:比现有Opus层级更高的Capybara技术层级。根据文件描述,该层级是Anthropic成立以来实现的最大技术跃迁,对应的模型参数规模、训练数据量、智能涌现能力均较上一代有量级提升,而正在秘密测试的Claude Mythos正是该层级下的首款量产模型。

泄露文件附带的内部评测数据显示,Claude Mythos在逻辑推理、长文本信息召回、多模态复杂指令执行三个核心维度的表现,均较Claude Opus有30%左右的提升,甚至在部分此前大模型普遍表现不佳的高阶数理逻辑难题上,准确率首次突破了90%大关,基本达到了资深科研人员的解题水平。

作为最早提出宪法AI对齐框架、始终将AI安全作为核心卖点的厂商,Anthropic此次的技术跃迁也引发了业内对安全问题的新一轮讨论。有AI安全研究者指出,当大模型的通用能力达到全新量级时,现有的对齐技术是否还能有效约束模型的输出、避免不可控的涌现行为,会成为所有头部厂商必须回答的核心问题。

截至发稿,Anthropic尚未对此次泄露事件作出官方回应,仅对核心合作客户透露,当前Mythos的测试范围仅覆盖不到百家经过筛选的企业,核心测试目标除了性能验证外,就是对齐效果的压力测试,暂不会开放个人用户测试资格。

在不少行业观察者看来,Claude Mythos的曝光只是新一轮大模型能力竞赛的序幕。随着头部厂商纷纷完成下一代模型的技术储备,2026年也被视为通用大模型能力跃阶的关键节点:一方面,更高的模型能力会进一步打开研发辅助、全流程自动化决策等高阶场景的落地空间,带动AI产业的商业化渗透率进一步提升;另一方面,与之配套的AI监管规则、安全评估标准也需要同步升级,才能平衡技术发展与风险防控的需求。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创