少找工具,多做创作

一周两次人为故障 Anthropic高速扩张期暴露运营隐患

AI大模型厂商Anthropic在2026年3月下旬连续出现两起人为原因导致的服务故障,引发行业对其运营稳定性的讨论。作为OpenAI最有力的竞争对手之一,Anthropic旗下Claude系列大模型目前全球企业客户量已突破12万,最新估值达180亿美元,本轮故障也让市场开始关注高速扩张的AI厂商的运营风控能力建设。

美国时间3月31日,TechCrunch率先披露,Anthropic本周内第二次出现由人为操作失误引发的服务异常,部分北美地区企业客户的Claude API调用出现最长达47分钟的中断,涉及企业知识库检索、多模态内容生成等多个核心业务场景。


背靠亚马逊的云资源与投资支持,Anthropic过去一年始终保持超高速增长,2026年第一季度营收同比增幅达320%,企业客户量较2025年初翻了两番,甚至抢走了OpenAI在法律、咨询等长文本需求集中的垂直领域的不少核心客户。

为了匹配业务扩张速度,Anthropic的团队规模在过去半年扩张了110%,大量新入职的运维、技术人员尚未完全熟悉内部流程,也为本次连续故障埋下了隐患。据内部人士透露,Anthropic的运维团队目前人手缺口仍超过30%,现有人员长期处于超负荷工作状态。


本次两起故障均与模型技术本身无关,完全是人为操作流程不规范导致:第一次故障是安全团队更新内容过滤规则时,误将正常用户的历史对话数据划入了删除队列,导致近3万用户丢失了15天内的对话记录;第二次故障则是运维团队调整跨区域负载均衡策略时,未完成灰度测试就全量上线,最终导致11个区域的API服务出现不同程度的中断。

值得注意的是,当前大模型行业普遍将资源向技术研发倾斜,运维风控的投入占比普遍不足研发投入的10%。但第三方调研机构的数据显示,72%的企业级AI客户将服务稳定性列为选型的首要指标,优先级已经超过了模型精度、推理速度等技术参数。本次Anthropic故障后,已有至少3家大型企业客户表示将考虑引入备用大模型服务,避免单点风险。


随着大语言模型的技术迭代进入平缓期,Anthropic、OpenAI、Google DeepMind等头部厂商的基础模型精度差距已经缩小到5%以内,行业竞争正在从技术参数比拼转向服务能力、稳定性、安全合规等综合能力的较量。

本次故障也为全行业敲响了警钟,据了解,已有多家头部大模型厂商开始调整资源分配比例,计划在2026年将运维风控体系的投入占比提升至15%以上,部分厂商已经开始测试用AI辅助运维系统,提前识别人为操作的风险点,减少同类故障的发生概率。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创