当前全球AI产业正迎来发展路径拐点,包括OpenAI、Anthropic、DeepSeek在内的头部厂商已将超过60%的研发预算倾斜至高质量数据集建设领域。行业共识显示,AI下一轮核心突破将不再依赖大模型参数规模的扩张,而是由研究驱动的精细化、场景化数据集设计提供核心支撑。

近日OpenAI被曝暂停GPT-5的参数规模升级计划,转而投入超3亿美元采购经过专业校验的多模态训练数据;国内大模型厂商DeepSeek此前也公开披露,其最新开源模型的性能提升中,72%的贡献来自数据集优化,仅有28%来自参数结构调优。这一系列动作,印证了产业发展路径的转向已经从战略共识落地为实际行动。
过去三年,全球大模型的参数规模从百亿级快速跃升至万亿级,行业曾一度将“参数越大性能越强”奉为圭臬。但随着技术迭代,参数扩张的边际效益正在快速下滑:2024年上半年发布的千亿级大模型,平均性能提升幅度仅为4.2%,而2022年这一数据高达37%。
与此同时,大模型的训练和推理成本却随着参数扩张成倍上涨,万亿级模型的单次训练成本已经突破2亿美元,推理成本相比百亿级模型高出3.2倍。对于多数厂商而言,单纯靠堆参数冲性能的路径已经难以为继。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录