少找工具,多做创作

AI大模型全生命周期成本拆解:终训仅占总支出极小比例

据海外科技媒体InfoWorld最新行业调研显示,OpenAI、Anthropic等头部生成式AI企业的大语言模型全生命周期成本中,最终训练环节支出仅占总投入的10%~15%,其余成本集中在数据预处理、推理算力、安全对齐、运维迭代等环节,这也是全行业对模型蒸馏等低成本技术替代方案高度敏感的核心原因。

过去两年,行业讨论大模型成本时,往往会把目光集中在训练阶段的算力投入:GPT-3训练时消耗了约355个GPU年,GPT-4的训练成本更是被传超过1亿美元。但这种普遍认知,其实忽略了AI模型成本结构的绝大部分组成。

2024年以来,头部AI厂商的盈利焦虑持续升温。即使是坐拥超1亿月活用户的ChatGPT,其母公司OpenAI至今仍未实现稳定盈利,单月仅推理算力支出就超过1亿美元。这种投入与营收的错配,根源就在于行业此前对大模型成本的估算存在严重偏差:大众所熟知的“终训成本”,只是整个模型生命周期中占比极小的一次性支出。

对于To B服务的大模型厂商而言,非训练成本的占比还要更高。为了满足企业客户的定制化需求、数据安全要求和服务可用性承诺,厂商需要额外投入大量资源做私有化部署、专属调优和7*24小时运维,这部分成本往往是通用大模型终训成本的3~5倍。

按照全生命周期核算,一款商用大模型的成本构成可以分为三大部分。
第一部分是前期数据投入,包括训练数据的爬取、清洗、标注、版权采购,通常占总支出的25%~30%,GPT-4等多模态大模型的数据成本占比还要更高,仅视频、音频类素材的版权采购成本就可达数千万美元。
第二部分是最终训练环节,也就是行业常说的“一次性烧卡”阶段,占比仅为10%~15%,随着集群调度技术的优化,这一比例还在持续下降。
第三部分也是最大的成本项,是上线后的持续运维投入,包括用户调用产生的推理算力成本、安全对齐迭代、版本更新、漏洞修复等,占总支出的比例普遍超过55%,用户量越大的模型,这部分成本的占比越高。

这种成本结构也解释了为什么头部AI厂商对模型蒸馏技术的商业化高度警惕。作为一种轻量化模型技术,模型蒸馏可以将千亿参数大模型的能力迁移到十亿甚至亿级参数的小模型上,复刻核心能力的成本仅为原模型终训成本的1%甚至更低。
如果第三方厂商通过蒸馏技术复刻头部大模型的能力,相当于直接跳过了头部企业前期投入的绝大部分成本,只需要支付极低的训练和推理成本就能推出效果接近的竞品,会直接冲击现有大模型的付费商业体系。

目前,头部AI厂商已经把成本优化的重点从训练环节转向后续的运维环节。包括OpenAI、谷歌DeepMind在内的企业都在布局稀疏化推理、边缘算力调度、动态参数调用等技术,目标是在2025年将推理成本降低至当前的十分之一。
业内分析认为,未来大模型企业的核心竞争力不再是训练出参数更高的模型,而是能否在保证效果的前提下,最大限度压低全生命周期的非训练成本,率先实现规模化盈利。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创