当前企业部署大语言模型过程中普遍面临Token成本高企的痛点,近期行业推出的动态路由调度方案,通过对用户Prompt的复杂度分级,将简单请求分发至通义千问、DeepSeek等成本更低的中小参数模型,复杂请求才调用GPT-4、Claude 3等高端大模型,实测显示该方案在客服、文档问答等标准化场景下最高可降低70%的推理支出,为企业降本提供了可落地的技术路径。

国内某电商SaaS服务商的财务数据显示,今年三季度其平台内嵌的AI客服系统的大模型调用支出达118万元,超出初始预算47%,而事后审计发现,超过65%的Token消耗都用在了回答物流查询、售后政策科普这类门槛极低的简单问题上,这类问题哪怕用开源的7B参数小模型也能给出完全准确的回复。
随着生成式AI进入规模化落地阶段,大模型推理的Token成本已经成为制约企业投入意愿的核心因素。行业调研数据显示,2024年上半年国内企业的生成式AI部署支出中,大模型调用成本占比平均达到62%,其中近七成企业为了避免体验波动,选择统一调用GPT-4、Claude 3等高端大模型,完全忽略了不同请求的复杂度差异。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录