登录体验完整功能(收藏、点赞、评论等) — 已累计有 12522 人加入

大语言模型Token成本优化新方案:按请求复杂度分流调用

详情页推荐

当前企业部署大语言模型过程中普遍面临Token成本高企的痛点,近期行业推出的动态路由调度方案,通过对用户Prompt的复杂度分级,将简单请求分发至通义千问、DeepSeek等成本更低的中小参数模型,复杂请求才调用GPT-4、Claude 3等高端大模型,实测显示该方案在客服、文档问答等标准化场景下最高可降低70%的推理支出,为企业降本提供了可落地的技术路径。

配图

国内某电商SaaS服务商的财务数据显示,今年三季度其平台内嵌的AI客服系统的大模型调用支出达118万元,超出初始预算47%,而事后审计发现,超过65%的Token消耗都用在了回答物流查询、售后政策科普这类门槛极低的简单问题上,这类问题哪怕用开源的7B参数小模型也能给出完全准确的回复。

随着生成式AI进入规模化落地阶段,大模型推理的Token成本已经成为制约企业投入意愿的核心因素。行业调研数据显示,2024年上半年国内企业的生成式AI部署支出中,大模型调用成本占比平均达到62%,其中近七成企业为了避免体验波动,选择统一调用GPT-4、Claude 3等高端大模型,完全忽略了不同请求的复杂度差异。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。