少找工具,多做创作

Gimlet Labs完成8000万美元A轮 破解跨芯片AI推理瓶颈

AI基础设施初创公司Gimlet Labs近日完成8000万美元A轮融资,其核心技术可实现AI推理负载在NVIDIA、AMD、Intel、ARM、Cerebras、d-Matrix等多厂商不同架构芯片上的同时调度运行,以轻量化方案破解当前行业普遍面临的AI推理算力瓶颈,为大模型规模化落地降本提效提供了全新技术路径。

随着大模型应用进入规模化落地阶段,AI推理的算力需求正在以每年3倍以上的速度增长,而供应链不稳定带来的芯片架构碎片化问题,正在成为制约推理成本下降的核心障碍。

据行业统计,当前大模型落地的全生命周期成本中,推理侧支出已经占比超过70%,但绝大多数企业的算力池利用率不足60%。其中最核心的痛点在于,过去两年受高端通用GPU供应限制,越来越多企业开始混合采购AMD、ARM架构通用芯片,以及Cerebras、d-Matrix等专用AI加速器,不同厂商的芯片软件栈互不兼容,很难实现统一调度,大量闲置算力无法被有效利用。

不少企业为了适配不同架构的芯片,不得不投入大量研发资源对大模型做定向裁剪,不仅拉长了落地周期,也额外增加了技术成本。

Gimlet Labs推出的核心技术,跳出了此前行业普遍采用的模型定向适配单芯片架构的思路,通过在推理框架与底层硬件之间增加一层轻量化的调度中间件,无需企业修改大模型原有代码,即可自动将推理任务拆分到不同架构的芯片上并行运行,最终实现多厂商芯片的算力池化。

据公开测试数据,这套方案可将混合架构算力池的整体利用率提升至90%以上,同等推理负载下的算力成本可降低35%到55%。本次8000万美元A轮融资,将主要用于技术迭代、团队扩张以及商业化场景的落地验证,目前其方案已经在多家云服务商、大模型企业完成POC测试。

此前行业破解推理瓶颈的思路大多集中在专用芯片研发、大模型压缩两个方向,而Gimlet Labs的方案恰好击中了当前企业“多芯片混合部署”的普遍需求,不需要企业替换现有硬件投入,即可快速实现算力效率提升。

随着AI推理场景越来越分散,未来企业的算力采购将进一步走向多厂商、多架构的混合模式,跨架构调度技术也将成为AI基础设施层的核心刚需,甚至有可能改变整个AI算力行业的供应链格局,降低下游企业对单一芯片厂商的依赖度。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创