AI基础设施初创公司Gimlet Labs近日完成8000万美元A轮融资,其核心技术可实现AI推理负载在NVIDIA、AMD、Intel、ARM、Cerebras、d-Matrix等多厂商不同架构芯片上的同时调度运行,以轻量化方案破解当前行业普遍面临的AI推理算力瓶颈,为大模型规模化落地降本提效提供了全新技术路径。
随着大模型应用进入规模化落地阶段,AI推理的算力需求正在以每年3倍以上的速度增长,而供应链不稳定带来的芯片架构碎片化问题,正在成为制约推理成本下降的核心障碍。
据行业统计,当前大模型落地的全生命周期成本中,推理侧支出已经占比超过70%,但绝大多数企业的算力池利用率不足60%。其中最核心的痛点在于,过去两年受高端通用GPU供应限制,越来越多企业开始混合采购AMD、ARM架构通用芯片,以及Cerebras、d-Matrix等专用AI加速器,不同厂商的芯片软件栈互不兼容,很难实现统一调度,大量闲置算力无法被有效利用。
不少企业为了适配不同架构的芯片,不得不投入大量研发资源对大模型做定向裁剪,不仅拉长了落地周期,也额外增加了技术成本。
Gimlet Labs推出的核心技术,跳出了此前行业普遍采用的模型定向适配单芯片架构的思路,通过在推理框架与底层硬件之间增加一层轻量化的调度中间件,无需企业修改大模型原有代码,即可自动将推理任务拆分到不同架构的芯片上并行运行,最终实现多厂商芯片的算力池化。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录
18 小时前
2026年5月15日,百度正式宣布成立百度模型委员会(简称BMC),全面统筹公司大模型全链路研发与落地工作。原基础模型研发部(BMU)、应用模型研发部(AMU)均调整为向BMC汇报,此次架构调整标志着百度大模型战略正式进入技术应用一体化的高效推进阶段,核心团队由顶尖青年研究员与资深工程领袖组成。

20 小时前
近日,人工智能企业Anthropic旗下大模型产品Claude正式拿下此前被马斯克创办的xAI旗下Grok列为首要需求的北美核心IDC资源,本次交易涉及的算力规模约合12万块H100芯片当量,将直接支撑Claude 3系列产品下一阶段的迭代与商业化落地,也让全球头部大模型厂商的算力争夺战进入更为白热化的阶段。

14 天前
2026年5月2日,微软通过美国Frontier计划正式推出面向法律专业人士的定制化AI工具“法律助手”,该产品深度集成于Word办公环境,依托与法律专家联合研发的专属算法而非通用大模型,可实现合同风险标注、跨版本比对、合规校验等功能,大幅简化合同处理流程,为垂直领域AI应用落地提供了新的参考路径。

14 天前
谷歌、亚马逊、微软、Meta四大科技巨头已将2026年AI领域总资本开支上调至7250亿美元,较2025年的4100亿美元同比增长77%,远超今年2月市场预估的6100亿美元。2026年一季度四家合计投入已达1300亿美元,其中微软预计全年投入1900亿美元,增幅达192.3%领跑全行业,全球AI基础设施竞赛全面升温。

16 天前
2026年4月29日,A股上市教育企业豆神教育(300010.SZ)正式发布2025年年度报告,全年实现营业收入10.06亿元,同比增长32.96%。本次业绩增长核心动力来自公司深耕的“AI+教育”战略,自主研发的“豆神AI”大模型打通技术到应用全链路,目前已初步构建起“软件+硬件+服务”三位一体的AI教育生态闭环。

16 天前
社交科技巨头Meta近期披露的2026年第一季度财务数据显示,其负责AR/VR业务的Reality Labs单季度亏损规模仍达数十亿美元,同时公司为抢滩通用AI市场持续加大研发、算力投入,整体支出规模仍在持续扩张,相关成本压力已成为影响Meta后续财务表现的核心变量,也引发了全球科技行业对巨头长期赛道投入逻辑的广泛讨论。

16 天前
美国防务初创公司Firestorm Labs近日完成8200万美元新一轮融资,本轮资金将主要用于研发及规模化部署集成AI生产系统的集装箱式移动无人机工厂,可在战场前线快速完成定制化无人机的生产、测试及交付,大幅缩短防务装备响应周期,降低长距离运输带来的供应链风险。

17 天前
当地时间2026年4月28日,英伟达正式推出开放式多模态大模型Nemotron3Nano Omni,该产品采用30B-A3B混合专家架构,内置视觉与音频编码器,可同步处理视频、音频、图像、文本四类内容。官方数据显示其吞吐量为同类开放式全向模型的9倍,在六大权威多模态能力排行榜中均位列第一,可大幅降低开发者部署AI应用的成本。