前谷歌TPU资深工程师创立的AI芯片初创企业MatX近期完成5亿美元B轮融资,世芯电子等半导体巨头战略参与。其研发的MatX One芯片采用创新“可分割脉动阵列”架构,突破大语言模型推理中“高吞吐”与“低延迟”难以兼得的行业痛点,为AI推理算力场景提供新解决方案。
当越来越多企业开始部署大语言模型用于客户服务、内容生成等场景时,一个尖锐的矛盾正在凸显:如何在保障上千并发请求处理能力(高吞吐)的同时,让单条请求的响应速度维持在用户可接受的范围内(低延迟)。这一长期困扰AI算力行业的难题,成为MatX团队攻坚的核心方向。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录