24人硅谷初创推出AI芯片速度超Cerebras10倍成本仅1/20

1 小时前 AI快讯 3

近日，一款来自硅谷初创公司Taalas的AI芯片HC1引爆科技圈。这支仅24人的团队多由AMD前高管组成，成立两年便交出首款产品：峰值推理速度达每秒17000个token，是当前高性能标杆Cerebras的10倍，同时成本降至1/20、功耗削减10倍，凭借把大模型直接刻在硅片上的极端方案，实现了LLM的亚毫秒级即时响应。

这款一夜之间登上硅谷热榜的芯片，其性能参数足以让行业巨头侧目。要知道，当前AI推理领域公认的高性能芯片Cerebras，峰值速度仅为每秒2000个token，HC1在速度上实现了10倍的碾压；而在成本和功耗的控制上，它更是打出了“成本减20倍、功耗降10倍”的组合拳——这意味着，大语言模型（LLM）的推理门槛被彻底拉低，同时用户能体验到真正的“零等待”交互。

更具反差感的是，打造出这款“性能怪兽”的并非英伟达、AMD这样的芯片巨头，而是一支仅有24人的小团队。这支被称为“梦之队”的核心成员大多来自AMD的资深管理层，在芯片设计、AI算力优化领域拥有深厚积累，成立仅两年就拿出了首款颠覆性产品，刷新了行业对初创公司研发效率的认知。

HC1的颠覆性，根源在于它跳出了AI芯片的传统技术框架。目前行业主流方案是将大模型加载到内存中运行，但这一模式始终受限于内存带宽瓶颈：模型数据需要在内存与计算单元之间频繁传输，不仅产生高额延迟，还消耗大量功耗。而Taalas选择了最极端的路径——直接将大模型的权重刻在硅片上，让计算单元可以直接访问模型参数，从根源上消除了数据传输的延迟和额外能耗。

这种“芯片即模型”的设计，让HC1的亚毫秒级响应成为可能。在实机测试中，用户输入指令后几乎能瞬间得到AI的反馈，完全没有传统大模型推理时的等待感。对于AI应用而言，这一突破将打开全新的场景空间：在实时生成式交互中，用户能与AI实现如真人般的流畅对话；在自动驾驶场景中，AI决策的响应延迟进一步降低，能大幅提升行驶安全性；对于企业用户来说，低成本的高性能推理将让大模型的落地门槛大幅降低，更多中小企业也能负担得起AI赋能的成本。

不过，HC1的商业化之路仍需时间验证。将模型直接刻在硅片上的方案，意味着模型更新需要重新流片，灵活性不如内存加载模式，这对于需要频繁迭代的大模型应用来说可能是个限制。但不可否认的是，Taalas的创新证明了AI芯片赛道并非巨头的专属领地，小团队凭借对技术瓶颈的精准洞察，同样能拿出颠覆行业的解决方案。

这款芯片的问世，不仅给英伟达等行业巨头带来了新的竞争压力，也为AI芯片的未来发展开辟了一条新赛道。当大模型的推理成本不再是障碍，响应速度趋近即时，或许离AI真正融入生活的每一个角落，又近了一步。

AI芯片大模型推理 Taalas 低功耗芯片初创科技公司

本文内容来源于公开互联网信息，并包含平台新增内容及用户发布内容，旨在进行知识整理与分享。文中所有信息与观点均仅供参考，不代表任何官方或特定立场，亦不构成任何操作或决策建议，请读者谨慎甄别，详情请见完整免责声明

所属分类

AI快讯

24人硅谷初创推出AI芯片速度超Cerebras10倍成本仅1/20