24人硅谷初创推出AI芯片 速度超Cerebras10倍成本仅1/20

1 小时前 AI快讯 3

24人硅谷初创推出AI芯片 速度超Cerebras10倍成本仅1/20

近日,一款来自硅谷初创公司Taalas的AI芯片HC1引爆科技圈。这支仅24人的团队多由AMD前高管组成,成立两年便交出首款产品:峰值推理速度达每秒17000个token,是当前高性能标杆Cerebras的10倍,同时成本降至1/20、功耗削减10倍,凭借把大模型直接刻在硅片上的极端方案,实现了LLM的亚毫秒级即时响应。

这款一夜之间登上硅谷热榜的芯片,其性能参数足以让行业巨头侧目。要知道,当前AI推理领域公认的高性能芯片Cerebras,峰值速度仅为每秒2000个token,HC1在速度上实现了10倍的碾压;而在成本和功耗的控制上,它更是打出了“成本减20倍、功耗降10倍”的组合拳——这意味着,大语言模型(LLM)的推理门槛被彻底拉低,同时用户能体验到真正的“零等待”交互。

更具反差感的是,打造出这款“性能怪兽”的并非英伟达、AMD这样的芯片巨头,而是一支仅有24人的小团队。这支被称为“梦之队”的核心成员大多来自AMD的资深管理层,在芯片设计、AI算力优化领域拥有深厚积累,成立仅两年就拿出了首款颠覆性产品,刷新了行业对初创公司研发效率的认知。

HC1的颠覆性,根源在于它跳出了AI芯片的传统技术框架。目前行业主流方案是将大模型加载到内存中运行,但这一模式始终受限于内存带宽瓶颈:模型数据需要在内存与计算单元之间频繁传输,不仅产生高额延迟,还消耗大量功耗。而Taalas选择了最极端的路径——直接将大模型的权重刻在硅片上,让计算单元可以直接访问模型参数,从根源上消除了数据传输的延迟和额外能耗。

这种“芯片即模型”的设计,让HC1的亚毫秒级响应成为可能。在实机测试中,用户输入指令后几乎能瞬间得到AI的反馈,完全没有传统大模型推理时的等待感。对于AI应用而言,这一突破将打开全新的场景空间:在实时生成式交互中,用户能与AI实现如真人般的流畅对话;在自动驾驶场景中,AI决策的响应延迟进一步降低,能大幅提升行驶安全性;对于企业用户来说,低成本的高性能推理将让大模型的落地门槛大幅降低,更多中小企业也能负担得起AI赋能的成本。

不过,HC1的商业化之路仍需时间验证。将模型直接刻在硅片上的方案,意味着模型更新需要重新流片,灵活性不如内存加载模式,这对于需要频繁迭代的大模型应用来说可能是个限制。但不可否认的是,Taalas的创新证明了AI芯片赛道并非巨头的专属领地,小团队凭借对技术瓶颈的精准洞察,同样能拿出颠覆行业的解决方案。

这款芯片的问世,不仅给英伟达等行业巨头带来了新的竞争压力,也为AI芯片的未来发展开辟了一条新赛道。当大模型的推理成本不再是障碍,响应速度趋近即时,或许离AI真正融入生活的每一个角落,又近了一步。

所属分类
×

微信二维码

请选择您要添加的方式

AI小创