登录体验完整功能(收藏、点赞、评论等)

Taalas硬连线技术破局 跑DeepSeek R1创每秒12000tokens吞吐纪录

Taalas硬连线技术破局 跑DeepSeek R1创每秒12000tokens吞吐纪录

近期,成立仅2.5年的AI芯片初创公司Taalas公布一项关键技术突破:其基于“硬连线”技术打造的算力集群,在运行DeepSeek R1大模型时实现每秒12000tokens的吞吐速度,创下行业新纪录。不同于主流芯片厂商依赖SRAM集成的加速路径,Taalas选择将AI模型直接固化在硅片中,试图从底层解决大模型部署的延迟与成本痛点。

在AI智能体应用加速落地的当下,大模型推理的延迟问题正成为行业发展的核心瓶颈。无论是实时对话机器人、智能座舱的语音交互,还是工业场景下的AI决策辅助,动辄数百毫秒甚至数秒的响应延迟,不仅严重影响用户体验,更制约了智能体在高实时性场景的规模化应用。与此同时,依赖GPU集群部署大模型的高昂成本,也让不少中小企业望而却步——据行业测算,训练一个千亿参数模型的成本超千万美元,日常推理的算力开销更是持续走高,成为AI规模化落地的隐形门槛。

正是瞄准这两大痛点,Taalas走出了一条与主流厂商截然不同的技术路线。传统的AI芯片加速方案,比如Cerebras的Wafer Scale Engine或Groq的Tensor Streaming Processor,核心思路是通过集成超大容量SRAM,减少数据在内存与计算单元之间的传输频次,从而提升推理速度。但这类方案本质上仍是通用硬件适配AI模型,无法彻底消除“硬件-软件”适配带来的延迟损耗,在极端实时场景下仍存在性能瓶颈。

而Taalas提出的“硬连线”技术,则是将AI模型的参数与计算逻辑直接固化在硅片的物理电路中。简单来说,就是把大模型的“思考框架”刻进芯片里,而不是让芯片临时加载模型参数进行计算。这种设计跳过了数据在内存和处理器之间的反复搬运,让计算过程更接近“原生硬件级”运行,因此能实现极致的低延迟和高吞吐。

!
本文内容来源于公开互联网信息,并包含平台新增内容及用户发布内容,旨在进行知识整理与分享。文中所有信息与观点均仅供参考,不代表任何官方或特定立场,亦不构成任何操作或决策建议,请读者谨慎甄别,详情请见完整免责声明
相关资讯
AI小创