登录体验完整功能(收藏、点赞、评论等) —

让AI触手可及,让应用激发潜能

寒武纪完成DeepSeek-V4 Day 0适配 针对性优化提升推理效率

2026年4月24日,国内AI芯片企业寒武纪宣布完成对深度求索最新开源大语言模型DeepSeek-V4的Day 0适配,实现模型发布当日即可在寒武纪MLU硬件平台上稳定运行。寒武纪通过自研融合算子库Torch-MLU-Ops对模型核心模块做针对性加速,结合vLLM推理框架的多项优化,在满足延迟要求的同时显著提升推理效率,为下游用户快速部署大模型提供支持。

Day 0适配指的是在大模型正式对外发布的同一天,就完成硬件层面的全流程适配优化并实现稳定运行,对于需要快速跟进最新大模型能力的行业用户来说,这一能力直接缩短了新技术从发布到落地的周期。此前多数AI硬件厂商完成一款新晋开源大模型的适配通常需要3至7天不等的开发周期,寒武纪此次实现DeepSeek-V4的发布当日适配,彻底填补了用户等待适配的空窗期,拿到模型即可快速部署。

此次适配并非简单的移植,寒武纪针对DeepSeek-V4的架构特性做了多层定制优化。其依托自主研发的Torch-MLU-Ops融合算子库,对模型特有的Compressor、mHC等核心模块做了专门的算子重构与融合,解决了通用算子适配效率不足的问题,从底层实现计算加速。

在推理框架层面,寒武纪深度适配了主流的vLLM推理框架,完整支持张量并行(TP)、流水线并行(PP)、序列并行(SP)等多种并行计算方案,同时实现了通信计算重叠、低精度量化、预填充与解码分离(PD分离)部署等多项工程优化。针对大模型推理普遍存在的访存瓶颈,技术团队还进一步挖掘MLU架构的硬件特性,通过优化访存排序,实现了稀疏注意力模块的计算提速,最终在满足业务端延迟约束的前提下,显著提升了模型的整体推理吞吐量。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯
AI小创