寒武纪完成DeepSeek-V4 Day 0适配针对性优化提升推理效率

AI创作导航 3 小时前

AI快讯

2026年4月24日，国内AI芯片企业寒武纪宣布完成对深度求索最新开源大语言模型DeepSeek-V4的Day 0适配，实现模型发布当日即可在寒武纪MLU硬件平台上稳定运行。寒武纪通过自研融合算子库Torch-MLU-Ops对模型核心模块做针对性加速，结合vLLM推理框架的多项优化，在满足延迟要求的同时显著提升推理效率，为下游用户快速部署大模型提供支持。

Day 0适配指的是在大模型正式对外发布的同一天，就完成硬件层面的全流程适配优化并实现稳定运行，对于需要快速跟进最新大模型能力的行业用户来说，这一能力直接缩短了新技术从发布到落地的周期。此前多数AI硬件厂商完成一款新晋开源大模型的适配通常需要3至7天不等的开发周期，寒武纪此次实现DeepSeek-V4的发布当日适配，彻底填补了用户等待适配的空窗期，拿到模型即可快速部署。

此次适配并非简单的移植，寒武纪针对DeepSeek-V4的架构特性做了多层定制优化。其依托自主研发的Torch-MLU-Ops融合算子库，对模型特有的Compressor、mHC等核心模块做了专门的算子重构与融合，解决了通用算子适配效率不足的问题，从底层实现计算加速。

在推理框架层面，寒武纪深度适配了主流的vLLM推理框架，完整支持张量并行（TP）、流水线并行（PP）、序列并行（SP）等多种并行计算方案，同时实现了通信计算重叠、低精度量化、预填充与解码分离（PD分离）部署等多项工程优化。针对大模型推理普遍存在的访存瓶颈，技术团队还进一步挖掘MLU架构的硬件特性，通过优化访存排序，实现了稀疏注意力模块的计算提速，最终在满足业务端延迟约束的前提下，显著提升了模型的整体推理吞吐量。

大语言模型人工智能 AI芯片寒武纪 DeepSeek-V4

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

提示工程指南

提示工程领域专业学习平台

Claude

Claude 是由 Anthropic 研发的 AI 助手与大语言模型

OpenAI

OpenAI 是全球领先的人工智能研究机构与模型提供商

沁言学术

科研AI写作与文献助手

百度文库组词造句

百度文库文学智囊团Agent

电商差评诊断技能

电商差评诊断AI技能

女娲.skill

蒸馏顶级思维为可调用认知工具

有一云AI

新媒体全流程AI创作提效工具