2026年6月28日,北京大学与AGI厂商深度求索(DeepSeek)联合发布并开源大模型推理加速框架DSpark,针对当前大语言模型自回归生成流程中算力利用率低、高并发场景延迟高等行业痛点,通过半自回归架构等创新设计实现推理效率跃升,仅两层Transformer结构即可达到传统五层并行模型的优化效果,为大模型规模化落地提供重要技术支撑。

随着大语言模型在C端智能对话、B端企业知识库、生成式内容生产等场景的渗透率持续提升,推理环节的效率短板正在成为限制产业规模化发展的核心瓶颈。据行业公开统计,成熟大模型商用部署过程中,推理成本已经占到整体运营成本的70%以上,高并发场景下的响应卡顿、算力无效消耗问题,始终是头部厂商和开发者共同攻坚的核心方向。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录