近期小米推出的MiMo-V2.5-Pro-UltraSpeed大模型推理框架,联合推理编译优化工具TileRT,依托FP4量化技术与DFlash投机解码算法,首次在消费级通用GPU平台上实现万亿参数大模型单轮解码速度突破每秒1000token,大幅降低超大规模大模型的落地部署门槛,为端侧、边缘侧运行超大规模大模型提供了可行的技术路径。

过去三年,大模型参数规模从百亿级快速跃升至万亿级,效果提升的同时也带来了算力成本的暴涨。行业公开数据显示,万亿参数大模型若采用传统推理方案,单卡每秒解码速度仅能达到30-50token,且必须使用单卡成本超过8万元的A100级别专业算力卡,仅算力成本就阻碍了超大规模大模型在下沉场景的落地。
登录后解锁全文,体验收藏、点赞、评论等完整功能
立即登录