登录体验完整功能(收藏、点赞、评论等) — 已累计有 11369 人加入

小米MiMo联合TileRT 万亿参数大模型消费级GPU推理破千token每秒

详情页推荐

近期小米推出的MiMo-V2.5-Pro-UltraSpeed大模型推理框架,联合推理编译优化工具TileRT,依托FP4量化技术与DFlash投机解码算法,首次在消费级通用GPU平台上实现万亿参数大模型单轮解码速度突破每秒1000token,大幅降低超大规模大模型的落地部署门槛,为端侧、边缘侧运行超大规模大模型提供了可行的技术路径。

配图

过去三年,大模型参数规模从百亿级快速跃升至万亿级,效果提升的同时也带来了算力成本的暴涨。行业公开数据显示,万亿参数大模型若采用传统推理方案,单卡每秒解码速度仅能达到30-50token,且必须使用单卡成本超过8万元的A100级别专业算力卡,仅算力成本就阻碍了超大规模大模型在下沉场景的落地。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。