登录体验完整功能(收藏、点赞、评论等) — 已累计有 9602 人加入

智谱发布GLM-5.1高速版 400tokens/s刷新全球大模型速度纪录

2026年5月22日,国内人工智能企业智谱正式面向部分企业客户推出GLM-5.1高速版API,由智谱GLM团队与TileRT团队联合研发的这款大模型实现了400tokens/s的输出速度,直接刷新全球大模型公开API的速度纪录,首次打破了行业中长期存在的“大模型运行速度与性能不可兼得”的固有认知,为高并发大模型落地场景提供了全新的技术方案。

不少使用过大模型API的企业开发者都有类似体验,在高峰期的高并发场景下,原本输出顺畅的大模型经常会出现几十秒的卡顿,生成长文档、批量处理请求时等待体验极差,要提速往往只能切换性能更低的小参数模型,始终找不到两全的解决方案。

过去很长时间里,整个AI行业形成了一个近乎默认的共识:大模型的输出速度和模型的参数规模、生成质量成反比。市面上主流的通用级大模型API输出速度普遍维持在80-150tokens/s区间,想要获得200tokens/s以上的输出效率,几乎只能选用7B参数以下的轻量化模型,代码生成、复杂逻辑推理等核心能力都会出现明显折损,很多对响应速度和生成质量都有要求的场景始终无法落地。

GLM-5.1高速版的出现直接推翻了这一行业默认规则,它没有通过削减模型参数、裁剪上下文窗口、降低生成精度这类牺牲核心能力的方式换速度,而是在保留了旗舰级大模型全量能力的前提下,实现了此前小模型都很难达到的输出效率,彻底打破了“快等于小”的行业惯例。

免责声明:本网站AI资讯内容仅供学习参考,不构成任何建议,不对信息准确性与完整性负责。
相关资讯