400tokens/s刷新全球纪录智谱联合TileRT推出GLM-5.1高速版API

AI创作导航 14 小时前

风向

2026年5月22日，智谱联合TileRT正式面向部分企业客户推出GLM-5.1高速版API，其输出速度达到400tokens/s，刷新当前全球大模型API的速度纪录。该产品打破行业长期存在的“高性能必高延迟、高速必轻量化”的固有认知，首次在国产大模型中实现旗舰级能力与极致低延迟的融合，用户无需在响应速度与模型质量间做取舍。

不少深耕AI编程代理场景的开发者都有过类似的糟糕体验：提交大型项目重构需求后，要对着加载转圈的界面等待数分钟，才能等到逐字输出的代码方案，数十轮调用累积出来的延迟，甚至会直接打断原本连贯的开发思路。刚刚正式亮相的GLM-5.1高速版API，首先瞄准的就是这类长期被性能矛盾困扰的速度敏感型生产场景。

过去数年大模型产业高速迭代，能力边界不断拓展，但一个近乎默认的行业共识始终没有被打破：想要获得旗舰级的复杂推理、长上下文处理能力，就必须接纳更高的推理延迟，想要API输出速度达到实时可用的标准，就只能裁剪模型参数，选用牺牲能力的轻量化版本。

此前全球主流头部大模型厂商公开的通用API输出速度，大多集中在100tokens/s-200tokens/s区间，这一瓶颈直接限制了大量低延迟刚需场景的落地，不少面向终端用户的实时交互产品，只能被迫选用性能大打折扣的轻量化模型，最终影响用户体验。

这次智谱和TileRT的联合技术攻关，完全没有走传统“降精度、裁参数”换取速度的老路，而是从算子底层优化、推理调度策略重构、显存资源动态复用多个维度对模型做了全链路改造。

在完整保留原版GLM-5.1旗舰级全能力的前提下，团队最终将端到端的tokens输出速度拉升到400tokens/s，这一速度相当于每秒可生成近300个汉字，远超绝大多数普通用户的信息接收上限，用户甚至会产生“刚输入指令，AI就已经输出完全部内容”的无等待体验，彻底告别此前大模型输出时的逐字等待感。

大语言模型智谱AI 企业级AI服务 AI推理优化 GLM-5.1

免责声明：本网站AI资讯内容仅供学习参考，不构成任何建议，不对信息准确性与完整性负责。

提示工程指南

提示工程领域专业学习平台

Claude

Claude 是由 Anthropic 研发的 AI 助手与大语言模型

OpenAI

OpenAI 是全球领先的人工智能研究机构与模型提供商

Meridian Realms

AI沉浸式故事世界构建工具

Loreform

AI生成定制桌游3D可打印微缩

GPT Image Generator

免费在线AI图像生成工具

AI Inspo

一站式多模态AI创意生成平台

7ART

统一AI身份多模态内容创作平台