首页热点时事 GLM-5.1高速版：400 tokens/s，顶尖模型跑出最快速度

GLM-5.1高速版：400 tokens/s，顶尖模型跑出最快速度

2026-05-24 0

Coding时代，速度是爽点。

今天，我们面向部分企业客户提供

GLM-5.1高速版API“GLM-5.1-highspeed”

。模型输出速度达到

400 tokens/s

，刷新当前全球大模型厂商API的速度上限。

这一速度意味着，一位写作者连续伏案数天才能写完的文字量，它在1分钟内便交付完毕；一名工程师埋头敲键盘3天才能完成的开发任务，它能在喝一杯咖啡的时间里完成。

更重要的是，在过去，“快”往往意味着“小”，高速模型几乎总是轻量级模型。GLM-5.1高速版打破了这一行业惯例，首次在国产大模型中，

将旗舰级能力与极致低延迟同时带入生产环境

，无需再为响应速度牺牲模型质量。

我们对比了GLM-5.1高速版与GLM-5.1普通版的速度与效果，如下：

在长程任务中，GLM-5.1高速版在30秒内完成复杂网页

在Agent Swarm中，GLM-5.1高速版瞬间调度50个不同人格来并行回答

不是快的模型，而是快的旗舰模型

过去一年，国内大模型的Coding能力快速提升，而Coding恰恰是AI应用中对速度较为敏感的场景之一。

一个Coding Agent任务往往需要经历数十轮模型调用，单轮响应只要慢上几秒，整体耗时就可能拉长十几分钟；面对长程任务的大型重构项目，每一步响应慢1秒，逐步累加又是几分钟的空等。

GLM-5.1高速版在完整保留GLM-5.1能力的基础上，第一次拥有“即问即答”的响应速度，

带来的体感完全不同，模型开始真正成为一个可以实时协作的伙伴

，

和你坐在一起盯着画布调参。

实测1

：写代码像开启了10倍速，模型能够一边理解工程上下文，一边持续生成代码与修改方案，你刚输入需求，函数、接口与调用链已经同步展开。

实测2

：玩家控制一个角色在3D地图里移动，输入文字，模型会根据输入的文字瞬时建模，场景实时改变。此前因延迟而无法实现的全新产品形态，开始真正具备落地可能。

实测3

：用户提出需求的那一刻，模型可以即时生成出恰好匹配这个需求的工具与交互，甚至可以意图判断，这正是一种新型操作系统的雏形。

速度背后：TileRT高性能推理引擎

GLM-5.1高速版API“GLM-5.1-highspeed”由

智谱GLM团队

与

TileRT团队

联合打造，在推理引擎、调度系统与底层基础设施三个层面进行了系统级优化：

推理引擎层
：针对GLM-5.1的架构特点，重写了核心推理路径，有效提升了单卡吞吐能力；
调度系统层
：通过动态批处理、请求合并和KV缓存调度优化，显著降低高并发场景下的尾延迟；
基础设施层
：围绕推理集群部署、网络链路、负载均衡进行协同优化，确保400 TPS不是一个“峰值”数字，而是稳定可用的生产级能力。

模型推理速度的理论上限由硬件决定，但真实系统通常距离物理极限仍存在巨大差距。

核心问题在于推理框架的调度方式

。当前主流框架仍以operator/kernel作为基本调度单元，每个算子都要经历“host启动→读权重→计算→写回→同步”的严格完整链路。当推理进入单token、小batch、多卡TP的场景后，算子被切到微秒级，原本可忽略的调度、访存与同步开销会被迅速放大。

TileRT的设计思路，是

彻底抛弃Runtime层的动态调度

，在编译期（AOT）将整个计算图静态编排为一个常驻GPU的persistent Engine Kernel。在单卡之内，计算、异步IO与通信被全部拆解为Tile级微任务，整个推理过程只Launch一次Engine Kernel，算子间的中间结果不再写回Global Memory，而是经由Register、Shared Memory与L2 Cache直传，host调度与跨算子同步被悉数压进同一个常驻kernel。在多卡尺度上，TileRT进一步将SM内部的Warp Specialization思路外推到整张8卡NVL拓扑。不同GPU rank不再执行同构逻辑，而是按计算密度与数据依赖被特化为不同worker。

完整技术blog链接

：

https://www.tilert.ai/blog/speed-as-the-next-scaling-law-zh.html

面向速度敏感场景开放

GLM-5.1高速版适用于AI编程、实时交互、商业决策、实时语音等对响应延迟要求极高的场景，

现已面向智谱MaaS平台部分企业客户开放服务

。

我们将持续推进推理引擎的工程优化，进一步扩大高速模型的服务能力，让更多企业与开发者与能够获得低延迟、高智能的生产级AI能力。

开放平台模型文档

：

https://docs.bigmodel.cn/cn/guide/models/text/glm-5.1-highspeed

郑重声明：本站发布内容宗旨在传播更多信息，仅提供查阅，与本站立场无关，不拥有所有权，不承担相关法律责任。不具有任何效益，仅供参考。如果需要专业知识建议，请咨询相关专业人士。如有侵权请联系邮箱。一经查实，立即删除！

喜欢(0)

王者荣耀有哪些英雄

王者荣耀世界典韦怎么玩