智谱发布 GLM-5.1 高速版 API，刷新全球大模型 API 速度纪录

5 月 22 日

智谱近日推出 GLM-5.1 高速版 API，模型输出速度达 400 tokens/s，打破高速模型多为轻量级的行业惯例，首次在国产大模型中实现旗舰级能力与低延迟并存。实测显示其在 AI 编程、3D 游戏、交互界面等场景表现出色，核心在于 TileRT 高性能推理引擎，该引擎由智谱 GLM 团队与 TileRT 团队联合打造，通过系统级优化实现。目前适用于速度敏感场景，并通过智谱 MaaS 平台向部分企业客户开放。