一、大模型压测为什么特别重要¶

相比传统 API，大模型服务的性能不只是“请求快不快”，还涉及：

首个 Token 出来的速度；
后续 Token 生成的节奏；
并发下吞吐是否塌陷；
GPU 利用率是否合理；
高峰下错误率是否激增。

所以它既要看通用系统指标，也要看 LLM 自己的特有指标。

二、LLM 特有指标¶

2.1 TTFT¶

Time To First Token，也就是“首字时间”。

它表示从请求发出到第一个 Token 返回的时间。

这个指标越低，用户越容易觉得系统“反应快”。

2.2 TPOT¶

Time Per Output Token，表示生成过程中每个输出 Token 的平均时间。

它越低，模型生成内容的速度就越快。

2.3 TPS¶

Tokens Per Second，表示单位时间内生成的 Token 数量。

这是衡量生成吞吐能力的关键指标。

三、通用性能指标¶

3.1 响应时间分布¶

常见看：

p50
p95
p99

相比平均值，这些分位数更能真实反映用户体验，尤其能看出长尾问题。

3.2 QPS¶

每秒请求数，表示系统单位时间内能处理多少请求。

3.3 错误率¶

错误率反映稳定性，常见错误包括：

5xx 服务端错误；
超时；
OOM；
推理失败；
输入超长导致拒绝。

3.4 吞吐量¶

吞吐量可以看成“单位时间真正完成了多少工作”，对生成式任务通常直接看 TPS。

3.5 资源利用率¶

需要关注：

CPU 利用率；
内存利用率；
GPU 利用率；
网络带宽利用率。

这些指标最直接地帮助你判断瓶颈在哪里。

四、常见压测工具¶

4.1 阿里云 PAI 模型在线服务（EAS）¶

阿里云 PAI 的 EAS 模块支持对大模型在线服务做自动化压测。

特点：

图形化操作；
支持 OpenAI 兼容接口；
适配主流推理引擎；
方便企业做上线前评估。

适合：

服务上线前验证；
推理引擎对比；
扩容和缩容决策。

4.2 百度千帆 ModelBuilder¶

它更偏 SDK 方式压测，适合开发者通过 Python 做更灵活的并发模拟。

适合：

自动化测试；
CI/CD 集成；
自定义复杂压测逻辑。

4.3 EvalScope¶

EvalScope 是一个由 ModelScope 社区维护的开源评测框架。

除了传统评测，它也能扩展到性能压测。

特点：

支持多模型、多数据集；
支持本地和云端；
可生成可视化报告；
适合模型比较和性能验证。

4.4 Locust¶

Locust 是经典的负载测试工具，它的最大特点是：用 Python 代码来定义用户行为。

这使它特别适合：

复杂业务流程压测；
分布式并发模拟；
和自定义逻辑结合。

它常见的核心概念包括：

HttpUser
tasks
wait_time
分布式 Master / Worker

五、怎么选压测工具¶

如果你更偏平台化和图形界面：
选云厂商平台自带能力。
如果你更偏工程化和自动化：
选 Locust 或 EvalScope。
如果你既想看大模型性能，又想做标准化评测：
EvalScope 很值得优先考虑。

六、一个很重要的现实判断¶

压测不是只为了“证明系统很强”，更重要的是提前暴露系统在哪种并发、哪种上下文长度、哪种输出规模下开始退化。越早把边界测清楚，线上就越少惊喜。

大模型压测入门：核心指标与常见压测工具