Prefix Cache 命中率如何影响 TTFT?
分析 Prefix Cache 命中与未命中对首 token 延迟的影响,并记录后续 benchmark 计划。
Updated Jun 19, 2026 1 min read
什么是 TTFT
TTFT 是 Time To First Token,表示请求发出后到首个输出 token 返回之间的延迟。它通常受到排队、prefill、调度和网络开销影响。
什么是 Prefix Cache
Prefix Cache 复用多个请求共享的 prompt 前缀,避免重复执行相同前缀的 prefill 计算。
命中和未命中的差异
- 命中:可跳过或减少共享前缀的 prefill,降低 TTFT。
- 未命中:仍需完整处理 prompt,TTFT 与普通请求接近。
- 部分命中:收益取决于命中 token 数、缓存查找成本与调度策略。
适用场景
Prefix Cache 更适合 system prompt 稳定、模板化输入多、请求前缀重复度高的服务,例如 Agent、RAG 和多轮对话系统。
后续 benchmark 计划
- 构造不同 prefix overlap 比例的数据集。
- 记录 p50/p95 TTFT 与吞吐。
- 对比缓存命中率、缓存容量和 eviction 策略。