Back to notes

Prefix Cache 命中率如何影响 TTFT?

分析 Prefix Cache 命中与未命中对首 token 延迟的影响,并记录后续 benchmark 计划。

Updated Jun 19, 2026 1 min read

什么是 TTFT

TTFT 是 Time To First Token,表示请求发出后到首个输出 token 返回之间的延迟。它通常受到排队、prefill、调度和网络开销影响。

什么是 Prefix Cache

Prefix Cache 复用多个请求共享的 prompt 前缀,避免重复执行相同前缀的 prefill 计算。

命中和未命中的差异

  • 命中:可跳过或减少共享前缀的 prefill,降低 TTFT。
  • 未命中:仍需完整处理 prompt,TTFT 与普通请求接近。
  • 部分命中:收益取决于命中 token 数、缓存查找成本与调度策略。

适用场景

Prefix Cache 更适合 system prompt 稳定、模板化输入多、请求前缀重复度高的服务,例如 Agent、RAG 和多轮对话系统。

后续 benchmark 计划

  1. 构造不同 prefix overlap 比例的数据集。
  2. 记录 p50/p95 TTFT 与吞吐。
  3. 对比缓存命中率、缓存容量和 eviction 策略。