KV Cache 为什么会吃显存？

梳理 KV Cache 的数据结构、显存估算方式，以及长上下文为什么会放大问题。

Jun 20, 2026 Updated Jun 20, 2026 1 min read

KV Cache 存什么

KV Cache 保存每一层 attention 计算产生的 key 和 value。生成新 token 时，模型复用历史 key/value，避免重复计算整个上下文。

一个简化估算：

KV memory = batch_size * sequence_length * num_layers * hidden_size * 2 * bytes_per_element

其中 2 表示 key 和 value 两份缓存。

长上下文会让每个请求持有更大的缓存。即使 decode 每步只生成一个 token，系统仍然需要读取并管理越来越长的历史缓存。

KV Cache 优化的目标不是只减少显存，还要在吞吐、延迟和命中率之间做工程权衡。