Back to projects

LLM Inference Lab

In Progress

A long-term learning and experiment lab for LLM inference systems.

PythonPyTorchvLLMSGLangLMCacheDockerPrometheusGrafana

项目背景

LLM inference systems 正在从单纯模型调用转向系统工程问题:显存管理、缓存复用、调度策略、吞吐延迟权衡和成本优化。

项目目标

  • 系统学习 KV Cache、Prefix Cache 和 KV offloading。
  • 复现 vLLM、SGLang、LMCache 中关键机制。
  • 建立可重复的 benchmark methodology。
  • 输出技术笔记、实验报告和工程总结。

技术栈

Python, PyTorch, vLLM, SGLang, LMCache, Docker, Prometheus, Grafana.

当前进度

  • 已确定学习主题和实验方向。
  • 正在整理 prefill/decode、KV Cache memory 与 Prefix Cache benchmark 的笔记。

实验记录

ExperimentMetricStatus
Prefill vs decode latencyTTFT / TPOTPlanned
KV Cache memory estimateGPU memoryPlanned
Prefix Cache hit rateTTFTPlanned

相关笔记

后续计划

  1. 搭建基础 benchmark harness。
  2. 记录模型、硬件、并发、prompt 分布等实验条件。
  3. 将实验结果整理为可复现报告。