About

我是一名有 6 年以上 Python 开发经验的软件工程师,正在从应用开发系统性转向 LLM inference systems 与 AI infrastructure。

Current direction

关注推理服务优化、KV Cache 生命周期、Prefix Cache 命中、KV offloading、cache-aware routing 与可复现实验方法。

Learning roadmap

  1. 理解 prefill/decode 阶段与吞吐、延迟指标。
  2. 复现实验 vLLM、SGLang、LMCache 的缓存策略。
  3. 建立 benchmark harness,记录 TTFT、TPOT、throughput 和 GPU memory。
  4. 探索 KV offloading、prefix reuse 与 routing 策略。