Artikel in einem Konferenzbericht,

Q-Hitter: A Better Token Oracle for Efficient LLM Inference via Sparse-Quantized KV Cache.

, , , , , und .
MLSys, mlsys.org, (2024)

Metadaten

Tags

Nutzer

  • @dblp

Kommentare und Rezensionen