Autor der Publikation

Kopieren Löschen Diese Publikation zur Ablage hinzufügen
Community-Eintrag
Versionsverlauf dieses Eintrags
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization.

C. Hooper, S. Kim, H. Mohammadzadeh, M. Mahoney, Y. Shao, K. Keutzer, und A. Gholami. CoRR, (2024)

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Um zwischen Personen mit demselben Namen zu unterscheiden, wird der akademische Grad und der Titel einer wichtigen Publikation angezeigt. Zudem lassen sich über den Button neben dem Namen einige der Person bereits zugeordnete Publikationen anzeigen.

Melvis Hooper

Mark Hooper

Kathleen R Hooper

John Derek Coleman

John Coleman Darnell

Weitere Publikationen von Autoren mit dem selben Namen

SM6: A 16nm System-on-Chip for Accurate and Noise-Robust Attention-Based NLP Applications : The 33rd Hot Chips Symposium - August 22-24, 2021.T. Tambe, E. Yang, G. Ko, Y. Chai, C. Hooper, M. Donato, P. Whatmough, A. Rush, D. Brooks, und G. Wei. HCS, Seite 1-13. IEEE, (2021)A 16-nm SoC for Noise-Robust Speech and NLP Edge AI Inference With Bayesian Sound Source Separation and Attention-Based DNNs.T. Tambe, E. Yang, G. Ko, Y. Chai, C. Hooper, M. Donato, P. Whatmough, A. Rush, D. Brooks, und G. Wei. IEEE J. Solid State Circuits, 58 (2): 569-581 (Februar 2023)Learned Best-Effort LLM Serving.S. Jha, C. Hooper, X. Liu, S. Kim, und K. Keutzer. CoRR, (2024)Full Stack Optimization of Transformer Inference: a Survey.S. Kim, C. Hooper, T. Wattanawong, M. Kang, R. Yan, H. Genc, G. Dinh, Q. Huang, K. Keutzer, M. Mahoney und 2 andere Autor(en). CoRR, (2023)EdgeBERT: Optimizing On-Chip Inference for Multi-Task NLP.T. Tambe, C. Hooper, L. Pentecost, E. Yang, M. Donato, V. Sanh, A. Rush, D. Brooks, und G. Wei. CoRR, (2020)AI and Memory Wall.A. Gholami, Z. Yao, S. Kim, C. Hooper, M. Mahoney, und K. Keutzer. CoRR, (2024)Property-Aware Multi-Speaker Data Simulation: A Probabilistic Modelling Technique for Synthetic Data Generation.T. Park, H. Huang, C. Hooper, N. Koluguri, K. Dhawan, A. Jukic, J. Balam, und B. Ginsburg. CoRR, (2023)KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization.C. Hooper, S. Kim, H. Mohammadzadeh, M. Mahoney, Y. Shao, K. Keutzer, und A. Gholami. CoRR, (2024)SPEED: Speculative Pipelined Execution for Efficient Decoding.C. Hooper, S. Kim, H. Mohammadzadeh, H. Genc, K. Keutzer, A. Gholami, und Y. Shao. CoRR, (2023)A 12nm 18.1TFLOPs/W Sparse Transformer Processor with Entropy-Based Early Exit, Mixed-Precision Predication and Fine-Grained Power Management.T. Tambe, J. Zhang, C. Hooper, T. Jia, P. Whatmough, J. Zuckerman, M. dos Santos, E. Loscalzo, D. Giri, K. Shepard und 4 andere Autor(en). ISSCC, Seite 342-343. IEEE, (2023)

BibSonomy

Disambiguierung von "Hooper, Coleman"

Kopieren Löschen Diese Publikation zur Ablage hinzufügen
Community-Eintrag
Versionsverlauf dieses Eintrags
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization.

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Melvis Hooper

Mark Hooper

Kathleen R Hooper

John Derek Coleman

John Coleman Darnell

Weitere Publikationen von Autoren mit dem selben Namen

Disambiguierung

BibSonomy

Disambiguierung von "Hooper, Coleman"

KopierenLöschenDiese Publikation zur Ablage hinzufügenCommunity-EintragVersionsverlauf dieses EintragsURLDOIBibTeXEndNoteAPAChicagoDIN 1505HarvardMSOffice XML KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization.

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Melvis Hooper

Mark Hooper

Kathleen R Hooper

John Derek Coleman

John Coleman Darnell

Weitere Publikationen von Autoren mit dem selben Namen

Disambiguierung

Kopieren Löschen Diese Publikation zur Ablage hinzufügen
Community-Eintrag
Versionsverlauf dieses Eintrags
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization.