Autor der Publikation

ZeroQuant-HERO: Hardware-Enhanced Robust Optimized Post-Training Quantization Framework for W8A8 Transformers.

, , , , , und . CoRR, (2023)

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Um zwischen Personen mit demselben Namen zu unterscheiden, wird der akademische Grad und der Titel einer wichtigen Publikation angezeigt. Zudem lassen sich über den Button neben dem Namen einige der Person bereits zugeordnete Publikationen anzeigen.

 

Weitere Publikationen von Autoren mit dem selben Namen

SHARP: An Adaptable, Energy-Efficient Accelerator for Recurrent Neural Networks., , , , , und . ACM Trans. Embed. Comput. Syst., 22 (2): 30:1-30:23 (März 2023)Understanding INT4 Quantization for Transformer Models: Latency Speedup, Composability, and Failure Cases., , , , und . CoRR, (2023)Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, A Large-Scale Generative Language Model., , , , , , , , , und 10 andere Autor(en). CoRR, (2022)ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale Transformers., , , , , und . NeurIPS, (2022)ZeroQuant(4+2): Redefining LLMs Quantization with a New FP6-Centric Strategy for Diverse Generative Tasks., , , , , , , , , und 2 andere Autor(en). CoRR, (2023)ZeRO-Offload: Democratizing Billion-Scale Model Training., , , , , , , und . USENIX Annual Technical Conference, Seite 551-564. USENIX Association, (2021)Understanding Int4 Quantization for Language Models: Latency Speedup, Composability, and Failure Cases., , , , und . ICML, Volume 202 von Proceedings of Machine Learning Research, Seite 37524-37539. PMLR, (2023)DeepSpeed-FastGen: High-throughput Text Generation for LLMs via MII and DeepSpeed-Inference., , , , , , , , , und 1 andere Autor(en). CoRR, (2024)ZeroQuant-HERO: Hardware-Enhanced Robust Optimized Post-Training Quantization Framework for W8A8 Transformers., , , , , und . CoRR, (2023)DeepSpeed- Inference: Enabling Efficient Inference of Transformer Models at Unprecedented Scale., , , , , , , , , und 1 andere Autor(en). SC, Seite 46:1-46:15. IEEE, (2022)