Autor der Publikation

Quant-LLM: Accelerating the Serving of Large Language Models via FP6-Centric Algorithm-System Co-Design on Modern GPUs.

, , , , , , , , , , , , und . USENIX ATC, Seite 699-713. USENIX Association, (2024)

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Um zwischen Personen mit demselben Namen zu unterscheiden, wird der akademische Grad und der Titel einer wichtigen Publikation angezeigt. Zudem lassen sich über den Button neben dem Namen einige der Person bereits zugeordnete Publikationen anzeigen.

 

Weitere Publikationen von Autoren mit dem selben Namen

MonoNN: Enabling a New Monolithic Optimization Space for Neural Network Inference Tasks on Modern GPU-Centric Architectures., , , , , , und . OSDI, Seite 989-1005. USENIX Association, (2024)Shift-BNN: Highly-Efficient Probabilistic Bayesian Neural Network Training via Memory-Friendly Pattern Retrieving., , , , , und . MICRO, Seite 885-897. ACM, (2021)Quant-LLM: Accelerating the Serving of Large Language Models via FP6-Centric Algorithm-System Co-Design on Modern GPUs., , , , , , , , , und 3 andere Autor(en). USENIX ATC, Seite 699-713. USENIX Association, (2024)Continuous Authentication Technology Based on Device Driver Behavior., , , , , und . CSCWD, Seite 2806-2811. IEEE, (2024)Flash-LLM: Enabling Cost-Effective and Highly-Efficient Large Generative Model Inference with Unstructured Sparsity., , , , , , , , und . CoRR, (2023)Enabling Fast and Memory-Efficient Acceleration for Pattern Matching Workloads: The Lightweight Automata Processing Engine., , , , , und . IEEE Trans. Computers, 72 (4): 1011-1025 (April 2023)HyperKRP: A Kernel Runtime Security Architecture with A Tiny Hypervisor on Commodity Hardware., , , , und . GLOBECOM, Seite 1-6. IEEE, (2021)EI-XIDS: An explainable intrusion detection system based on integration framework., , , , und . CSCWD, Seite 2680-2685. IEEE, (2024)Desktop Virtualization Optimization Methods Based on IDV Architecture., , , und . CSCWD, Seite 2894-2899. IEEE, (2024)Secure and Efficient BMC-Based Centralized Management Method for Large-Scale Data Centers., , und . HPCC/DSS/SmartCity/DependSys, Seite 1328-1335. IEEE, (2022)