Autor der Publikation

1-bit LAMB: Communication Efficient Large-Scale Large-Batch Training with LAMB's Convergence Speed.

, , , , und . HIPC, Seite 272-281. IEEE, (2022)

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Um zwischen Personen mit demselben Namen zu unterscheiden, wird der akademische Grad und der Titel einer wichtigen Publikation angezeigt. Zudem lassen sich über den Button neben dem Namen einige der Person bereits zugeordnete Publikationen anzeigen.

 

Weitere Publikationen von Autoren mit dem selben Namen

Exploiting Hardware Multicast and GPUDirect RDMA for Efficient Broadcast., , , , , und . IEEE Trans. Parallel Distributed Syst., 30 (3): 575-588 (2019)Optimized Broadcast for Deep Learning Workloads on Dense-GPU InfiniBand Clusters: MPI or NCCL?, , , und . CoRR, (2017)A Novel Tensor-Expert Hybrid Parallelism Approach to Scale Mixture-of-Experts Training., , , , , und . CoRR, (2023)1-bit LAMB: Communication Efficient Large-Scale Large-Batch Training with LAMB's Convergence Speed., , , , und . HIPC, Seite 272-281. IEEE, (2022)OC-DNN: Exploiting Advanced Unified Memory Capabilities in CUDA 9 and Volta GPUs for Out-of-Core DNN Training., , , , und . HiPC, Seite 143-152. IEEE, (2018)Efficient and Scalable Multi-Source Streaming Broadcast on GPU Clusters for Deep Learning., , , , , , und . ICPP, Seite 161-170. IEEE Computer Society, (2017)An In-depth Performance Characterization of CPU- and GPU-based DNN Training on Modern Architectures., , und . MLHPC@SC, Seite 8:1-8:8. ACM, (2017)Intercloud message exchange middleware., , , und . ICUIMC, Seite 79:1-79:7. ACM, (2012)Communication Profiling and Characterization of Deep-Learning Workloads on Clusters With High-Performance Interconnects., , , , und . IEEE Micro, 40 (1): 35-43 (2020)DeepSpeed-Chat: Easy, Fast and Affordable RLHF Training of ChatGPT-like Models at All Scales., , , , , , , , , und 9 andere Autor(en). CoRR, (2023)