Autor der Publikation

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Um zwischen Personen mit demselben Namen zu unterscheiden, wird der akademische Grad und der Titel einer wichtigen Publikation angezeigt. Zudem lassen sich über den Button neben dem Namen einige der Person bereits zugeordnete Publikationen anzeigen.

 

Weitere Publikationen von Autoren mit dem selben Namen

Minimax Bounds on Stochastic Batched Convex Optimization., , und . COLT, Volume 75 von Proceedings of Machine Learning Research, Seite 3065-3162. PMLR, (2018)Large Catapults in Momentum Gradient Descent with Warmup: An Empirical Study., , , , und . CoRR, (2023)Are Transformers universal approximators of sequence-to-sequence functions?, , , , und . ICLR, OpenReview.net, (2020)Does SGD really happen in tiny subspaces?, , und . CoRR, (2024)Provable Memorization via Deep Neural Networks using Sub-linear Parameters., , , und . COLT, Volume 134 von Proceedings of Machine Learning Research, Seite 3627-3661. PMLR, (2021)Small ReLU networks are powerful memorizers: a tight analysis of memorization capacity., , und . NeurIPS, Seite 15532-15543. (2019)Minimum Width for Universal Approximation., , , und . ICLR, OpenReview.net, (2021)On the Training Instability of Shuffling SGD with Batch Normalization., , und . ICML, Volume 202 von Proceedings of Machine Learning Research, Seite 37787-37845. PMLR, (2023)Linear attention is (maybe) all you need (to understand Transformer optimization)., , , , , und . ICLR, OpenReview.net, (2024)Finite sample expressive power of small-width ReLU networks., , und . CoRR, (2018)