Autor der Publikation

Same Pre-training Loss, Better Downstream: Implicit Bias Matters for Language Models.

, , , und . ICML, Volume 202 von Proceedings of Machine Learning Research, Seite 22188-22214. PMLR, (2023)

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Um zwischen Personen mit demselben Namen zu unterscheiden, wird der akademische Grad und der Titel einer wichtigen Publikation angezeigt. Zudem lassen sich über den Button neben dem Namen einige der Person bereits zugeordnete Publikationen anzeigen.

 

Weitere Publikationen von Autoren mit dem selben Namen

A practical framework for predicting residential indoor PM2. 5 concentration using land-use regression and machine learning methods, , , , , , und . Chemosphere, (2021)The role of over-parametrization in generalization of neural networks, , , , und . International Conference on Learning Representations, (2019)Harnessing the Power of Infinitely Wide Deep Nets on Small-data Tasks., , , , , und . ICLR, OpenReview.net, (2020)Multiple Pedestrian Tracking With Graph Attention Map on Urban Road Scene., , , , und . IEEE Trans. Intell. Transp. Syst., 24 (8): 8567-8579 (August 2023)Towards Resolving the Implicit Bias of Gradient Descent for Matrix Factorization: Greedy Low-Rank Learning., , und . CoRR, (2020)A Novel Input Stage Based on DTMOS for Low-Voltage Low-Noise Operational Amplifier., , und . APCCAS, Seite 1591-1594. IEEE, (2006)Interprocedural Analysis Based on Guarded Array Regions., , und . Compiler Optimizations for Scalable Parallel Systems Languages, Volume 1808 von Lecture Notes in Computer Science, Seite 221-246. Springer, (2001)Hyper-parameter Tuning of Federated Learning Based on Particle Swarm Optimization., , und . CCIS, Seite 99-103. IEEE, (2021)On the Validity of Modeling SGD with Stochastic Differential Equations (SDEs)., , und . NeurIPS, Seite 12712-12725. (2021)Understanding the Generalization Benefit of Normalization Layers: Sharpness Reduction., , und . NeurIPS, (2022)