Autor der Publikation

Empirical Study on Updating Key-Value Memories in Transformer Feed-forward Layers.

, , , und . Tiny Papers @ ICLR, OpenReview.net, (2024)

Bitte wählen Sie eine Person um die Publikation zuzuordnen

Um zwischen Personen mit demselben Namen zu unterscheiden, wird der akademische Grad und der Titel einer wichtigen Publikation angezeigt. Zudem lassen sich über den Button neben dem Namen einige der Person bereits zugeordnete Publikationen anzeigen.

 

Weitere Publikationen von Autoren mit dem selben Namen

Detection of Advertising Users Based on K-SMOTE and Ensemble Learning., , , , , und . HCC, Volume 13795 von Lecture Notes in Computer Science, Seite 133-145. Springer, (2021)Academic Article Classification Algorithm Based on Pre-trained Model and Keyword Extraction., , , , , und . ChineseCSCW (2), Volume 1492 von Communications in Computer and Information Science, Seite 149-161. Springer, (2021)A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias., , , , , und . CoRR, (2024)Unlocking Emergent Modularity in Large Language Models., , und . NAACL-HLT, Seite 2638-2660. Association for Computational Linguistics, (2024)Emergent Mixture-of-Experts: Can Dense Pre-trained Transformers Benefit from Emergent Modular Structures?, , und . CoRR, (2023)Supported Policy Optimization for Offline Reinforcement Learning., , , , und . NeurIPS, (2022)A University Portrait System Incorporating Academic Social Network., , , , , und . ChineseCSCW (2), Volume 1492 von Communications in Computer and Information Science, Seite 25-36. Springer, (2021)Empirical Study on Updating Key-Value Memories in Transformer Feed-forward Layers., , , und . Tiny Papers @ ICLR, OpenReview.net, (2024)HyperMoE: Towards Better Mixture of Experts via Transferring Among Experts., , , , , und . ACL (1), Seite 10605-10618. Association for Computational Linguistics, (2024)Stacking Your Transformers: A Closer Look at Model Growth for Efficient LLM Pre-Training., , , , , , , und . CoRR, (2024)