From post

копировать удалить добавить публикацию в буфер
Запись сообщества
посмотреть историю данной записи
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

UL2: Unifying Language Learning Paradigms.

Y. Tay, M. Dehghani, V. Tran, X. Garcia, J. Wei, X. Wang, H. Chung, D. Bahri, T. Schuster, H. Zheng, D. Zhou, N. Houlsby, и D. Metzler. ICLR, OpenReview.net, (2023)

Please choose a person to relate this publication to

To differ between persons with the same name, the academic degree and the title of an important publication will be displayed.

Hyung-Sig Won

Hyung-Won Koh

Hyung-won Min

Wook-Hyung Chung

Hyung Youn

Другие публикации лиц с тем же именем

What Language Model Architecture and Pretraining Objective Works Best for Zero-Shot Generalization?T. Wang, A. Roberts, D. Hesslow, T. Scao, H. Chung, I. Beltagy, J. Launay, и C. Raffel. ICML, том 162 из Proceedings of Machine Learning Research, стр. 22964-22984. PMLR, (2022)Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?Y. Tay, M. Dehghani, S. Abnar, H. Chung, W. Fedus, J. Rao, S. Narang, V. Tran, D. Yogatama, и D. Metzler. EMNLP (Findings), стр. 12342-12364. Association for Computational Linguistics, (2023)UniMax: Fairer and More Effective Language Sampling for Large-Scale Multilingual Pretraining.H. Chung, X. Garcia, A. Roberts, Y. Tay, O. Firat, S. Narang, и N. Constant. ICLR, OpenReview.net, (2023)Language models are multilingual chain-of-thought reasoners.F. Shi, M. Suzgun, M. Freitag, X. Wang, S. Srivats, S. Vosoughi, H. Chung, Y. Tay, S. Ruder, D. Zhou и 2 other автор(ы). ICLR, OpenReview.net, (2023)Charformer: Fast Character Transformers via Gradient-based Subword Tokenization.Y. Tay, V. Tran, S. Ruder, J. Gupta, H. Chung, D. Bahri, Z. Qin, S. Baumgartner, C. Yu, и D. Metzler. CoRR, (2021)Mixture-of-Experts Meets Instruction Tuning: A Winning Combination for Large Language Models.S. Shen, L. Hou, Y. Zhou, N. Du, S. Longpre, J. Wei, H. Chung, B. Zoph, W. Fedus, X. Chen и 10 other автор(ы). ICLR, OpenReview.net, (2024)Charformer: Fast Character Transformers via Gradient-based Subword Tokenization.Y. Tay, V. Tran, S. Ruder, J. Gupta, H. Chung, D. Bahri, Z. Qin, S. Baumgartner, C. Yu, и D. Metzler. ICLR, OpenReview.net, (2022)Scale Efficiently: Insights from Pretraining and Finetuning Transformers.Y. Tay, M. Dehghani, J. Rao, W. Fedus, S. Abnar, H. Chung, S. Narang, D. Yogatama, A. Vaswani, и D. Metzler. ICLR, OpenReview.net, (2022)Transcending Scaling Laws with 0.1% Extra Compute.Y. Tay, J. Wei, H. Chung, V. Tran, D. So, S. Shakeri, X. Garcia, H. Zheng, J. Rao, A. Chowdhery и 6 other автор(ы). EMNLP, стр. 1471-1486. Association for Computational Linguistics, (2023)UL2: Unifying Language Learning Paradigms.Y. Tay, M. Dehghani, V. Tran, X. Garcia, J. Wei, X. Wang, H. Chung, D. Bahri, T. Schuster, H. Zheng и 3 other автор(ы). ICLR, OpenReview.net, (2023)

BibSonomy

Disambiguation

копировать удалить добавить публикацию в буфер
Запись сообщества
посмотреть историю данной записи
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

UL2: Unifying Language Learning Paradigms.

Please choose a person to relate this publication to

Hyung-Sig Won

Hyung-Won Koh

Hyung-won Min

Wook-Hyung Chung

Hyung Youn

Другие публикации лиц с тем же именем

Disambiguation

BibSonomy

Disambiguation

копироватьудалитьдобавить публикацию в буферЗапись сообществапосмотреть историю данной записиURLDOIBibTeXEndNoteAPAChicagoDIN 1505HarvardMSOffice XML UL2: Unifying Language Learning Paradigms.

Please choose a person to relate this publication to

Hyung-Sig Won

Hyung-Won Koh

Hyung-won Min

Wook-Hyung Chung

Hyung Youn

Другие публикации лиц с тем же именем

Disambiguation

копировать удалить добавить публикацию в буфер
Запись сообщества
посмотреть историю данной записи
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

UL2: Unifying Language Learning Paradigms.