From post

копировать удалить добавить публикацию в буфер
Запись сообщества
посмотреть историю данной записи
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

Aligning Language Models with Preferences through f-divergence Minimization.

D. Go, T. Korbak, G. Kruszewski, J. Rozen, N. Ryu, и M. Dymetman. ICML, том 202 из Proceedings of Machine Learning Research, стр. 11546-11583. PMLR, (2023)

Please choose a person to relate this publication to

To differ between persons with the same name, the academic degree and the title of an important publication will be displayed.

Tomasz Kupka

Ascheablagerungsprobleme bei der Mitverbrennung von alternativen Brennstoffen in SteinkohlekraftwerkenT. Kupka. TU Clausthal-Zellerfeld, (2009)

Tomasz Wocjan

Dynamics of DNA in nucleosomes and plasmids studied by Brownian dynamicsT. Wocjan. Uni Heidelberg, (2009)

Tomasz Mistrzyk

Tomasz Trela

Tomasz Zyss

Другие публикации лиц с тем же именем

On Reinforcement Learning and Distribution Matching for Fine-Tuning Language Models with no Catastrophic Forgetting.T. Korbak, H. Elsahar, G. Kruszewski, и M. Dymetman. NeurIPS, (2022)Aligning Language Models with Preferences through f-divergence Minimization.D. Go, T. Korbak, G. Kruszewski, J. Rozen, N. Ryu, и M. Dymetman. ICML, том 202 из Proceedings of Machine Learning Research, стр. 11546-11583. PMLR, (2023)Fine-Tuning Tree-LSTM for Phrase-Level Sentiment Classification on a Polish Dependency Treebank.T. Korbak, и P. Zak. LCT, том 12598 из Lecture Notes in Computer Science, стр. 31-42. Springer, (2017)Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback.S. Casper, X. Davies, C. Shi, T. Gilbert, J. Scheurer, J. Rando, R. Freedman, T. Korbak, D. Lindner, P. Freire и 22 other автор(ы). Trans. Mach. Learn. Res., (2023)The Reversal Curse: LLMs trained on Ä is B" fail to learn "B is A".L. Berglund, M. Tong, M. Kaufmann, M. Balesni, A. Stickland, T. Korbak, и O. Evans. ICLR, OpenReview.net, (2024)RL with KL penalties is better viewed as Bayesian inference.T. Korbak, E. Perez, и C. Buckley. EMNLP (Findings), стр. 1083-1091. Association for Computational Linguistics, (2022)Controlling Conditional Language Models without Catastrophic Forgetting.T. Korbak, H. Elsahar, G. Kruszewski, и M. Dymetman. ICML, том 162 из Proceedings of Machine Learning Research, стр. 11499-11528. PMLR, (2022)The Emergence of Action-grounded Compositional Communication.K. Glówka, M. Niklewski, J. Wiszowata, T. Korbak, J. Raczaszek-Leonardi, и J. Zubek. CogSci, cognitivesciencesociety.org, (2020)Taken out of context: On measuring situational awareness in LLMs.L. Berglund, A. Stickland, M. Balesni, M. Kaufmann, M. Tong, T. Korbak, D. Kokotajlo, и O. Evans. CoRR, (2023)Towards Understanding Sycophancy in Language Models.M. Sharma, M. Tong, T. Korbak, D. Duvenaud, A. Askell, S. Bowman, E. Durmus, Z. Hatfield-Dodds, S. Johnston, S. Kravec и 8 other автор(ы). ICLR, OpenReview.net, (2024)

BibSonomy

Disambiguation