From post

копировать удалить добавить публикацию в буфер
Запись сообщества
посмотреть историю данной записи
URL
DOI
BibTeX
EndNote
APA
Chicago
DIN 1505
Harvard
MSOffice XML

Vanishing Gradients in Reinforcement Finetuning of Language Models.

N. Razin, H. Zhou, O. Saremi, V. Thilak, A. Bradley, P. Nakkiran, J. Susskind, и E. Littwin. ICLR, OpenReview.net, (2024)

Please choose a person to relate this publication to

To differ between persons with the same name, the academic degree and the title of an important publication will be displayed.

Farnaz Saremi

Kamran Saremi

Kamran Saremi

Mohammad-Reza Omidi

Aazam Saremi

Другие публикации лиц с тем же именем

When can transformers reason with abstract symbols?E. Boix-Adserà, O. Saremi, E. Abbe, S. Bengio, E. Littwin, и J. Susskind. CoRR, (2023)Holographic stress tensor for non-relativistic theoriesS. Ross, и O. Saremi. Journal of High Energy Physics, 2009 (09): 009 (10.07.2009)An Improved Continuous-Action Extended Classifier Systems for Function Approximation.O. Saremi, M. Panahi, и A. Sabzehzar. Complex Adaptive Systems, том 61 из Procedia Computer Science, стр. 361-366. Elsevier, (2015)How JEPA Avoids Noisy Features: The Implicit Bias of Deep Linear Self Distillation Networks.E. Littwin, O. Saremi, M. Advani, V. Thilak, P. Nakkiran, C. Huang, и J. Susskind. CoRR, (2024)Adaptivity and Modularity for Efficient Generalization Over Task Complexity.S. Abnar, O. Saremi, L. Dinh, S. Wilson, M. Bautista, C. Huang, V. Thilak, E. Littwin, J. Gu, J. Susskind и 1 other автор(ы). CoRR, (2023)What Algorithms can Transformers Learn? A Study in Length Generalization.H. Zhou, A. Bradley, E. Littwin, N. Razin, O. Saremi, J. Susskind, S. Bengio, и P. Nakkiran. CoRR, (2023)Vanishing Gradients in Reinforcement Finetuning of Language Models.N. Razin, H. Zhou, O. Saremi, V. Thilak, A. Bradley, P. Nakkiran, J. Susskind, и E. Littwin. CoRR, (2023)An Improved eXtended Classifier System for the Real-time-input Real-time-output (XCSRR) Stability Control of a Biped Robot.A. Sabzehzar, W. Shan, M. Panahi, и O. Saremi. Complex Adaptive Systems, том 61 из Procedia Computer Science, стр. 492-499. Elsevier, (2015)The Slingshot Effect: A Late-Stage Optimization Anomaly in Adaptive Gradient Methods.V. Thilak, E. Littwin, S. Zhai, O. Saremi, R. Paiss, и J. Susskind. Trans. Mach. Learn. Res., (2024)How Far Can Transformers Reason? The Locality Barrier and Inductive Scratchpad.E. Abbe, S. Bengio, A. Lotfi, C. Sandon, и O. Saremi. CoRR, (2024)

Что такое BibSonomy?: С чего начать; Кнопки для браузера; Помощь
Разработчикам: Обзор; API-документация

Контакт и защита личных данных: о нас; Cookies; Сообщить о проблеме; BibSonomy Вики

Интеграция: PUMA; Расширение для TYPO3; Плагин для; Клиент Java REST; Поддерживаемые источники; далее

О BibSonomy: Команда; Блог; Список рассылки
Социальные сети: Наш Twitter