,

PERL: Parameter Efficient Reinforcement Learning from Human Feedback.

H. Sidahmed, S. Phatale, A. Hutcheson, Z. Lin, Z. Chen, Z. Yu, J. Jin, R. Komarytsia, C. Ahlheim, Y. Zhu, S. Chaudhary, B. Li, S. Ganesh, B. Byrne, J. Hoffmann, H. Mansoor, W. Li, A. Rastogi, и L. Dixon.
CoRR, (2024)

Метаданные

ключ BibTeX: journals/corr/abs-2403-10704
тип записи: article
год: 2024
журнал: CoRR
том: abs/2403.10704
ee: https://doi.org/10.48550/arXiv.2403.10704
url: http://dblp.uni-trier.de/db/journals/corr/corr2403.html#abs-2403-10704

тэги

dblp

Пользователи данного ресурса

Комментарии и рецензиипоказать / перейти в невидимый режим

Пожалуйста, войдите в систему, чтобы принять участие в дискуссии (добавить собственные рецензию, или комментарий)

Цитировать эту публикацию

искать в

Что такое BibSonomy?: С чего начать; Кнопки для браузера; Помощь
Разработчикам: Обзор; API-документация

Контакт и защита личных данных: о нас; Cookies; Сообщить о проблеме; BibSonomy Вики

Интеграция: PUMA; Расширение для TYPO3; Плагин для; Клиент Java REST; Поддерживаемые источники; далее

О BibSonomy: Команда; Блог; Список рассылки
Социальные сети: Наш Twitter